@HanaWeizer לגבי ״עם כלביא״ - זה לא נכון. במהלך כל המבצע ביחד שוגרו עלינו כ-550 טילים. היום הכי אינטנסיבי היה היום השני עם 120 טילים ב-4 מטחים. בשבוע השני של המבצע הממוצע היומי היה בערך 20 טילים.
דל״פ: הסילבוס הזה מעולה. כל כמה שנים חוזר הד��ון - למה לא מלמדים <הכנס את הדבר החם בשוק התוכנ��> בתואר במדמ״ח? הדבר החם מתחלף כל 3-4 שנים בזמן שהסילבוס במדמ״ח יושב לו בנחת ומוכיח אופטימליות של קוד הופמן זו השנה ה-70 ברצף (או משהו כזה. שכחתי הרבה מהתואר והאמת שבכלל למדתי פיזיקה).
הפעלה אקדמית וכולם מוזמנים: דיי ברור שיש הרבה נושאים שאמורים למצוא את דרכם לסילבוס במדמ"ח והנדסת תוכנה כמו למשל מודלי שפה, סוכנים, ארכיטקטורת תוכנה, אפיון מערכות, פרויקטים מעשיים וכמובן גיט. השאלה: איזה קורסי חובה הייתם מורידים מהסילבוס או משנים?
אני לא יודע מי צריך לשמוע את זה, אבל להתקשר אלי בטלפון ולנסות למכור לי איזשהו סוג של SaaS או פלטפורמה למפתחים זו אחת הדרכים הכי טובות להבטיח שאני אשנא את החברה שלכם לנצח.
@yairwein Agree BUT:
1. IIUC you're talking about the cost of reimplementing, which is not sunk cost - it's in the future.
2. I'd argue the true cost was never reimplementing but revalidating to reach the same level of trust as the original. In infra / complex systems this is huge.
@nir_benz@ShaharTzafrir לגבי 1: הכי קל פשוט למצוא שימ��ש שונה לכל דגם. למשל להריץ אבלואציות, סינתוז או ניסויים על דגם א׳, כשהאימון הראשי רץ על דגם ב׳. אם רוצים בכל זאת למצות את כל החומרה לטובת אימון הראשי אז אפשר להקצות batch size/context len/num experts שונה (יותר מסובך).
ולגבי המשפט האחרון אני מסכים.
@ShaharTzafrir הטענות:
1. חומרה הטרוגנית -> לא יעיל כי המהירים מחכים לאיטיים;
2. התקשורת של nvidia היא ב-ring -> איטית בסקייל;
3. התוכנה גורמת ל-gpus החדשים להמיס את עצמם.
1- נכון עקרונית, פרקטית פתיר וניתן לעקוף.
2- תומכים גם ב-tree. ובכל מקרה קולוסוס קיים שנתיים, מה השתנה עכשיו?
3- נו באמת.
@yoavgo I agree, that's a fair point. On the other hand in ProgramBench you get to run the thing you are asked to re-implement, which is something the physicists usually don't have. I wonder how much ProgramBench scores would increase if they provided something like templated test cases.
@bojie_li Cool work. Couldn't find this in the paper: Did you look at pre-training corpus size? How do you disentangle that from model size? At the limit, surely the calibration won't work for a 10T parameter model trained on 1M tokens.
@bojie_li Cool work. Couldn't find this in the paper: Did you look at pre-training corpus size? How do you disentangle that from model size? At the limit, surely the calibration won't work for a 10T parameter model trained on 1M tokens.
@DanielBachmat@omrimaniv מאיפה הנתון על הנזק לטיל שלא מיורט? נראה לי לא טריוויאלי לחשב אותו ממקורות גלויים (והאמת גם בכלל), כי אני מניח שדווקא הטילים שבפועל יורטו היו עקרונית גורמים לנזק יותר גבוה מאלו שבפועל לא יורטו. לא?
@amsterdamski2@CarmonDvir אני בכנות לא מבין את הוויכוח. האם המכולת בכלל מכרה את החמץ שלה לגוי? אם לא מכרו, אז אין על מה לבוא בטענות. אם כן מכרו אז ברור שיש, אבל נדמה לי שהכתובת היא הבעלים של המכולת ולא הקונה...
@Meir_Rubin אני לא יודע איפה שאול גר אבל נראה לי סביר להניח שהמכולת השכונתית שלו פשוט לא כשרה ולכן לא מכרה את החמץ לגוי מלכתחילה... שזה בסדר. החוק מחייב לכסות את המוצרים, אבל אין חובה למכור את החמץ לגוי ואין איסור למכור אותו ללקוחות. חנות שאכפת לה מהכשרות לפסח תמכור לגוי ולא תמכור לשאול.
@ziv_ravid לא מבין את ההשוואה. יש גם בתי קפה מוצלחים יותר ומוצלחים פחות, ובלי שבדקתי אני אנחש בזהירות שהרבה מהם לא מחזירים אפילו את ההשקעה. אבל הם לא גובים ממני מס אז לא בעיה שלי.
@the_yaniv אני זוכר שראיתי את המהומה בשבת ואז את הציוץ במוצאי שבת אז חזרתי לבדוק. הציוץ שלו מ-18:52. צאת שבת בירושלים אתמול ב-18:28. אז קודם כל, הוא צייץ אחרי צאת שבת. חוץ מזה, אני באמת לא חושב שזה רלוונטי או מעניין, גם אם צייץ ביום כיפור מתוך כנסייה עם צלע חזיר בפה.