כמה עולה כל מילה בתשובה של Claude? וכמה מורכב זה להרים שרת שמריץ מודל שפה ענק? פרק חדש ב״עושים תוכנה״, אירחתי את @MikeE_3_14 לפרק בדיוק על זה.
האזנה נעימה 🎧
חושבים שאתם מבינים איך LLMs עובדים? תחשבו שוב. 🤯
מה באמת קורה מאחורי הקלעים כשאתם שולחים פרומפט? איך דוחסים מפלצות של מאות מיליארדי פרמטרים לתוך עשרות GPUs, ואיך הקלסטר הזה מצליח לשרת אלפי משתמשים במקביל בלי להתפוצץ? 💥
התארחתי לאחרונה לשיחה מטורפת אצל @amit_bend בפודקסט האגדי שלו ״עושים תוכנה״.
פירקנו את עולם האינפרנס מבפנים. בלי בולשיט, צללנו ישר לברזלים:
🔹 מה זה KV Cache ולמה בלעדיו הכל קורס
🔹 סודות הקסם של Batching
🔹 ההבדל (שכולם מפספסים) בין Prefill ל-Decode
🔹 איך לעזאזל מחלקים מודל אחד בין כמה GPUs שונים
🔹 ואיך עובד הקסם של Mixture of Experts
אם אתם מהנדסים ורוצים לגלות למה Inference הפך לתחום הכי קריטי וחם בעולם ה-AI היום (כן, יותר מאימון מודלים), ואיך אתם יכולים להתחיל להריץ מודלים כאלה בעצמכם בבית, אתם פשוט חייבים להאזין לזה.
לינק לפרק המלא בתגובה הראשונה! 👇🎙️
״מתישהו החגיגה הזאת עלולה להיגמר״
ד״ר מייק ארליכסון מגיע ל״עושים תוכנה״ לדבר על איך באמת מריצים LLM בסקייל עצום.
לינק בתגובה הראשונה 👇
#פודקאסט#llm@MikeE_3_14@amit_bend
✨ Announcing NanoClaw v2, in partnership with @vercel.
We completely rebuilt how NanoClaw agents communicate with the outside world. v2 brings agent-to-agent communication, human-in-the-loop-approvals, support for 15 messaging platforms, and more.
A thread on what's new:
Here’s an early preview of ElevenLabs Music.
All of the songs in this thread were generated from a single text prompt with no edits.
Title: It Started to Sing
Style: “Pop pop-rock, country, top charts song.”