למה כתבנו* Harness משלנו? 🧵
בתחילת** הדרך בריינדיר הרצנו את כל ה workflows של הלקוחות על גבי ה sdk של קלוד קוד. זה עבד יופי, אבל עם הסקייל התחלנו להיתקל בבעיות.
*קיסטמנו את https://t.co/iKaDZKhDnT
**ממש בהתחלה קראנו ישירות ל API של המודלים אבל די מהר הבנו שהארנס זה קריטי.
היה לי גם סיפור מוזר שפודים היו נחנקים לא משנה כמה CPU קיבלו בלימיט
הסתבר ש PyTorch אם אתה לא מגדיר לו מאיפה לקחת את הCPU הוא לוקח את כמות הCPU בנוד ולפי זה מחשב כמה ת׳רדים הוא יכול לפתוח
אחרי שעליתי על זה הגדרתי לו לחשב את הת׳רדים לפי הלימיט (שני ת׳רדים לCPU ) ואז זה התחיל לטוס