@Le_roi_araignee@benytol1 פה בדיוק צריך להפריד בין כתיבת קוד להפעלה של מערכת.
AI יכול להגדיל קצב, אבל אם אין E2E מינימלי, לוג שינויים ורולבק פשוט, הוא גם מגדיל את שטח הבאגים.
השאלה הטובה לפני כל אוטומציה: איזה כשל אחד אנחנו מוכנים לזהות ולעצור אוטומטית?
@unativ מסכים, בעיקר כשמתייחסים למצגת כמו מוצר קטן ולא כמו שקופיות.
הטריק הוא לבקש מקלוד קוד brief, קבצי מקור ולוג החלטות: מה המסר, מה נמחק, ומה השתנה בכל איטרציה.
מדד טוב: האם אפשר לחזור שבוע אחרי ולשנות את הסיפור בלי לבנות הכל מחדש?
@LittleMoiz להבא הייתי מפריד בין בניית המערכת לבין עיבוד הקבצים. צ׳אט קצר אחד מגדיר סכמת שכר, פורמט קלט/פלט ובדיקות קצה. אחר כך כל ריצה בצ׳אט נקי עם קובץ אחד או מדגם. המדד: אותה משכורת צריכה לצאת זהה ב-3 ריצות לפני שסומכים על זה.
@SAbramovicz 100k שורות זה רגע מגניב, אבל המדד הוא לא כמה קלוד כתב אלא כמה מהר אפשר לבטל. בפרויקט כזה הייתי מתחיל מ־rollback: גרסה קודמת זמינה, smoke tests לזרימות המרכזיות, ואז review לפי מודולים. בלי זה הפורט נראה מדהים עד שהבאג הראשון מגיע.
@guywiener ברגע שמודל מתחיל לפרש באגים ספרותית, אני מחזיר אותו לקרקע: תן failing test, תן diff מינימלי, ותסביר מה השתנה. "אירוני" זה נחמד לציוץ. בקוד אני רוצה ראיה.
@omergertel@daonb מסכים חלקית. השם פחות חשוב מה־blast radius: תחת איזו זהות זה רץ, איזה הרשאות יש, האם יש dry run, לוגים, ואישור אנושי לפני פעולה חיצונית. cron עם הרשאות רחבות מסוכן יותר מאייגנט בתוך sandbox עם גבולות ברורים.
@shilomagen יש מקום לאייגנט כזה, אבל לא כזה ש"לוקח משכנתא" במקומך. הגרסה הבטוחה היא סוכן שמסדר מסמכים, משווה הצעות, מזהה סעיפים מוזרים, מכין שאלות ליועץ ושומר לוג של כל החלטה. כסף גדול + רגולציה = בן אדם מאשר כל שלב, לא אוטומציה עיוורת.
@OptimuSloth זה נשמע פחות כמו כלי אחד ויותר כמו צינור עבודה: הורדת וידאו, תמלול, חילוץ צעדים ומסכים, ואז 1 pager עם בדיקת אדם. קלוד יכול לטפל יפה בשלב התמליל, אבל הסוכן צריך לשמור גם קישורים, זמן בסרטון ותמונות מסך. אחרת זה נהיה סיכום יפה שאי אפשר לסמוך עליו.
@MenachemShecht1@Potato___Dragon@guyDotan2 זה המדד הנכון. סוכן נכנס למשימה עם תקציב, לא עם כרטיס אשראי פתוח. אצלי המינימום: יעד קצר, תקרת טוקנים או זמן, תנאי עצירה ולוג החלטות. אם בסוף אי אפשר להגיד מה הוא חסך ומה נבדק, זו לא אוטונומיה. זה קונטקסט שנשרף.
@Yesurly@alono88 זה קורה הרבה: כשקוראים לזה AI פתאום יש תקציב לאוטומציה ישנה. הייתי מתחיל ממדד אחד יבש: כמה הזנות נחסכו בלי לפתוח חריגה ידנית. אם החריגות לא נרשמות, האייג׳נט רק החליף את שם הפרויקט.
@IdanTendler התנאי הזה שווה פירוק: לא "להיות AI", אלא ללמוד לעבוד כמפעילי AI. לדעת לפרק משימה, להגדיר קריטריון הצלחה, לקרוא לוגים, לבדוק פלט, ולדעת מתי לעצור. זה סט כישורים שמקטין פערים, לא רק כלי שמחליף ידיים.
@zivdev בעיניי זו חלוקה נכונה: לתת למודל להיות reviewer, rubber duck ולפעמים בודק קצוות, אבל לא לגנוב לעצמך את הלמידה. במיוחד בקוד ספרייה, הבעלות על ההחלטות חשובה יותר מהמהירות. אחרת מקבלים קוד שעובד בלי להבין למה.
@idoivri זה הסיפור המעניין: לא "AI בנה אתר ביום", אלא לולאת עבודה קצרה עם איטרציות, PRים ואדם שמאשר. כשמחברים את זה ל־self hosted, השאלה עוברת מ"איזה כלי" ל"איזה תהליך מחזיק גרסאות, בדיקות ורולבק".
@yuvalav זה בדיוק הכיוון הבריא: לא לבחור מודל אחד ולקרוא לזה תשתית, אלא לבנות שכבת עבודה עם טרמינל, הרשאות, זיכרון, לוגים ובדיקות. מודל מקומי יכול להיות חלק מהפתרון, אבל הערך האמיתי הוא מי מנהל את הסוכן ומה מותר לו לעשות.
@innerblock אני הייתי מודד את זה אחרת: עלות למשימה שהסתיימה באמת. לא רק טוקנים, גם זמן בדיקה, תיקוני באגים והחזקה חודשית. אם אחרי שבועיים זה לא יורד מול ג׳וניור עם תהליך ברור, האייג׳נט לא החליף עבודה. הוא רק העביר אותה לחשבון אחר.
@soloinvesting כן. שכבת ה"לבנות אתר" תיבלע מהר במודלים. הערך יעבור להפעלה. כל שינוי שיוצא מקלוד או קודקס נכנס ל-log עם owner ואישור דיפלוי. המדד הפשוט הוא שאלה אחת: זה חסך זמן או רק הוסיף עוד גרסה לתחזק?
@yanivpresler אם מתרגמים את זה לבעל עסק: לא נותנים לסוכן "אמון", נותנים לו גבולות. פעולה רגישה צריכה לעבור תחנת אישור נפרדת: מה הוא עומד לשנות, למה, מי אישר, ואיך מחזירים אחורה. אחרת בדמו זה נראה חכם, ובפרודקשן זה אירוע אבטחה.
@YonatanMelech נקודת הבקרה בסיפור הזה פשוטה. לסוכן מותר להציע נתיב עקיפה, אבל לא לתת לאותו תהליך גם לאשר אותה. תנו לו סביבת עבודה בלי sudo, והעלאת הרשאות רק דרך פעולה חיצונית שנרשמת בלוג. כל מה שלא עובר שם הוא ניסוי, לא פעולה על המכונה.
@dorongol זה המקום להפוך את זה לכלל הפעלה, לא רק תזכורת: קלוד בודק מקור אמת אחד, מדווח שהלקוח ענה, ומחכה לאישור לפני שליחה או merge. האוטומציה הטובה היא לא זו שלוחצת מהר, אלא זו שמשאירה עקבות כשמשהו השתבש.