הכלים הרפואיים שעליהם נשענים רופאים נכשלו מול ChatGPT רגיל
שוק שלם נבנה סביב הבטחה אחת: כלים ייעודיים לרפואה, שאומנו על ספרות רפואית בלבד, בטוחים ומדויקים יותר מכלי בינה מלאכותית כלליים שזמינים לכל אחד. מחקר חדש מערער על ההבטחה הזאת.
חוקרים מאוניברסיטת ניו יורק העמידו זה מול זה שני כלים רפואיים ייעודיים שנמצאים בשימוש נרחב, OpenEvidence ו-UpToDate, מול שלושה כלים כלליים: ChatGPT, Gemini ו-Claude . הם הריצו אלף שאלות רפואיות שבוחנות ידע קליני ואת היכולת לתקשר עם הרופא בצורה ברורה ומותאמת.
התוצאה הפתיעה. הכלים הכלליים ניצחו באופן עקבי, והכלי של OpenAI הגיע לציון הגבוה ביותר. דווקא הכלים הרפואיים פיגרו במקומות שבהם ציפו מהם להצטיין: שלמות התשובה, איכות ההסבר, הבנת ההקשר של המקרה, והזהירות הנדרשת כשמדובר בחיי אדם.
ההקשר הכלכלי הופך את הממצא למשמעותי הרבה יותר. OpenEvidence, אחד הכלים שנבדקו, מוערך נכון לינואר בשנים עשר מיליארד דולר ונחשב לחברת הבינה המלאכותית הרפואית היקרה בעולם. לפי החברה, יותר מ-40 אחוז מהרופאים בארצות הברית משתמשים בה מדי יום, בכ-18 מיליון התייעצויות בחודש . במילים אחרות, מערכת שמשפיעה על החלטות רפואיות בקנה מידה עצום נמצאה נחותה מכלים שלא שווקו לרפואה כלל.
המסקנה של החוקרים איננה שהכלים הרפואיים מסוכנים. היא פשוטה יותר, ולכן חשובה יותר. כלים שמשווקים כבטוחים יותר כמעט אינם נבדקים בידי גורם חיצוני בלתי תלוי, בעוד הכלים הכלליים עוברים בחינות פומביות שוב ושוב. ההבדל הוא לא באיכות הטכנולוגיה. הוא בשקיפות.
עבור מי שמקבל החלטות רכש, בכל תחום ולא רק ברפואה, זאת תזכורת שמחירה גבוה. התווית “ייעודי בדיוק לעולם שלכם” איננה ערובה לביצועים. לפני שחותמים על מערכת יקרה כי היא מתמחה בתחום שלכם, שווה לשאול שלוש שאלות: מי בדק אותה, מול מה, ומה היו התוצאות. במקרים רבים מסתבר שהתשובה לראשונה היא פשוט “אף אחד״.
"AI will fail."
History says otherwise.
For 2,000+ years, smart people dismissed the next big thing:
• Writing would weaken memory
• Railways would suffocate passengers
• The telephone had no value
• Airplanes were impossible
• Radio had no future
• TV was a fad
• Computers were a niche
• The Internet was overhyped
• The iPhone wouldn't matter
• Cloud computing was "gibberish"
They weren't stupid.
They judged the future using the limits of the present.
The pattern repeats with every breakthrough:
Ridiculed
Dismissed
Adopted
Indispensable
Maybe AI fails.
But history suggests that betting against transformative technologies is usually the riskier bet.
The future often looks ridiculous until it arrives.
Credit: @rubenhassid
לפני שמונה חודשים נפרדתי מ-IBM כדי להקים עסק משלי.
בלי סטארטאפ חם, בלי גב של חברה בינלאומית. לבד.
מי אני? איציק וודה, נעים להכיר.
ב-25 שנה האחרונות עבדתי בחברות בינלאומיות ומקומיות, מ-20 עובדים ועד מאות אלפים. התחלתי כמפתח תוכנה, והמשכתי דרך ניהול פרויקטים, Presales, ניהול מכירות EMEA, ושיווק מוצר.
אם מחפשים מכנה משותף, תמיד הייתי בתפר שבין הטכנולוגיה לביזנס. פעם יותר טכנולוגי, פעם יותר עסקי. תמיד עם הבנה של מה הלקוח צריך, ואיך רותמים את הטכנולוגיה הנכונה.
בשנה שעברה צצה הזדמנות מסוג שונה: לא להצטרף לעוד צוות, אלא להפוך ליועץ AI עצמאי. קרו במקביל עוד אירועים, חלקם בשליטתי וחלקם לא, והכיוון נעשה פתאום ברור. החלטתי שאני לא מוותר על ההזדמנות.
ואז השתחררו הפרפרים בבטן. מצד אחד התרגשות. מצד שני המציאות - ויתורים כלכליים, חוסר ודאות, פחד מהלא-נודע.
אז מה קורה איתי עכשיו?
אני ממשיך בכל הכוח. עובד עם לקוחות אנטרפרייז שדוחפים אותי להשתפר, להרחיב את סל הכישורים, ובעיקר להבין מה באמת חשוב להם ואיך לדייק את מה שאני עושה עבורם.
איפה זה פוגש אתכם?
אם אתם מנכ"לים או סמנכ"לי מערכות מידע, ואתם צריכים מישהו שירגיע את ההייפ סביב ה-AI ויהפוך אותו לתוכנית עבודה מסודרת, אני האיש שלכם.
זה אומר: לאתר הזדמנויות לשלב AI בתהליכים קיימים, לזהות תהליכים חדשים, לאפיין דרישות, לכתוב אסטרטגיה שממנה נגזרים פרויקטים, לנהל ספקים או להחליט לפתח בתוך הבית, ולנהל יחד עם הצוותים שלכם את הדרך מ-POC ועד עלייה לאוויר.
מה הדבר הראשון שהייתם רוצים שה-AI יפתור אצלכם? מסקרן אותי לשמוע.
אני איציק וודה, Fractional Chief AI Officer ומייסד TriFold Technologies.
אני עוזר לארגונים בישראל להוציא AI מהמצגות והפיילוטים אל מערכות שרצות בפועל בתוך העסק. הפער כמעט אף פעם לא רק טכנולוגי. הוא בחיבור בין העסק, הדאטה, ה-IT והממשל.
מה אני עושה: אסטרטגיית AI ומפת דרכים ליישום AI בארגון, ממשל ו-Responsible AI, החלטות build-vs-buy, ניהול פרויקטים, כתיבת דרישות ואפיון, איתור ועזרה בבחירת ספקים. כשצריך, אני מביא מומחים שמשלימים את השירות שלי, ביישום טכני והטמעה (כולל סדנאות Design Thinking, והדרכת שימוש בכלי AI).
עם מי: ארגונים ישראליים בני 500–5,000 עובדים - ריטייל, פארמה, אירוח, פיננסים ומדיה.
מה אפשר לצפות: עבודה ישירה וממוקדת. זה בוטיק, אז אני בתמונה מהרגע הראשון, לא צוות ג׳וניורים. ואני לא נעלם אחרי ה-POC הראשון. אנחנו בונים את ההצלחה יחד לאורך זמן.
Boris Cherny created Claude Code. he thinks IDEs are dead by end of year.
This is a 28-minute masterclass on how Anthropic uses it internally.
I wrote 5 pipelines you can sell with it. none of them are coding.
Check out my latest article: שישה קטגוריות, שגיאה אחת נפוצה: איך מנהל אבטחת מידע ישראלי צריך לקרוא את מפת ה-AI Security https://t.co/60CLUk4B1i via @LinkedIn
Check out my latest article: Hermes Agent: מעבדת AI שגייסה 65 מיליון דולר בונה סוכן שלומד לבד, רץ על שרת ב-5 דולר, ולא שוכח כלום https://t.co/hNsAPRMcXA via @LinkedIn
🧵 מצר הורמוז סגור כבר חודש. 20 מיליון חביות נפט ביום נעצרו. העולם נכנס למשבר אנרגיה שעלול להיות החמור בהיסטוריה. סיכום מנהלים למה שכל מנהל ישראלי צריך לדעת עכשיו:
אם המצר נשאר סגור, מחיר הנפט ישבור את השיא ההיסטורי. ארה”ב כבר הסיטה יעדים מהחלפת משטר לפתיחת המצר. זה לא משבר אנרגיה. זה אירוע גיאופוליטי שישנה סדרי עולם. שימו עין.
95% מפרויקטי ה-GenAI בארגונים לא מגיעים לפרודקשן. MIT מצאו את זה. ואני רואה את אותה סיבה שוב ושוב.
הבעיה מתחילה ב-POC. קל להראות הצלחה בסביבה מבוקרת: בוט שעונה על שאלות, סיכום ישיבה אוטומטי, דמו מרשים. אבל בפרודקשן צריך דאטה נקי, אינטגרציה למערכות קיימות, ומנהל עסקי שלוקח אחריות
על התוצאה. שני שלישים מהארגונים עדיין לא שם מבחינת ניהול דאטה.
וכאן ה-twist: הבעיה היא לא שאין ROI. הבעיה היא שמודדים את ה-ROI הלא נכון.
ב-2024 מכרו AI כ"חוסך 4 שעות בשבוע". ב-2026 דירקטוריונים רוצים השפעה על ה-P&L. הפער הזה בין מה שהובטח למה שנמדד - הוא מה שהורג פרויקטים.