Machine learning researcher @JaneStreetGroup. PhD @NYUDataScience in AI & CogSci, specifically in goals and their representations in minds & machines (he/him).
New preprint alert! We often prompt ICL tasks using either demonstrations or instructions. How much does the form of the prompt matter to the task representation formed by a language model? Stick around to find out 1/N
@nir_benz אני לא חושב שהועלם נגמר, ואני בטוח שאנטרופיק עושים אחלה יח״צ; אני מניח שהמציאות היא איפשהו באמצע, מצד אחד זו קפיצת מדרגה מרשימה, ומצד שני זה לא אפוקליפסות סייבר
@nir_benz עכשיו, המחיר להריץ מודל ברמה מסוימת בגדול יורד, ואולי יורד מהר יותר משכמות הקוד הרלוונטי בעולם עולה, אבל לדעתי השאלה של איפה בכלל לחפש חולשה (ובטח כשמדובר על חולשה שאולי דורשת לחלוש על כמה מקומות שונים בקוד) היא ממש לא טריוויאלית, ולעשות לה סקיילינג עם חיפוש נאיבי זה קשה.
@nir_benz המחקר הזה לא בלתי מעניין, אבל אני חושב שהוא קצת מוכר את עצמו יותר מדי.
בהקבלה: אנטרופיק פרסמו שיש להם מודל ״איפה אפי״ מדהים שיכול לפתור איפה אפי בגודל של מגרש כדורגל, והמחקר הזה אומר ״סימנו למודל קטן יותר את המטר על מטר שבו אפי, וגם המודל הקטן מצא, תאכלו תחת אנטרופיק״.
@eyalFeder כל הסיפור מהמם, אבל הטענה שאין שווארמה מעל בינונית בניו יורק קצת מפוקפקת… היית ב-OMG על השביעית ורחוב עשר או שבזי באמסטרדם ו-93?
(אני מניח שזה למטרות הסיפור, אבל אני גם תמיד בעד להרים לשווארמה מקומית)
If “getting started with agents” feels like setup hell — same.
So we made a starter tutorial:
First agent running in <14 minutes, no Docker/AWS.
Laptop + API key only.
👇 https://t.co/xiac8r3cti
@adinamwilliams@LakeBrenden@todd_gureckis@jcyhc_ai will present SAGE-Eval, our (w/ @LakeBrenden) systematic generalization safety benchmark at poster #1104 on Friday AM (11-2).
John does fantastic work and he's open to RE/RS roles or PhD positions in AI Safety. If you're hiring, talk to him!
https://t.co/SqbtLAjdy6
Do LLMs show systematic generalization of safety facts to novel scenarios?
Introducing our work SAGE-Eval, a benchmark consisting of 100+ safety facts and 10k+ scenarios to test this!
- Claude-3.7-Sonnet passes only 57% of facts evaluated
- o1 and o3-mini passed <45%! 🧵
Like ~everyone, I'll also be at #NeurIPS this week! Please reach out to chat about past (goal representations, cognitive science, intrep) or current interests (LLM mental state inference, social environments for RL). Also if you have leads on great coffee, craft beer, or tacos.
We're also presenting some work! Our (@adinamwilliams@LakeBrenden@todd_gureckis ) interpretability work on task representations from different prompting forms will be poster #1016 on Friday's afternoon session (4:30-7:30, hall C/D/E)
https://t.co/2xjCd3uafl
New preprint alert! We often prompt ICL tasks using either demonstrations or instructions. How much does the form of the prompt matter to the task representation formed by a language model? Stick around to find out 1/N
Stop by the Meta booth tomorrow, Wednesday Dec 3rd at #NeurIPS in San Diego! 🤖📱
We demo our new research environment, OpenApps, for digital agents. Generate thousands of app versions to train and evaluate multimodal agents to use apps like humans do.
Not attending? Stay tuned
@joannejang Absolutely, interesting and hard problem. Unclear what exactly to measure, how much of what good EQ looks like is user-dependent, and how aligned writing style/tone is with EQ (and/or the perception of it)