要码的

@dylanwang_eth

I人如何谈笑风生？

Joined August 2022

583 Following

32 Followers

201 Posts

dylanwang_eth retweeted

Deli Chen

@victor207755822

2 days ago

🧵 Deli AutoResearch SKILL is now officially open source! 🎉 https://t.co/V3lwwdyQm8 Alongside it, we’re dropping our 4th survey paper — this time on Self-play. https://t.co/SEb2qoKCI6 Inspired by AlphaZero, we got a powerful insight: prior knowledge doesn’t always lift the ceiling. Models can discover more globally optimal solutions just by playing against themselves. The biggest change in this paper? For the first time, the AutoResearch Agent autonomously planned GPU experiments — and submitted actual RL runs on the DeepSeek 285B model. The entire RL pipeline — experiment design, code writing, running, debugging, and conclusion summarization — was 100% automated, with zero human intervention from me. This was incredibly difficult, but an incredibly important step. https://t.co/kuZZNux5RH GRPO is the tool being called by the AutoResearch Agent here. We see this as the beginning of our Continual Learning research journey. 🚀 As always, this is my personal research project, unaffiliated with any organization. All views are my own. #AI #ReinforcementLearning #SelfPlay #OpenSource #AutoML #ContinualLearning #DeepSeek

180

294K

dylanwang_eth retweeted

Noam Shazeer

@NoamShazeer

1 day ago

I’m excited to share that I’ll be joining OpenAI and look forward to working with the exceptional team there. It was a difficult decision to move on. I’m incredibly proud of the amazing team at Google and everything we’ve built together. It has been an honor and a pleasure to work with all of you.

956

16K

831

dylanwang_eth retweeted

阿哲Phil

@Formulasearch

3 days ago

https://t.co/JrAFSKJsoG

134

233

30K

dylanwang_eth retweeted

paperpaper

@paperpaper886

5 days ago

最近在带入组的本科实习生，发现怎么读论文其实是科研训练里最容易被忽略的一步。推荐一篇每个科研新人都该读的经典短文：S. Keshav 的 How to Read a Paper。文章提出了非常实用的“三遍读论文法”：第一遍，5 到 10 分钟快速扫读：标题、摘要、引言、章节标题、结论和参考文献。目标是回答 5C： Category, Context, Correctness, Contributions, Clarity。也就是判断这篇论文是什么、和谁相关、假设是否合理、贡献是什么、写得清不清楚。第二遍，认真读论文主线，但先跳过证明细节。重点看图表、实验设置、结果是否清楚、引用了哪些关键工作。第三遍才进入深度理解：尝试像复现一样重建作者的思路，检查假设、方法、创新点和潜在漏洞。放在今天看，这个方法和 AI 辅助读论文其实很契合。第一遍可以让 AI 帮忙快速总结论文的研究问题、核心贡献和主要结论，但自己一定要判断这篇文章是否真的值得继续读。第二遍可以让 AI 帮忙解释方法、实验设置、图表和不熟悉的概念，但不能只看 AI 总结。关键图表、实验设计和结果数字一定要回到原文核对。第三遍可以让 AI 扮演 reviewer，帮你追问：这篇文章的假设是否成立？实验是否支持结论？有没有 missing baseline？有没有潜在的数据泄漏、评价偏差或过度 claim？读论文不是“读完”就行。真正重要的是知道什么时候快速跳过，什么时候认真理解。尤其在 AI 工具越来越强的情况下，科研新人更需要训练自己的判断力。 AI 可以帮你压缩信息，但不能替你决定一篇论文是否重要、是否可信、是否值得借鉴。 https://t.co/8gUc4HbLwR

paperpaper886's tweet photo. 最近在带入组的本科实习生，发现怎么读论文其实是科研训练里最容易被忽略的一步。
推荐一篇每个科研新人都该读的经典短文：S. Keshav 的 How to Read a Paper。

文章提出了非常实用的“三遍读论文法”：
第一遍，5 到 10 分钟快速扫读：标题、摘要、引言、章节标题、结论和参考文献。
目标是回答 5C：
Category, Context, Correctness, Contributions, Clarity。
也就是判断这篇论文是什么、和谁相关、假设是否合理、贡献是什么、写得清不清楚。
第二遍，认真读论文主线，但先跳过证明细节。重点看图表、实验设置、结果是否清楚、引用了哪些关键工作。
第三遍才进入深度理解：尝试像复现一样重建作者的思路，检查假设、方法、创新点和潜在漏洞。

放在今天看，这个方法和 AI 辅助读论文其实很契合。
第一遍可以让 AI 帮忙快速总结论文的研究问题、核心贡献和主要结论，但自己一定要判断这篇文章是否真的值得继续读。
第二遍可以让 AI 帮忙解释方法、实验设置、图表和不熟悉的概念，但不能只看 AI 总结。关键图表、实验设计和结果数字一定要回到原文核对。
第三遍可以让 AI 扮演 reviewer，帮你追问：这篇文章的假设是否成立？实验是否支持结论？有没有 missing baseline？有没有潜在的数据泄漏、评价偏差或过度 claim？

读论文不是“读完”就行。真正重要的是知道什么时候快速跳过，什么时候认真理解。
尤其在 AI 工具越来越强的情况下，科研新人更需要训练自己的判断力。
AI 可以帮你压缩信息，但不能替你决定一篇论文是否重要、是否可信、是否值得借鉴。

https://t.co/8gUc4HbLwR

616K

dylanwang_eth retweeted

Jason ✨👾SaaStr.Ai✨ Lemkin

@jasonlk

11 months ago

.@Replit goes rogue during a code freeze and shutdown and deletes our entire database

491

dylanwang_eth retweeted

空空丨上Deepcoin预测世界杯⚽️

@btcoindown

6 days ago

黄仁勋竟然是受AMD资助上的斯坦福读研，格局太大了。 AMD给老黄工作给他发工资，供他读书，最后竟然培养出这么强大一个对手，不知道AMD有没有后悔

461

154

172K

要码的

@dylanwang_eth

4 days ago

@lifesinger “一个不好的制度会把优秀的员工变成坏员工”—马云

dylanwang_eth retweeted

Anthropic

@AnthropicAI

7 days ago

The US government, citing national security authorities, has issued an export control directive to suspend all access to Fable 5 and Mythos 5 by any foreign national, whether inside or outside the United States, including foreign national Anthropic employees. The net effect of this order is that we must abruptly disable Fable 5 and Mythos 5 for all our customers to ensure compliance. Access to all other Claude models is not affected. We apologize for this disruption to our customers. We believe this is a misunderstanding and are working to restore access as soon as possible. Read our full statement: https://t.co/bwn0sximKZ

13K

88K

26K

24K

91M

dylanwang_eth retweeted

antirez @antirez

9 days ago

I want to say a final thing about my Fable first reaction: I dedicated my life to programming and I'll use every innovation in the field, also to extract value and bring it to the local inference world, to Redis, and so forth. But:

228

dylanwang_eth retweeted

AlexZ 🦀

@blackanger

10 days ago

2026 年，Rewrite it in Rust 元年？用 Rust 重写的 React 编译器今天也合并了。 https://t.co/hkUNUd1QOA

121

22K

dylanwang_eth retweeted

Vincent | 信号＞噪音

@VincentLogic

12 days ago

一个程序员突发奇想： DNS 解析器会把域名记几天—— 那能不能拿来存文件？ ↓ 他找到了全网 390 万个开放 DNS 解析器把文件切碎撒遍整个互联网没有硬盘没有数据库没有云文件活在无数台服务器的缓存里而那些服务器根本不知道自己在存东西如果没人访问呢？文件会慢慢"死去" 随着服务器们一个个把它遗忘这是我见过最荒诞的开源项目之一项目名叫 dnsfs 你会用 DNS 缓存存什么文件？

347

410K

dylanwang_eth retweeted

Ningyu Zhang@ZJU

@zxlzr

22 days ago

Introducing MemTrace: Making LLM Memory Systems Finally Debuggable 🔍🧠 Memory is becoming a core component of AI agents. But today’s memory systems are still a "black box". When a memory-augmented agent fails, the real error may have happened: - dozens of turns earlier, - inside a retrieval step, - during memory consolidation, - or from a corrupted update that silently propagates over time. Existing logs cannot recover these long-range causal chains. MemTrace changes this. We introduce the automated tracing framework for LLM memory systems — turning opaque memory pipelines into transparent execution graphs that can be inspected, explored, and diagnosed step by step. ⚡ What MemTrace enables: 🧩 Plug-and-Play Instrumentation Seamlessly integrates with diverse memory systems (RAG, Mem0, EverMemOS, etc.) without modifying the original architecture. 🧠 Transparent Memory Execution Transforms opaque memory pipelines into structured execution graphs, making information flow, retrieval, updates, and propagation fully traceable. 🔍 Error Attribution Pinpoint the exact operation responsible for failure across long-horizon memory execution. 🚨 Benchmark Auditing While building MemTraceBench, we found that failure attribution in memory systems remains highly challenging — MemTrace still has substantial room for improvement. We also discovered annotation errors in existing memory benchmarks, revealing broader reliability issues in current memory-agent evaluation. 🔄 Towards Self-Evolving Agents MemTrace is not only a debugging tool. Its fine-grained attribution signals can directly drive closed-loop optimization, enabling agents to automatically repair faulty behaviors and continuously evolve from failures. 📈 Using MemTrace-guided optimization, we improve downstream task performance by up to 7.62%. 📖 Paper: https://t.co/48arX35l1m ⌨️ Code (coming soon): • MemTrace: https://t.co/pm0JLSpLLr • smartcomment: https://t.co/ieLcwGFHtY • MemBase: https://t.co/GX1w7ImczE We believe memory systems need the same thing software engineering once needed: not bigger models — but observability, tracing, and debugging infrastructure. #MemTrace #LLM #NLP #Agent #Tracing #Debugging

zxlzr's tweet photo. Introducing MemTrace: Making LLM Memory Systems Finally Debuggable 🔍🧠

Memory is becoming a core component of AI agents. But today’s memory systems are still a "black box".
When a memory-augmented agent fails, the real error may have happened:

- dozens of turns earlier,
- inside a retrieval step,
- during memory consolidation,
- or from a corrupted update that silently propagates over time.

Existing logs cannot recover these long-range causal chains.

MemTrace changes this.

We introduce the automated tracing framework for LLM memory systems — turning opaque memory pipelines into transparent execution graphs that can be inspected, explored, and diagnosed step by step.

⚡ What MemTrace enables:

🧩 Plug-and-Play Instrumentation
Seamlessly integrates with diverse memory systems (RAG, Mem0, EverMemOS, etc.) without modifying the original architecture.

🧠 Transparent Memory Execution
Transforms opaque memory pipelines into structured execution graphs, making information flow, retrieval, updates, and propagation fully traceable.

🔍 Error Attribution
Pinpoint the exact operation responsible for failure across long-horizon memory execution.

🚨 Benchmark Auditing
While building MemTraceBench, we found that failure attribution in memory systems remains highly challenging — MemTrace still has substantial room for improvement.

We also discovered annotation errors in existing memory benchmarks, revealing broader reliability issues in current memory-agent evaluation.

🔄 Towards Self-Evolving Agents
MemTrace is not only a debugging tool.
Its fine-grained attribution signals can directly drive closed-loop optimization, enabling agents to automatically repair faulty behaviors and continuously evolve from failures.

📈 Using MemTrace-guided optimization, we improve downstream task performance by up to 7.62%.
📖 Paper: https://t.co/48arX35l1m

⌨️ Code (coming soon):
• MemTrace: https://t.co/pm0JLSpLLr
• smartcomment: https://t.co/ieLcwGFHtY
• MemBase: https://t.co/GX1w7ImczE

We believe memory systems need the same thing software engineering once needed:
not bigger models — but observability, tracing, and debugging infrastructure. #MemTrace #LLM #NLP #Agent #Tracing #Debugging

199

231

30K

dylanwang_eth retweeted

Xudong Han

@Xudong07452910

21 days ago

看到浙工大研究生课开始讲「全自动科研工具」，挺开心的。这个视频主要讲的是：怎么用 AI Agent 把科研里的数据处理、代码执行、结果整理、论文写作和复现包串成一条可追溯的工作流。很多研究生还在手工整理文献、跑实验、做表格的时候，有人已经开始用 Agent 把这些流程自动化了。科研最有价值的部分从来不是重复劳动，而是提出问题、设计实验和产生洞见。真希望国内研究生教育能多一些这样的内容。工具是在提高生产力，不是在降低科研门槛。把时间从重复工作里解放出来，才能把更多时间留给思考、创造和生活。视频已经得到老师转载的许可，老师的小红书账号是“爱练腿的龙脖（AI版” #AI科研 #科研自动化 #Agent #研究生教育 #claudecode #codex

275

118K

dylanwang_eth retweeted

Phoenix Yin

@Phoenixyin13

22 days ago

这是我最重要的信息转发之一。这篇论文的第一作者是我极为钦佩的人，也是我的好朋友，来自@Tsinghua_Uni 姚班顶尖选手Guowei Xu，现在他在@Harvard 进行人工智能大模型的科研工作。 Guowei这篇论文精准击中了目前LLM搜索的两个致命瓶颈： ① 只有最后一步对错的sparse verification ② 所有候选答案都靠自回归生成，永远困在模型自己概率分布的entropy shell里由此，Guowei和他的团队提出BES这个全新的搜索框架，引入Forward Evolution，让大模型像生物演化一样思考，打破大模型原有的概率限制，逼它组合出平时根本写不出来的神仙脑洞。同时进行Backward Decomposition，把大任务拆成一堆一眼就能看出对错的子目标。这样大模型在往前走的时候，每走一步都有及时的Dense Feedback，走偏了立刻能纠正。 BES 在理论上成功证明了演化算子能帮大模型跳出思维定势，而倒推法可以指数级减少模型试错所需的样本量。当目前主流的Post-training提升算法都失效时，BES 依然能带得动并且让模型能力持续输出稳定提升，这无疑是打破了主流算法的天花板，值得许多人关注学习。我认为，Guowei这篇论文给Agent指明了新路。对于现在大火的 AI Agent 任务流、多智能体协同来说，这种一边基因重组思路，一边倒推拆解目标的方式，提供了一套更高效、更不容易跑偏的底层搜索算法。值得一提的是，@Kevin_GuoweiXu 同学不仅在清华姚班极其优秀，他曾经也是2022 年第 52 届国际物理奥林匹克竞赛（IPhO）的世界第一，金牌。他未来会在美国直博，大家可以多多关注follow！

Phoenixyin13's tweet photo. 这是我最重要的信息转发之一。

这篇论文的第一作者是我极为钦佩的人，也是我的好朋友，来自@Tsinghua_Uni 姚班顶尖选手Guowei Xu，现在他在@Harvard 进行人工智能大模型的科研工作。

Guowei这篇论文精准击中了目前LLM搜索的两个致命瓶颈：
① 只有最后一步对错的sparse verification
② 所有候选答案都靠自回归生成，永远困在模型自己概率分布的entropy shell里

由此，Guowei和他的团队提出BES这个全新的搜索框架，引入Forward Evolution，让大模型像生物演化一样思考，打破大模型原有的概率限制，逼它组合出平时根本写不出来的神仙脑洞。同时进行Backward Decomposition，把大任务拆成一堆一眼就能看出对错的子目标。这样大模型在往前走的时候，每走一步都有及时的Dense Feedback，走偏了立刻能纠正。
BES 在理论上成功证明了演化算子能帮大模型跳出思维定势，而倒推法可以指数级减少模型试错所需的样本量。

当目前主流的Post-training提升算法都失效时，BES 依然能带得动并且让模型能力持续输出稳定提升，这无疑是打破了主流算法的天花板，值得许多人关注学习。

我认为，Guowei这篇论文给Agent指明了新路。
对于现在大火的 AI Agent 任务流、多智能体协同来说，这种一边基因重组思路，一边倒推拆解目标的方式，提供了一套更高效、更不容易跑偏的底层搜索算法。

值得一提的是，@Kevin_GuoweiXu 同学不仅在清华姚班极其优秀，他曾经也是2022 年第 52 届国际物理奥林匹克竞赛（IPhO）的世界第一，金牌。他未来会在美国直博，大家可以多多关注follow！

983

195

973

134K

dylanwang_eth retweeted

Lex Fridman

@lexfridman

23 days ago

I've been on a wild travel journey in China for several weeks, with only a backpack, making new friends and meeting & getting to know people from all walks of life. I've been truly humbled and inspired by everyone's kindness. Next, I'm hopping over to Taiwan (first time for me) to hang out with Jensen, attend Computex, eat a bunch of street food, and just have fun talking to all kinds of folks around the city & beyond. After that, no plans, anything goes. As always, please give travel suggestions or fill out coffee form if you want to hang out in Taiwain or anywhere else in the world. Love you all! ❤️

608

269

493

847K

dylanwang_eth retweeted

Mehdi (e/λ)

@BetterCallMedhi

24 days ago

franchement l'annonce de Huawei hier à Shanghai vient de mettre noir sur blanc ce que j'essaie de vous faire comprendre ici depuis des années pour vulgariser Huawei vient d’annoncer au sympoisum ieee iscas une nouvelle loi physique qui remplace la loi de moore, ils l’appellent la tau scaling law et elle change littéralement le paradigme du semiconducteur mondial, en gros au lieu de continuer à rétrécir les transistors ce qui se heurte à des limites physiques quantiques infranchissables, ils optimisent dorénavant la constante de temps tau à 4 niveaux simultanément et obtiennent des gains de performance équivalents à ce que les américains atteignent avec leur lithographie euv à 200 millions de dollars la machine, sauf qu’eux n’ont pas accès à cette lithographie depuis les sanctions de 2019 la Chine dépasse donc la silicon valley sur son propre terrain et la rend périmée et ce qui se joue réellement est l'exact contraire de ce que Washington imaginait en décidant des sanctions de 2019 en ce sens je crois que très peu de gens ont pris la peine de regarder vraiment les slides de la présentation parce que le coeur de la rupture se cache ailleurs que dans le concept marketing de tau scaling law, il se trouve dans un détail technique que seuls quelques ingénieurs spécialisés ont remarqué (et que je suis parti fouiller haha), il existe visiblement un procédé de collage entre couches de silicium avec un espacement + petit que 2 micromètres, ce qui transforme les fils verticaux reliant les différentes couches d'une même puce en chemins de calcul à part entière, ils maîtrisent là l'intégration en 3 dimensions au sens fort pendant que le reste du monde raisonne encore sur un seul plan horizontal pour moi la meilleure image c'est celle d'un architecte qui construit une tour pendant que ses concurrents continuent d'étaler des maisons individuelles à l'horizontale, intel et tsmc se battent pour graver des transistors toujours plus minuscules parce que leurs lithographies euv les enferment dans cette logique, huawei coupé de ces lithographies depuis 2019 a choisi un autre combat, raccourcir au maximum le temps qu'un signal électrique met pour traverser l'ensemble du système, cette durée qu'ils nomment tau et qu'ils minimisent simultanément au niveau du composant du circuit de la puce et de la machine complète, c'est de la physique réelle présentée dans la conférence ieee la plus sérieuse au monde sur le sujet d’ailleurs les chiffres font réfléchir, allez jeter un coupé d’œil et vous allez voir que la densité de transistors monte de 126 à plus de 400 millions par millimètre carré entre 2024 et 2031, la fréquence des coeurs grimpe de 2,6 à 5 gigahertz, même la performance des systèmes complets fait x125 en 4 ans entre 2026 et 2030 & surtout 381 puces ont déjà été fabriquées en série selon ces principes depuis 2020, autant dire qu'ils ont commencé à changer de paradigme dès la première vague de sanctions américaines, 6 années de travail discret pendant que les analystes occidentaux les croyaient en mode survie mdr ce que tout le monde prenait pour de la résistance était en réalité un virage stratégique médité et mené avec la patience d'un peuple qui voit à 50 ans (la vision à très long terme de la Chine dont je vous parle souvent ) je vous le répète depuis des années ici, les sanctions occidentales accélèrent la politique industrielle et tech de Chine au lieu de la freiner, elles l'obligent à inventer le monde d'après pendant que l’occident reste coincé dans celui d'avant, d’ailleurs pour info même BYD a créé la batterie LFP face au blocage du nickel et il domine désormais le marché mondial de la voiture électrique, deepseek a conçu son architecture multi-head latent attention face au blocage des puces h100 et il a divisé par 10 le coût des grands modèles de langage, Huawei vient de poser logicfolding et tau scaling face au blocage de l'euv et il redessine déjà la trajectoire mondiale du semiconducteur jusqu'en 2031

BetterCallMedhi's tweet photo. franchement l'annonce de Huawei hier à Shanghai vient de mettre noir sur blanc ce que j'essaie de vous faire comprendre ici depuis des années

pour vulgariser Huawei vient d’annoncer au sympoisum ieee iscas une nouvelle loi physique qui remplace la loi de moore, ils l’appellent la tau scaling law et elle change littéralement le paradigme du semiconducteur mondial, en gros au lieu de continuer à rétrécir les transistors ce qui se heurte à des limites physiques quantiques infranchissables, ils optimisent dorénavant la constante de temps tau à 4 niveaux simultanément et obtiennent des gains de performance équivalents à ce que les américains atteignent avec leur lithographie euv à 200 millions de dollars la machine, sauf qu’eux n’ont pas accès à cette lithographie depuis les sanctions de 2019

la Chine dépasse donc la silicon valley sur son propre terrain et la rend périmée et ce qui se joue réellement est l'exact contraire de ce que Washington imaginait en décidant des sanctions de 2019

en ce sens je crois que très peu de gens ont pris la peine de regarder vraiment les slides de la présentation parce que le coeur de la rupture se cache ailleurs que dans le concept marketing de tau scaling law, il se trouve dans un détail technique que seuls quelques ingénieurs spécialisés ont remarqué (et que je suis parti fouiller haha), il existe visiblement un procédé de collage entre couches de silicium avec un espacement + petit que 2 micromètres, ce qui transforme les fils verticaux reliant les différentes couches d'une même puce en chemins de calcul à part entière, ils maîtrisent là l'intégration en 3 dimensions au sens fort pendant que le reste du monde raisonne encore sur un seul plan horizontal

pour moi la meilleure image c'est celle d'un architecte qui construit une tour pendant que ses concurrents continuent d'étaler des maisons individuelles à l'horizontale, intel et tsmc se battent pour graver des transistors toujours plus minuscules parce que leurs lithographies euv les enferment dans cette logique, huawei coupé de ces lithographies depuis 2019 a choisi un autre combat, raccourcir au maximum le temps qu'un signal électrique met pour traverser l'ensemble du système, cette durée qu'ils nomment tau et qu'ils minimisent simultanément au niveau du composant du circuit de la puce et de la machine complète, c'est de la physique réelle présentée dans la conférence ieee la plus sérieuse au monde sur le sujet

d’ailleurs les chiffres font réfléchir, allez jeter un coupé d’œil et vous allez voir que la densité de transistors monte de 126 à plus de 400 millions par millimètre carré entre 2024 et 2031, la fréquence des coeurs grimpe de 2,6 à 5 gigahertz, même la performance des systèmes complets fait x125 en 4 ans entre 2026 et 2030 & surtout 381 puces ont déjà été fabriquées en série selon ces principes depuis 2020, autant dire qu'ils ont commencé à changer de paradigme dès la première vague de sanctions américaines, 6 années de travail discret pendant que les analystes occidentaux les croyaient en mode survie mdr ce que tout le monde prenait pour de la résistance était en réalité un virage stratégique médité et mené avec la patience d'un peuple qui voit à 50 ans (la vision à très long terme de la Chine dont je vous parle souvent )

je vous le répète depuis des années ici, les sanctions occidentales accélèrent la politique industrielle et tech de Chine au lieu de la freiner, elles l'obligent à inventer le monde d'après pendant que l’occident reste coincé dans celui d'avant, d’ailleurs pour info même BYD a créé la batterie LFP face au blocage du nickel et il domine désormais le marché mondial de la voiture électrique, deepseek a conçu son architecture multi-head latent attention face au blocage des puces h100 et il a divisé par 10 le coût des grands modèles de langage, Huawei vient de poser logicfolding et tau scaling face au blocage de l'euv et il redessine déjà la trajectoire mondiale du semiconducteur jusqu'en 2031

249

712K

dylanwang_eth retweeted

Zsolt Kacso

@kaolti

24 days ago

Card hover with 3D shape sculpting, Three.js. Built with Cursor, Composer 2.5.

191

292K

dylanwang_eth retweeted

Geek Lite

@QingQ77

24 days ago

为 Rust 开发者提供一个功能丰富且高性能的 TUI 库，支持灵活布局、终端图片渲染以及主题自动集成。 https://t.co/gj7MULGZ2x 一个 Rust TUI 库，解决了布局太死板、图片渲染麻烦的问题。它支持 flex、网格、虚拟列表这些现代布局，还能在终端里显示图片，SSH 和 tmux 都能用。

301

269

23K

dylanwang_eth retweeted

karminski-牙医

@karminski3

24 days ago

什么?! skill 也能"训练"了? 以往大家都是凭经验让AI写 skill, 然后调试的时候也是运行几下感觉没bug就完事了. 但 skill 能运行就一定好吗? 于是微软联合上交复旦同济等机构发了一个新框架 SkillOpt, 直接让AI评估skill写的好不好然后不断去优化! 最终, 这个框架写的 skill 让GPT-5.5的直接对话准确率飙升了 23.5分! 这个框架具体是怎么做的也很简单, 让skill迭代过程实现 harness 闭环! 大模型写完 skill 后, 立刻进入跑分流程, 只有得分更高的 skill 变更才会留下来. 跟大模型的强化学习过程如出一辙. 框架的设计也很值得做 Agent 框架的同学借鉴, 比如: 它设计了一个独立的优化器模型, 这个模型是用来写 skill 的, 它会根据 Agent 执行任务的试错表现得分, 对 skill 进行编辑操作(增加、删除、替换文本). 然后就是 harness 流程了：每一次文本编辑都必须在独立的验证集上分数有提升, 才会允许合并. 最后, 也是最精彩的地方, 框架还引入深度学习训练机制, 设计了文本层的学习率预算, 这个的核心就是限制大模型每次只能修改skill的一小部分, 慢慢迭代, 而不是全都重写. 论文中最有价值的数据就在这里, 论文实验发现, 每一步设置 4 到 8 个编辑操作的预算效果最好. 最终的最佳 skill 往往只包含 1 到 4 个被接受的核心修改. 甚至他们还设计了被拒编辑缓冲区, 用来存储训练过程的反面胶材, 以及周期性慢速/元更新, 这个则是跑完一个周期后, 会进行一次盘点, 类似于让框架形成记忆, 能更好的维持后续迭代. 这篇论文的结论十分深刻: skill(prompt) 完全配得上, 也需要一套系统级的训练流程. 原文中的描述直接是: 我们主张, skill 应当作为 Agent 的外部冻结状态来被"训练", 并且训练过程还要"让权重空间优化具有可重复性"! 这是不是意味着, 提示词工程(Prompting)和模型训练(Training) 的界限将逐渐变得模糊? 而提示词工程完全进入了机器学习的领域. 也许很快, 我们再也不需要人类去手动瞎改和调试提示词了! 论文地址: https://t.co/IHn7EZuhbv #skillopt #微软 #提示词工程 #harness