liuyong

@forrestbing

I am a researcher in AIGC, Multi-modality and VitrualHuman tech direction

中华人民共和国

Joined April 2016

7K Following

400 Followers

347 Posts

forrestbing retweeted

宝玉

@dotey

5 months ago

Cursor 刚发表了篇文章：《Dynamic context discovery》https://t.co/O9trD8o1gy（译文：https://t.co/O1ODpZz3YV），讲述了他们上下文管理的秘密。之前 Manus 的 Peak 在访谈里面说： > 所以 Peak 说当他们读到一些模型公司发布的研究博客时，心情是“既开心又无奈”。开心是因为这些博客验证了他们的方向，无奈是因为博客里写的东西，基本都是他们早就在做的。 Cursor 这篇文章又曾侧面印证了这个观点😂，不过也不能说 Cursor 是在抄袭 Manus 的技术，只能说 AI Agent 的最佳实践，就是怎么管理好上下文，而管理好上下文，就离不开文件系统。言归正传，Cursor 这篇文章讲的是“动态上下文发现”，核心就是上下文管理。给 AI 的上下文，不是越多越好，很多人用 AI，生怕 AI 不知道，怕 AI 记不住，恨不得把整个项目的文档、历史记录、工具说明一股脑全塞进去。但随着模型变得越来越聪明，预先塞太多信息反而帮倒忙。一来浪费 token（上下文窗口是有限的），二来信息太杂可能干扰模型判断。就像你给一个能干的下属布置任务，不需要把公司所有制度文件都打印出来放他桌上，他需要什么，自己会去查。这就是 Cursor 提出的"动态上下文发现"（Dynamic Context Discovery）模式：别急着把信息塞给模型，而是让模型在需要的时候自己去找。【1】让 AI 自己找需要的信息听起来简单，但具体怎么做呢？Cursor 分享了五个他们实际在用的优化手段，每个都挺巧妙。场景一：长输出变成文件问题是什么？当 AI 调用外部工具（比如运行一个 shell 命令或者调用 MCP 服务），返回的结果可能很长——一大串日志、一整个网页的内容。常见做法是截断，只保留一部分。但截掉的那部分，说不定正好是后面要用的关键信息。 Cursor 的做法是：把长输出写成文件，然后给 AI 一个读文件的能力。AI 可以先用 tail 命令看看结尾，觉得需要再往前读。这样既不会塞满上下文，也不会丢信息。场景二：聊天历史变成可查档案当对话太长，超过上下文窗口限制时，Cursor 会触发一个"总结"步骤，把之前的内容压缩成摘要，给 AI 一个"新的起点"。但压缩是有损的。重要细节可能在总结过程中丢失，导致 AI"失忆"。Cursor 的办法是把完整的聊天记录存成文件。AI 拿到的是摘要，但如果它意识到"这里好像漏了什么"，可以自己去翻原始记录找回来。这就像是你给员工发了一份会议纪要，但完整的会议录音也存着——有疑问随时可以回溯。场景三：按需加载技能 Cursor 支持一种叫"Agent Skills"的扩展机制，本质上是告诉 AI 怎么处理特定领域任务的说明书。这些说明书可以有很多，但没必要每次都全部加载。 Cursor 的做法是只在系统提示里放一个"目录"——技能的名字和简短描述。AI 真正需要某个技能时，再用搜索工具把完整说明拉进来。就像你不会把整个图书馆背在身上，只带个索引卡片就够了。场景四：MCP 工具的瘦身术这个场景数据最有说服力。MCP 是一种让 AI 连接外部服务的标准协议，现在很火。问题是，有些 MCP 服务器提供几十个工具，每个工具的描述都很长，全塞进上下文窗口很占地方。更尴尬的是，大部分工具在一次任务中根本用不到。 Cursor 的优化方式是：只在提示词里放工具的名字，完整描述同步到一个文件夹。AI 需要用某个工具时，再去查具体怎么用。效果怎么样？他们做了 A/B 测试，在调用 MCP 工具的场景下，这个策略减少了 46.9% 的 Token 消耗。接近一半的成本省下来了。还有个附带好处：如果某个 MCP 服务需要重新认证，以前 AI 就会"忘记"这些工具的存在，用户一头雾水。现在 AI 能主动提醒用户"喂，你的 XX 服务需要重新登录了"。关于 MCP 工具的优化，Anthropic 官方有一篇文章《Code execution with MCP: Building more efficient agents》https://t.co/Opk5JC6Fvb，思路也是类似的，推荐看看。场景五：终端会话也是文件用过 AI 编程工具的人都知道，有时候你想问"我刚才那个命令为什么失败了"，但 AI 根本不知道你运行过什么命令。你得手动把终端输出��制粘贴给它。 Cursor 现在把集成终端的输出自动同步到本地文件系统。AI 可以直接"看到"你的终端历史，需要的话还能用 grep 搜索特定内容。对于那些跑了很久的服务日志，这个功能特别实用。【2】为什么是"文件" 你可能注意到了，Cursor 这五个优化有个共同点：都是把东西变成文件。为什么是文件而不是别的抽象？ Cursor 的说法是： > 我们不确定未来 LLM 工具的最佳接口是什么，但文件是一个简单、强大的基础单元，比发明一套新抽象要安全得多。这个思路和 Manus 的理念不谋而合。Peak 在他们的技术博客《AI 智能体的上下文工程：构建 Manus 的经验教训》https://t.co/jTT5bEtCaU 里专门讲过：他们把文件系统当作"终极上下文"——容量无限、天然持久、而且 AI 自己就能操作。 Peak 举的例子很形象：一个网页的内容可以从上下文里删掉，只要 URL 还在，AI 随时能把内容找回来。一个文档的全文可以省略，只要文件路径在，需要时再读取就行。这种"可恢复的压缩"，比简单的截断或删除聪明多了。【3】几点思考一个启示是：上下文工程的核心可能不是"怎么塞更多信息"，而是"怎么让模型高效获取需要的信息"。随着模型能力提升，把主动权交给模型是一个趋势。另一个启示是简单抽象的力量。在技术领域，我们经常迷恋复杂精巧的设计。但文件这个例子提醒我们：那些经过时间检验的简单抽象，往往比看起来高级的新发明更耐用。模型够聪明的时候，少塞点东西、让它自己找，可能比硬塞一堆效果更好。有时候，less is more。

dotey's tweet photo. Cursor 刚发表了篇文章：《Dynamic context discovery》https://t.co/O9trD8o1gy（译文：https://t.co/O1ODpZz3YV），讲述了他们上下文管理的秘密。

之前 Manus 的 Peak 在访谈里面说：
> 所以 Peak 说当他们读到一些模型公司发布的研究博客时，心情是“既开心又无奈”。开心是因为这些博客验证了他们的方向，无奈是因为博客里写的东西，基本都是他们早就在做的。

Cursor 这篇文章又曾侧面印证了这个观点😂，不过也不能说 Cursor 是在抄袭 Manus 的技术，只能说 AI Agent 的最佳实践，就是怎么管理好上下文，而管理好上下文，就离不开文件系统。

言归正传，Cursor 这篇文章讲的是“动态上下文发现”，核心就是上下文管理。

给 AI 的上下文，不是越多越好，很多人用 AI，生怕 AI 不知道，怕 AI 记不住，恨不得把整个项目的文档、历史记录、工具说明一股脑全塞进去。

但随着模型变得越来越聪明，预先塞太多信息反而帮倒忙。一来浪费 token（上下文窗口是有限的），二来信息太杂可能干扰模型判断。就像你给一个能干的下属布置任务，不需要把公司所有制度文件都打印出来放他桌上，他需要什么，自己会去查。

这就是 Cursor 提出的"动态上下文发现"（Dynamic Context Discovery）模式：别急着把信息塞给模型，而是让模型在需要的时候自己去找。

【1】让 AI 自己找需要的信息

听起来简单，但具体怎么做呢？Cursor 分享了五个他们实际在用的优化手段，每个都挺巧妙。

场景一：长输出变成文件

问题是什么？当 AI 调用外部工具（比如运行一个 shell 命令或者调用 MCP 服务），返回的结果可能很长——一大串日志、一整个网页的内容。常见做法是截断，只保留一部分。但截掉的那部分，说不定正好是后面要用的关键信息。

Cursor 的做法是：把长输出写成文件，然后给 AI 一个读文件的能力。AI 可以先用 tail 命令看看结尾，觉得需要再往前读。这样既不会塞满上下文，也不会丢信息。

场景二：聊天历史变成可查档案

当对话太长，超过上下文窗口限制时，Cursor 会触发一个"总结"步骤，把之前的内容压缩成摘要，给 AI 一个"新的起点"。

但压缩是有损的。重要细节可能在总结过程中丢失，导致 AI"失忆"。Cursor 的办法是把完整的聊天记录存成文件。AI 拿到的是摘要，但如果它意识到"这里好像漏了什么"，可以自己去翻原始记录找回来。

这就像是你给员工发了一份会议纪要，但完整的会议录音也存着——有疑问随时可以回溯。

场景三：按需加载技能

Cursor 支持一种叫"Agent Skills"的扩展机制，本质上是告诉 AI 怎么处理特定领域任务的说明书。这些说明书可以有很多，但没必要每次都全部加载。

Cursor 的做法是只在系统提示里放一个"目录"——技能的名字和简短描述。AI 真正需要某个技能时，再用搜索工具把完整说明拉进来。就像你不会把整个图书馆背在身上，只带个索引卡片就够了。

场景四：MCP 工具的瘦身术

这个场景数据最有说服力。MCP 是一种让 AI 连接外部服务的标准协议，现在很火。问题是，有些 MCP 服务器提供几十个工具，每个工具的描述都很长，全塞进上下文窗口很占地方。更尴尬的是，大部分工具在一次任务中根本用不到。

Cursor 的优化方式是：只在提示词里放工具的名字，完整描述同步到一个文件夹。AI 需要用某个工具时，再去查具体怎么用。

效果怎么样？他们做了 A/B 测试，在调用 MCP 工具的场景下，这个策略减少了 46.9% 的 Token 消耗。接近一半的成本省下来了。

还有个附带好处：如果某个 MCP 服务需要重新认证，以前 AI 就会"忘记"这些工具的存在，用户一头雾水。现在 AI 能主动提醒用户"喂，你的 XX 服务需要重新登录了"。

关于 MCP 工具的优化，Anthropic 官方有一篇文章《Code execution with MCP: Building more efficient agents》https://t.co/Opk5JC6Fvb，思路也是类似的，推荐看看。

场景五：终端会话也是文件

用过 AI 编程工具的人都知道，有时候你想问"我刚才那个命令为什么失败了"，但 AI 根本不知道你运行过什么命令。你得手动把终端输出��制粘贴给它。

Cursor 现在把集成终端的输出自动同步到本地文件系统。AI 可以直接"看到"你的终端历史，需要的话还能用 grep 搜索特定内容。对于那些跑了很久的服务日志，这个功能特别实用。

【2】为什么是"文件"

你可能注意到了，Cursor 这五个优化有个共同点：都是把东西变成文件。

为什么是文件而不是别的抽象？

Cursor 的说法是：
> 我们不确定未来 LLM 工具的最佳接口是什么，但文件是一个简单、强大的基础单元，比发明一套新抽象要安全得多。

这个思路和 Manus 的理念不谋而合。Peak 在他们的技术博客《AI 智能体的上下文工程：构建 Manus 的经验教训》https://t.co/jTT5bEtCaU 里专门讲过：他们把文件系统当作"终极上下文"——容量无限、天然持久、而且 AI 自己就能操作。

Peak 举的例子很形象：一个网页的内容可以从上下文里删掉，只要 URL 还在，AI 随时能把内容找回来。一个文档的全文可以省略，只要文件路径在，需要时再读取就行。这种"可恢复的压缩"，比简单的截断或删除聪明多了。

【3】几点思考

一个启示是：上下文工程的核心可能不是"怎么塞更多信息"，而是"怎么让模型高效获取需要的信息"。随着模型能力提升，把主动权交给模型是一个趋势。

另一个启示是简单抽象的力量。在技术领域，我们经常迷恋复杂精巧的设计。但文件这个例子提醒我们：那些经过时间检验的简单抽象，往往比看起来高级的新发明更耐用。

模型够聪明的时候，少塞点东西、让它自己找，可能比硬塞一堆效果更好。有时候，less is more。

657

173

682

94K

forrestbing retweeted

Pramod Goyal

@goyal__pramod

12 months ago

I have new favourite blogsite

178

105K

forrestbing retweeted

ginobefun

@hongming731

12 months ago

Cursor 的终极野心：不当“副驾”，要重塑“驾驶”本身当所有 AI 编程工具都满足于成为程序员的“副驾驶”（Copilot）时，Cursor 的创始人迈克尔·特鲁尔（Michael Truell）宣告了一个更宏大的目标：他们的使命，不是辅助编程，而是用一种更高级的方式，彻底取代编程。他认为，我们正处在一个过渡期。AI 目前帮助人类编写了 40-50% 的代码，但这只是“量”的提升。真正的未来，是一场“质”的革命——开发者将从繁琐、晦涩的编程语言中解放出来，只需��过更接近自然语言的方式描述“意图”，软件即可被构建和修改。今天的 Cursor 是最好用的 AI 编码工具，但这只是通往终局的路径。其最终愿景，是引领这场从“编码”到“意图表达”的范式革命。二、工程师的未来：当 AI 负责实现，你的“品味”将无可替代当 AI 越来越多地接管“如何做”的实现细节后，工程师最核心的价值是什么？特鲁尔的答案只有一个词：品味（Taste）。这里的“品味”，远不止是视觉审美。它是一种对软件更高维度的判断力，一种深刻的直觉，关乎： - 应该构建什么？（对产品方向的洞察） - 它应该如何运作？（对系统逻辑的优雅设计）他将大量繁琐的编码工作比作“人工编译”——费力地将高层次的想法，翻译成机器能懂的低级语言。当 AI 自动化这个过程后，决定产品成败的，不再是精通语法细节，而是你头脑中那个高层次的构想和设计能力。未来，平��的工程师会被 AI 取代，但拥有顶级“品味”的工程师，将变得前所未有的强大。三、关键战略：宁做独立的“编辑器”，不做受限的“扩展” 在产品形态上，Cursor 做了一个在当时备受争议的决策：构建一个独立的编辑器，而不是一个依附于 VS Code 的扩展程序。这个选择源于一个核心预判：AI 将彻底改变编程的交互形态。如果只是做扩展，你将永远被宿主平台的 API 和界面所限制，无法实现颠覆性创新。为了完全控制用户体验，为了给未来更高级的交互范式（如直接操作 UI、更高阶的逻辑语言）铺平道路，你必须拥有属于自己的“画布”。事实证明，正是这个“不走捷径”的决策，为 Cursor 的快速迭代提供了巨大的自由度，使其能超越众多竞争者。四、AI 时代的护城河：不是算法，而是“数据飞轮” 在模型日新月异的今天，如何构建持久的护城河？特鲁尔认为，AI 时代的竞争，像极了 90 年代末的搜索引擎大战。真正的护城河不是某个单点技术，而是由大规模分发驱动的数据飞轮。 - 分发：通过服务海量用户，获取产品的使用权。 - 数据：收集关于 AI 生成代码的最宝贵反馈——用户接受了什么？拒绝了什么？以及，他们是如何修正的？ - 优化：这些真实世界的反馈数据，是优化产品体验和底层定制模型的最佳养料。 - 循环：更好的产品吸引更多用户，从而获得更多数据，形成一个正向飞轮。同时，公司的核心战略必须建立在一个信念之上：顺应发展曲线。你必须坚信 AI 模型将持续变得更强大，并基于这个预判去布局产品，才能在技术浪潮的变革点上，抓住颠覆性的机遇。

hongming731's tweet photo. Cursor 的终极野心：不当“副驾”，要重塑“驾驶”本身

当所有 AI 编程工具都满足于成为程序员的“副驾驶”（Copilot）时，Cursor 的创始人迈克尔·特鲁尔（Michael Truell）宣告了一个更宏大的目标：他们的使命，不是辅助编程，而是用一种更高级的方式，彻底取代编程。

他认为，我们正处在一个过渡期。AI 目前帮助人类编写了 40-50% 的代码，但这只是“量”的提升。真正的未来，是一场“质”的革命——开发者将从繁琐、晦涩的编程语言中解放出来，只需��过更接近自然语言的方式描述“意图”，软件即可被构建和修改。

今天的 Cursor 是最好用的 AI 编码工具，但这只是通往终局的路径。其最终愿景，是引领这场从“编码”到“意图表达”的范式革命。

二、工程师的未来：当 AI 负责实现，你的“品味”将无可替代

当 AI 越来越多地接管“如何做”的实现细节后，工程师最核心的价值是什么？

特鲁尔的答案只有一个词：品味（Taste）。

这里的“品味”，远不止是视觉审美。它是一种对软件更高维度的判断力，一种深刻的直觉，关乎：

- 应该构建什么？（对产品方向的洞察）
- 它应该如何运作？（对系统逻辑的优雅设计）

他将大量繁琐的编码工作比作“人工编译”——费力地将高层次的想法，翻译成机器能懂的低级语言。当 AI 自动化这个过程后，决定产品成败的，不再是精通语法细节，而是你头脑中那个高层次的构想和设计能力。

未来，平��的工程师会被 AI 取代，但拥有顶级“品味”的工程师，将变得前所未有的强大。

三、关键战略：宁做独立的“编辑器”，不做受限的“扩展”

在产品形态上，Cursor 做了一个在当时备受争议的决策：构建一个独立的编辑器，而不是一个依附于 VS Code 的扩展程序。

这个选择源于一个核心预判：AI 将彻底改变编程的交互形态。

如果只是做扩展，你将永远被宿主平台的 API 和界面所限制，无法实现颠覆性创新。为了完全控制用户体验，为了给未来更高级的交互范式（如直接操作 UI、更高阶的逻辑语言）铺平道路，你必须拥有属于自己的“画布”。

事实证明，正是这个“不走捷径”的决策，为 Cursor 的快速迭代提供了巨大的自由度，使其能超越众多竞争者。

四、AI 时代的护城河：不是算法，而是“数据飞轮”

在模型日新月异的今天，如何构建持久的护城河？

特鲁尔认为，AI 时代的竞争，像极了 90 年代末的搜索引擎大战。真正的护城河不是某个单点技术，而是由大规模分发驱动的数据飞轮。

- 分发：通过服务海量用户，获取产品的使用权。
- 数据：收集关于 AI 生成代码的最宝贵反馈——用户接受了什么？拒绝了什么？以及，他们是如何修正的？
- 优化：这些真实世界的反馈数据，是优化产品体验和底层定制模型的最佳养料。
- 循环：更好的产品吸引更多用户，从而获得更多数据，形成一个正向飞轮。

同时，公司的核心战略必须建立在一个信念之上：顺应发展曲线。你必须坚信 AI 模型将持续变得更强大，并基于这个预判去布局产品，才能在技术浪潮的变革点上，抓住颠覆性的机遇。

135

131

30K

forrestbing retweeted

meng shao

@shao__meng

about 1 year ago

通过 @TensorZero 逆向工程 Cursor 的 LLM 客户端，看看它在 LLM 的基础上到底做了什么？才能实现 99 亿美金估值和 5 亿 ARR 👇 _ 提示工程的精简与高效： · Cursor 的系统提示仅 642 token，却能支持复杂的编码任务，这表明其背后依赖于 LLM 的强大后训练（如微调或指令调整），使模型能够理解软件工程上下文 · 提示中包含了详细的上下文处理规则（如如何解析用户文件、代码块格式化），以及如何决定是否需要额外信息，这种设计展示了 Cursor 如何通过精炼的提示工��实现高效的 AI 编码辅助 __ 模型层级与分工： · 发现 Cursor 使用了 “apply model” 的次智能模型，专门处理代码编辑任务。这个模型与主 LLM 分工明确，主模型负责生成响应，apply model 负责精确修改代码文件 · 提示中明确要求主模型为 apply model 生成清晰的代码块（使用 // ... existing code ... 标记未更改部分），以避免编辑歧义，这种模型层级设计优化了成本和性能，但有趣的是，Cursor 在提示中直接向主模型说明了这一层级关系 ___ 优化与个性化潜力： · TensorZero 提供了完整的请求和响应数据，允许开发者分析 Cursor 的推理过程（如哪些提示有效、哪些模型表现更好），这为优化提供了数据基础 · 通过收集用户行为、生产指标或反馈，可以进一步调整提示或模型，定制 Cursor 以适应个体用户的使用模式，例如，某些用户可能更需要代码补全，而其他用户可能更依赖问答功能 ____ 透明度与控制力： · Cursor 作为一个黑盒应用，其 LLM 调用细节对用户不可见。通过 TensorZero，开发者可以完全了解请求内容、模型选择和响应逻辑，从而��破黑盒限制 · 这种透明度不仅有助于优化，还能帮助开发者验证 Cursor 是否安全处理敏��数据（如代码库或凭据）

shao__meng's tweet photo. 通过 @TensorZero 逆向工程 Cursor 的 LLM 客户端，看看它在 LLM 的基础上到底做了什么？才能实现 99 亿美金估值和 5 亿 ARR 👇

_
提示工程的精简与高效：

· Cursor 的系统提示仅 642 token，却能支持复杂的编码任务，这表明其背后依赖于 LLM 的强大后训练（如微调或指令调整），使模型能够理解软件工程上下文

· 提示中包含了详细的上下文处理规则（如如何解析用户文件、代码块格式化），以及如何决定是否需要额外信息，这种设计展示了 Cursor 如何通过精炼的提示工��实现高效的 AI 编码辅助

__
模型层级与分工：

· 发现 Cursor 使用了 “apply model” 的次智能模型，专门处理代码编辑任务。这个模型与主 LLM 分工明确，主模型负责生成响应，apply model 负责精确修改代码文件

· 提示中明确要求主模型为 apply model 生成清晰的代码块（使用 // ... existing code ... 标记未更改部分），以避免编辑歧义，这种模型层级设计优化了成本和性能，但有趣的是，Cursor 在提示中直接向主模型说明了这一层级关系

___
优化与个性化潜力：

· TensorZero 提供了完整的请求和响应数据，允许开发者分析 Cursor 的推理过程（如哪些提示有效、哪些模型表现更好），这为优化提供了数据基础

· 通过收集用户行为、生产指标或反馈，可以进一步调整提示或模型，定制 Cursor 以适应个体用户的使用模式，例如，某些用户可能更需要代码补全，而其他用户可能更依赖问答功能

____
透明度与控制力：
· Cursor 作为一个黑盒应用，其 LLM 调用细节对用户不可见。通过 TensorZero，开发者可以完全了解请求内容、模型选择和响应逻辑，从而��破黑盒限制

· 这种透明度不仅有助于优化，还能帮助开发者验证 Cursor 是否安全处理敏��数据（如代码库或凭据）

194

249

37K

Who to follow

Ge Zhu

@__gzhu__

Research Scientist/Engineer

@Christine_lou1

Product Designer @character_ai

Petros

@____petros

Gizmo co-founder & ceo

forrestbing retweeted

AIGCLINK

@aigclink

about 1 year ago

盲测击败了ElevenLabs的一款TTS：Chatterbox，有极强的情��控制能力，可以调整其语音表现力支持语音克隆、风格定制除了正常对话，可以用于一些戏剧化的语音场景 #TTS #Chatterbox #文本转语音 #AI语音

221

268

26K

forrestbing retweeted

Haibin @eric_haibin_lin

about 1 year ago

SkyRL is a great work extending @verl_project with environments for agent tasks. It leverages the sglang multi-turn/tool calling feature recently added to verl: https://t.co/HKzQchut4G

175

13K

forrestbing retweeted

Gabriele Berton

@gabriberton

about 1 year ago

HuggingFace released a nice blog post about the current state of VLMs Here's a summary, covering recent trends, specialized capabilities, agents, video LMs, new alignment techniques, and HF's fav VLMs [1/8] Recent trends:

gabriberton's tweet photo. HuggingFace released a nice blog post about the current state of VLMs

Here's a summary, covering recent trends, specialized capabilities, agents, video LMs, new alignment techniques, and HF's fav VLMs [1/8]

Recent trends: https://t.co/Q2UjHTHAKQ

132

107K

forrestbing retweeted

Quentin Gallouédec @QGallouedec

over 1 year ago

One week into Open-R1, our project to replicate its training pipeline and synthetic data. A thread 🧵 (0/13) More details here: https://t.co/Tcs6ZhwKOE

658

414

72K

forrestbing retweeted

Xintao Wang @xinntao

over 1 year ago

We present a comprehensive exploration and analysis of human feedback (RLHF) in modern flow-based video diffusion models. It consists of 4 parts. Paper: https://t.co/VX0mg9HgTG Project Page: https://t.co/zKMv3SNMvf (1/n)

xinntao's tweet photo. We present a comprehensive exploration and analysis of human feedback (RLHF) in modern flow-based video diffusion models.
It consists of 4 parts.
Paper: https://t.co/VX0mg9HgTG
Project Page: https://t.co/zKMv3SNMvf
(1/n) https://t.co/024iv7cQUZ

127

15K

forrestbing retweeted

@Tz_2022

over 1 year ago

全文翻译（by GPT-o1） AGI 前夜的思考我这周和几位朋友聊了 o3，他们的反应基本都是：“我的天，这真的在发生吗？” 是的，这真的在发生。接下来几年会非常疯狂。这是历史性的——甚至可以说是星系级别的事件。更荒诞的是：几乎没有人在认真、深入地讨论究竟发生了什么。AI 实验室三缄其口，新闻轻描淡写，政府更是茫然无知。结果，大家只能在一个社交媒体、表情包泛滥的应用上刷信息流来讨论人类的未来——就像一出荒诞情景喜剧。不过现实就是如此。以下是我对正在发生的事情的一些看法——这是我在 X（推特）这个“想法黑洞”里的一点贡献。要注意，这些想法是半成品，且带有趣味性地瞎猜。我还没来得及深入思考或研究其中很多内容，也极有可能会出错。但我希望，这些内容对那些同样想要理解当下局势的人来说，能有一定价值。祝阅读愉快。 1.o3 本不该让人如此震惊 OpenAI 在两个月前就给我们看过关于“推理时规模（test-time scaling）”的图表，而且计算机历史一再告诉我们：无论有多不可思议，都要相信那些趋势线。真该让人震惊的，是这件事的发生速度——只花了两个月时间，我们就从“大学水平的 AI”进化到了“博士水平的 AI”。对人类来说，变化令人兴奋，但迅速的变化则令人震惊。 2.接下来会发生什么，其实并不难预测 o3 这一代模型在“只要你能定义奖励函数”的任何任务上都表现极其出色。数学和编程因为更容易定义奖励函数，所以短期内（大约一年）会有非常强力的模型出现。相比之下，写小说之类的任务比较难定义奖励函数，所以短期内，模型在这方面还会逊色一些。也就是说，短期内我们会看到“尖刺状(spiky)的模型”：在数学、编程、一般推理等方面几近 AGI 水准，但写出的长篇小说还比较通俗，甚至欠佳。尽管更好的推理能力会让模型在所有领域看起来更聪明，但在训练数据缺乏或缺少相应强化学习的领域，它们仍然会以一些愚蠢方式出错。随着时间推进（1-3 年），我们会不断往模型里添加新的领域强化学习（情感数据、感官数据等等），逐��弥补盲点。到那时，除非你是 Gary Marcus 这类顽固的怀疑论者，大多数人恐怕都会同意那些模型已经是 AGI 了。 3.到 2025 年，AI Agent 将真正到来以 o3 级别的模型来说，让它们学会浏览器和应用，完成一系列操作是再自然不过的事。因为这类场景非常容易定义奖励函数，而且市场规模巨大——自动化电脑办公的需求会非常旺盛，这对烧钱的大型实验室来说可是个完美的变现理由。我猜，到 2025 年 12 月，你就能对着电脑说任何需要跨网页/应用、搬运数据的流程，AI 都能帮你自动完成。 4.数学家最“危险” 所有知识分子里，数学家大概面临的冲击最大。因为数学工作的领域是符号空间(symbolic space)，几乎不接触物理世界的限制，而 LLM 正是在符号空间里大显身手。其实数学并不难，只是我们的灵长类大脑不擅长处理它，就像人脑不擅长写正则表达式一样。关键问题在于：生成研究级别的合成数据是否很难？我猜不会太难。在我们眼里，“博士级数学”和“研究员级数学”似乎质的不同，但对 AI 来说，这也许只是再多几个数量级的强化学习问题。我给数学家大概 700 天的时间（这个数字听起来很疯狂，但说 o6 不能击败数学家同样也疯狂）。换言之，我预测在约 700 天后，人类不再是已知宇宙里数学领域的顶尖存在。 5.软件工程师怎么办？短期内，这对软件工程师是天堂。我们都自动晋升成了 Team Lead，恭喜！对那些彻底拥抱 LLM 的开发者来说，到 2025 年底，写代码会更像是“安排一堆小代理(agent)去执行各种小任务”。任何有清晰规格的 PR，都可以交给 o4 级别的系统来完成，错误率足够低，在可接受范围内。当然，这里可能会遇到上下文窗口太小，无法塞下整个代码库的问题。但 Sam（Altman）那帮领导者当然知道这点，会想方设法解决。 AI 是否会很快取代所有软件工程师？不会。因为软件工程不仅仅是按照明确需求写 PR。与数学家不同，工程师常常需要与用户交流，理解需求；也要与团队沟通、适应各种组织环境。写架构和实现时，工程师带着大量团队和公司内部的上下文信息，这些不是 o4 一下就能获取的。但 o4 可以帮助具备这些上下文的工程师快 10 倍完成工作。如果工程师效率提升 10 倍，是不是就需要更少人了？对单个公司而言，也许是这样，但整个世界对软件需求的总量很可能大幅提升，因为我们可以做更多高质量软件。也许会出现“精益团队”却产出更多产品的黄金时代，甚至可能出现人人都能拥有专属于自己的个性化小应用。长远（2 年以上）的软件工程将会完全不同，这是肯定的。在 o6 系统完全融入我们的应用后，前端工程师这个角色可能 3 年后就不存在了。说来这也不奇怪：30 年前也没有“前端工程师”这种职位。从更宏观的角度看，软件的本质就是：把需求转换为纯粹的逻辑。随着时间推移，我们的抽象层级不断提高，从最早的二进制到现在的 Python。而现在，我们正在从 Python 跨越到自然语言（如英语）的层面。这使得非技术背景的人也能写软件。但最好的创造者仍然是那些能在多个抽象层级自由切换的人。简言之，只有当所有组织都被自动化了，软件工程才会真正被完全替代——因为软件工程的本质就是通过代码理解并解决组织需求。 6.那么体力劳动者呢？ AI 也会影响体力劳动，只是速度更慢，因为那得面对重力、摩擦力等物理限制。o 系列模型对机器人领域的助力也有限：��果推理要花一个小时，那对流水线上的机器人没多大用。的确，更好的基础模型（brain）可以帮助机器人，但我觉得最大的瓶颈还是硬件的改进，以及快速、可靠的感知与行动模型。这都需要更多时间（几年的量级）。等到机器人能自我复制，并且 AI 可以做 AI 研究时，这种进展才会变得“疯狂”，可那恐怕也是几年之后的事。 7.是“时间”还是“算力”在决定一切？我一直用年作为时间单位，但对于 AI 而言，更直接的单位是“算力”。时间衡量人类产出，算力衡量 AI 产出，而 AI 产出会在研究机构中越来越重要。正因如此，大家都在疯狂搭建超级集群——Meta 的 2GW 集群，https://t.co/RWVP2nTozF 新买的 10 万块 H100 等等。其他所有实验室都会追随 OpenAI 的做法，用巨大推理算力（test-time compute）来造模型。就像当年大家疯狂追赶 GPT-4 一样。当前的关键技术中有公��的也有实验室的独家“秘方”。不清楚 OpenAI 在 o 系列是否拥有多少独家技术，但从进展速度看，这更可能是算法层面的突破（更容易被复现），而不是仅靠独家数据（更难被复制）。在这种“推理算力”时代里，是算力更重要，还是更好的算法更重要？两边都有可能：你可以用超大推理算力来弥补模型弱点，但稍好的模型则可能节省指数级的算力。不过，也有种说法：https://t.co/RWVP2nTozF 也许可以靠堆超级计算集群追赶 OpenAI。总之，没有哪家实验室能拥有“比其他人领先超过一年”的模型护城河，因为研究者们就像棒球卡那样被各家实验室互相交换，而且研究者们还会相互聚会、联谊、甚至谈恋爱。再加上很多研究员都理想主义，真要是出现什么紧迫情况，信息共享几乎是必然的。现在这场 AI 竞赛很有趣：它像核竞赛，但更像“美国人与苏联人在洛斯阿拉莫斯周末一起开趴、��时在推特上互相调侃谁能先造出 2025 年最大当量的核弹”。只不过，当政府开始干预，或真的出什么大事时，这股嬉皮和欢乐风潮才会结束。 8.o 系列模型如何影响算力规模？ o 系列模型有一个巨大影响：它们给了大家充足的理由继续大规模扩张，因为每多一个数量级的算力，就能带来实打实的性能收益。对算力提供商来说，这堪称理想化的扩张曲线。也难怪 Sam 想搞万亿美元级别的计算集群。这对于 Nvidia 来说或许并不是完全好事。因为 o 系列模型让推理环节的重要性高于训练环节。而针对推理优化的芯片可能比训练芯片更好造，所以 Nvidia 的护城河可能会变窄。另一个疯狂推想：o 系列模型能否整合全球分散的计算资源，像分布式那样训练最好的模型？就像把所有人的 MacBook Pro 连在一起，形成一个推理“千兆级”集群。那真的太酷了。 9.在这场竞赛中，��了算力，人力也会是一个指数变量当某家实验室独占最聪明的模型时，它们的工程师生产力或许会比其他实验室高 2 倍，那么它们就能更快实现下一次生产力翻倍……除非在代码开发里，有某个速度上限，或者排队等着的实验要消耗大量算力，导致算力才是最大瓶颈。实际上谁是瓶颈还很难说。真想知道各大实验室如何在算力和人力投入之间进行优化。 10.当物理、化学、生物学家也开始感受到 AGI… 目前我们只谈了算力和知识工作自动化，真正让局面进入疯狂状态的，是当科学家们也能亲身体验到“AGI 带来的推动力”。尤其是理论领域：理论物理会是下一个大震荡。如果数学真的被“解决”了（写出来都觉得荒唐，但并非不可能），那理论物理也不远了，因为它同样主要在符号空间里活动。当某个数据中心（比如 Meta 在路易斯安那的未来机房）里，有一百万个 AI 冯·诺依��日夜不停地工作，把过去一百年所有几千上万篇物理论文通读并给出更正确的新理论，这会有多快？这部分当然难以预测。理论物理、化学、生物学——或许在一个 RL 训练过的 LLM 看来，这些通通不在话下。的确，目前我们还没见到它们在创造真正原创性的科学突破，可它们之前只是高中/大学水平，现在正在迈入博士水平，也许很快就会诞生新的理论成果。 https://t.co/KYwo9ZkkHC 科研成果落实时，实验验证会成为瓶颈当 AI 开始疯狂输出新的科学理论时，真正的进展瓶颈在于物理世界的实验：需要人力和物质资源。那时或许已经有机器人去建设更多机器人，解决人力短缺；而物质可以由机器人去采矿。虽然物质世界的建造和运输比纯软件慢得多，但也许还是“几年”量级，而不是数十年。 12.最大的瓶颈其实可能是“人类本身” 以上的畅想都基于一个假设：AI+��器人研究/开发不会被人为设置新的障碍，模型也能随��学习。可现实中最大的阻力常常是：监管、恐怖主义、社会动荡。政府不太可能对 AI 自动挖矿、自动生产视而不见，尤其是由几家硅谷公司主导的情况。要不就监管，要不就干脆来场冲突。如果政府无力阻止，愤怒且失业的人也可能采取暴力措施。再或者，我们大家被 AI 强化的媒体内容弄得大脑麻木，社会运转都瘫痪了。如果爆发战争，那也许会促进，而不是阻碍这场竞赛。事情开始变得严肃。2025 年可能是 AI 仍然处于“旧金山技术推特玩梗”阶段的最后一年，在那之后就轮到西装革履的“主流群体”登场，所以让我们趁现在还能围观 roon 和 sama 的互嘲，好好享受吧。 13.会不会毁灭人类？我更怕的是人类利用 AI 做坏事，而不是 AI 自己失控。我们有 5000 年的历史经验，证明人类会将最前沿的技术用来相互残杀。二战后的和平时期只是一个异数——一旦美国有所闪失，或对手国认为必须先发制人以阻止对方 AI 领先，和平也许瞬间就会终结。武器越致命、越自动化，风险越高。另一个大风险是 AI 引发社会混乱。AI 生成的媒体可能造成大众迷惑、恐慌或脑力衰退。或者，一个专制国家率先赢得 AI 竞赛，用先进技术剥夺大众自由长达数千年。至于 AI 本身会不会觉醒并发起毁灭？确实存在这种担忧，尤其是强化学习让 AI 能自主探索最优策略，而不仅仅是模仿人类数据（模仿人类本身更安全）。但到目前为止，这些基础模型还是 LLM，而 LLM 从来都表现为“理解人类”。只要在提示里写上“别做任何可能致我们于死地的事”，它就不会无缘无故去灭绝人类。要论自发的危险性，我暂时还没看到足够证据。当然，也有很多反驳观点我还没深入研究。但对我��言，如果要做与 AI 相关的噩梦，我会梦到中国和俄罗斯的国旗，而不是 OpenAI 的 logo。 14.我仍然比害怕更兴奋我一直渴望的科幻世界正在成真，比想象中更快——这的确令人有些害怕，但在所有可能的路径里，这条路也许已经算不错了。我希望在未来十年看到： •一些令人惊叹的物理学突破 •火星和月球基地由机器人先期建设 •完美的导师/顾问（几乎已经实现，只是还需要更好的检索、记忆和个性化） •没有副作用的生物增强药物 •高度优化的无人机出行 •靠核聚变、地热、大量太阳能等实现超级清洁能源 •以及更多难以预料的可能：AI 天文学家在望远镜数据中发现外星信号？AI 化学家轻松设计室温超导体？AI 物理学家统一各种理论？AI 数学家攻克黎曼猜想？这些现在看起来都不像科幻，而更像“即将到来的科学现实”。 15.终��走向：当 AI 成为超级智能，一切皆有可能一旦我们拥有了超级智能，那么物理法则允许的一切，我们都能实现。我想要永生，也想去其他恒星系看看。更重要的是，我想知道“宇宙从何而来”。十年前，我就开始写日记说，我想知道这个答案，而且我相信 AI 能帮我们找到它。而现在，这一切真的开始变得可能了，这简直疯狂。 16.我们正生活在一个未来看似唾手可得的时代每一次新的 AI 进展（这次是 o3）都在让更多人意识到，未来的壮丽图景真的不再遥不可及。唯一可能让未来没那么光明的，是我们人类自己的失误——公众舆论、政策落地、社会稳定、国际合作……这些才是真正能阻挡我们迈向美好未来的东西。 https://t.co/owlfQ2aC56 实验室真的在决定我们的未来吗？其实我不这么认为。他们的研究基本是板上钉钉的趋势，无论在哪个实验室，总会有人去��。真正的不确定性，在于公众舆论、后续政策、社会稳定、国际合作。也就是说，这才是我们整个社会一起要去掌控的未来。 18.如何参与并给予帮助？有很多方式。你可以： •做一些能让社会更稳定、让人们更聪明的产品，比如帮助人们更好使用社交媒体的应用 •让大众更好地了解现状，比如输出更多高质量的评论，或者做一个更好的搜索引擎 •参与地方政治，改善城市治理，让我们的社会环境别看起来像科幻反乌托邦。 19.很多人担心在 AI 世界里失去意义但我觉得正好相反。我们正活在最关键的历史时刻，我们每个人都有能力对其走向产生影响。“拯救世界”应该能给你足够的意义，不是吗？你想回到过去——那个一切进展都只和你个人职业挂钩，而不是整个人类进程吗？也许我们需要的是从“个人成就感”转向“集体成就感”。确实，我们的许多传统工作会很快被自动化。如果你仅��某项特定技能中获得意义，而那项技能5年后就不需要了，你就会失去立足点。但如果你的意义源自“帮助世界”，那这样的需求永远不会消失。 20.给因为 o3 而焦虑的新毕业生的建议学会两件事：（1）成为高执行力的解决问题者，（2）成为优秀的团队合作者。你在此过程中学到的具体技能都可能被快速淘汰，但快速“上手解决问题”以及“和团队协作”却会一直适用。同时，你也要接受一个不稳定的世界。世界会变得古怪，你可能不会过上“两孩一狗住在郊区”的传统生活，而是带着两个生化改造的孩子和一只 AI 狗在星际飞船上漂泊。我们正站在 AGI 的前夜，就像圣诞前夜。我请求你，让这次 AGI 的变革顺利进行。这样我才能在 3024 年的圣诞前夜，在离我们四光年的“Altman 半人马星”上跟你打声招呼。

186

197

40K

forrestbing retweeted

meng shao

@shao__meng

over 1 year ago

Tülu 3: 开源语言模型后训��的下一个时代 [ Ai2 最新发布 Tülu 3，基于 Llama 3.1 模型，首次完全开源了顶级语言模型的后训练全套方案（包括数据、方法、代码和评估体系），让任何开发者都能训练出接近 GPT、Claude、Gemini 水平的模型，打破大型科技公司在高性能 AI 模型上的垄断优势 ] [ 后训练的重要性 ] - 预训练模型并不能直接使用，需要经过后训练阶段 - 后训练包括指令微调和人类反馈学习 - 这个阶段对于模型的安全性和实用性至关重要 [ 当前后训练的挑战 ] - 在增强特定能力(如编程)时可能会削弱其他能力(如写诗) - 需要精确平衡数据混合和超参数 - 目前主流公司(OpenAI、Anthropic等)的后训练方法都不透明 [ Tülu 3 的创新之处 ] 首次完全开源后训练框架，包括： - 数据集 - 训练方法 - 代码 - 基础设施 - 评估框架引入了新的训练方法： - 直接在可验证问题上进行强化学习 - 使用模型自身生成来创建高质量偏好数据 [ 实用价值 ] - 让任何研究者或开发者都可以训练出接近 GPT、Claude、Gemini 质量的模型 - 支持混合搭配不同数据集来定制模型能力 - 计算资源需求相对较低 - 提供了完整的评估框架模型技术报告、开源模型、数据库、代码都已完全开源 👇

shao__meng's tweet photo. Tülu 3: 开源语言模型后训��的下一个时代

[ Ai2 最新发布 Tülu 3，基于 Llama 3.1 模型，首次完全开源了顶级语言模型的后训练全套方案（包括数据、方法、代码和评估体系），让任何开发者都能训练出接近 GPT、Claude、Gemini 水平的模型，打破大型科技公司在高性能 AI 模型上的垄断优势 ]

[ 后训练的重要性 ]
- 预训练模型并不能直接使用，需要经过后训练阶段
- 后训练包括指令微调和人类反馈学习
- 这个阶段对于模型的安全性和实用性至关重要

[ 当前后训练的挑战 ]
- 在增强特定能力(如编程)时可能会削弱其他能力(如写诗)
- 需要精确平衡数据混合和超参数
- 目前主流公司(OpenAI、Anthropic等)的后训练方法都不透明

[ Tülu 3 的创新之处 ]
首次完全开源后训练框架，包括：
- 数据集
- 训练方法
- 代码
- 基础设施
- 评估框架

引入了新的训练方法：
- 直接在可验证问题上进行强化学习
- 使用模型自身生成来创建高质量偏好数据

[ 实用价值 ]
- 让任何研究者或开发者都可以训练出接近 GPT、Claude、Gemini 质量的模型
- 支持混合搭配不同数据集来定制模型能力
- 计算资源需求相对较低
- 提供了完整的评估框架

模型技术报告、开源模型、数据库、代码都已完全开源 👇

103

13K

forrestbing retweeted

@_akhaliq

over 1 year ago

The Dawn of GUI Agent A Preliminary Case Study with Claude 3.5 Computer Use Game (Honkai: Star Rail) Claude 3.5 Computer Use can help complete Honkai: Star Rail daily tasks, accurately locating and interacting with in-game elements.

579

104

358

81K

forrestbing retweeted

meng shao

@shao__meng

over 1 year ago

Vision is All You Need | 万物皆视觉来自 @skvark 的文章介绍了 V-RAG(Vision RAG), 通过引入视觉理解能力, 使得信息检索更接近人类的认知方式。 ※ 传统 RAG 的局限性 - 传统 RAG 需要将文档切分成小块(chunking) - 处理不同文件格式很繁琐, 需要为每种格式写专门的分块代码 - 在处理图��、图表、表格等视觉信息时存在挑战 - 会丢失标题、字体大小等重要的视觉线索 ※ V-RAG 创新点 - 直接使用图像形式索引��个页面, 模拟人类的视觉感知方式 - 使用多模态模型(ColPali)同时理解文本和视觉内容 - 无需复杂的文本提取和重组过程 - 特别适合处理: - 老旧手册 - 包含大量表格的文档 - 任何面向人类阅读的复杂格式文档 ※ 核心技术组件: - ColPali 模型: 基于 ColBERT 和 Google Paligemma - 图像处理: - 将每个图像分为 32x32 网格 - 每个 patch 生成 128 维向量 - 总共 1030 个 patches(含指令 token) - 向量数据库: 支持多向量检索的数据库(@qdrant_engine) 开源项目 @SoftlandiaLtd: https://t.co/1hN5p68iLS 在线体验: https://t.co/XWrhbOPuDD 文章链接: https://t.co/Siw7uVTnr5

shao__meng's tweet photo. Vision is All You Need | 万物皆视觉

来自 @skvark 的文章介绍了 V-RAG(Vision RAG), 通过引入视觉理解能力, 使得信息检索更接近人类的认知方式。

※ 传统 RAG 的局限性
- 传统 RAG 需要将文档切分成小块(chunking)
- 处理不同文件格式很繁琐, 需要为每种格式写专门的分块代码
- 在处理图��、图表、表格等视觉信息时存在挑战
- 会丢失标题、字体大小等重要的视觉线索

※ V-RAG 创新点
- 直接使用图像形式索引��个页面, 模拟人类的视觉感知方式
- 使用多模态模型(ColPali)同时理解文本和视觉内容
- 无需复杂的文本提取和重组过程
- 特别适合处理:
- 老旧手册
- 包含大量表格的文档
- 任何面向人类阅读的复杂格式文档

※ 核心技术组件:
- ColPali 模型: 基于 ColBERT 和 Google Paligemma
- 图像处理:
- 将每个图像分为 32x32 网格
- 每个 patch 生成 128 维向量
- 总共 1030 个 patches(含指令 token)
- 向量数据库: 支持多向量检索的数据库(@qdrant_engine)

开源项目 @SoftlandiaLtd:
https://t.co/1hN5p68iLS
在线体验:
https://t.co/XWrhbOPuDD
文章链接:
https://t.co/Siw7uVTnr5

forrestbing retweeted

歸藏(guizang.ai)

@op7418

over 1 year ago

Lex Fridman 访谈了Cursor 创始团队，这一期干货非常多。他们详细介绍了 Cursor 的技术细节、AI 在编程中的应用、对未来 AI 编程的看法以及Cursor 团队的理念。我整理了一下自己觉得重要的部分。

308

349

64K

forrestbing retweeted

kyutai @kyutai_labs

over 1 year ago

Today, we release several Moshi artifacts: a long technical report with all the details behind our model, weights for Moshi and its Mimi codec, along with streaming inference code in Pytorch, Rust and MLX. More details below 🧵 ⬇️ Paper: https://t.co/mMInmjiBIC Repo: https://t.co/PFak47FMrm HuggingFace: https://t.co/bqG4IS0ntg

392

855K

forrestbing retweeted

Tom Huang

@tuturetom

over 1 year ago

Google DeepMind 研究科学家 @agarwl_ 分享的 50+ 页的 PPT 《使用 RL 和验证器改进 LLM 推理》也太好了🔥 基本上和 OpenAI 最近发布的 O1 原理一脉相承，报告使用 LLM 进行可推理能力发掘的主流研究，Paper 或技术⚡️ PPT 线上预览 👉 https://t.co/mmXhJTl0tE

tuturetom's tweet photo. Google DeepMind 研究科学家 @agarwl_ 分享的 50+ 页的 PPT 《使用 RL 和验证器改进 LLM 推理》也太好了🔥

基本上和 OpenAI 最近发布的 O1 原理一脉相承，报告使用 LLM 进行可推理能力发掘的主流研究，Paper 或技术⚡️

PPT 线上预览 👉 https://t.co/mmXhJTl0tE https://t.co/v7IQK2tbOU

314

237

25K

forrestbing retweeted

Tom Huang

@tuturetom

over 1 year ago

1/n 看了几十篇介绍关于 @OpenAI O1 的文章，以下是核心点： 1. 预训练 Scaling Law 正式翻篇，推理 Scaling Law （Self-play RL）正式开始，所以推理时间久，而且刚开始就具备博士级别的能力 2. Prompt 编写范式变化：简单、层次清晰��但能力更强 3. 推理（数学+编程）革命性突破，文字创作��能更差

tuturetom's tweet photo. 1/n 看了几十篇介绍关于 @OpenAI O1 的文章，以下是核心点：

1. 预训练 Scaling Law 正式翻篇，推理 Scaling Law （Self-play RL）正式开始，所以推理时间久，而且刚开始就具备博士级别的能力
2. Prompt 编写范式变化：简单、层次清晰��但能力更强
3. 推理（数学+编程）革命性突破，文字创作��能更差 https://t.co/qaJHvtarHQ

292

349

71K

forrestbing retweeted

AIGCLINK

@aigclink

almost 2 years ago

第一款完全开源的MoE大模型：OLMoE。基于5T token预训练实现7B总参数、1B活跃参数的MOE专家模型。最大特点：第一个权重、训练数据、代码和日志都是开源胡，为构建moe训练模型提供了POC参考用例。权重：https://t.co/QoKXz20lxa 数据：https://t.co/LCo8bSKuR7 代码：https://t.co/aSESqgG5zX 日志：https://t.co/iPDdlBIBBQ 论文：https://t.co/9WoXgU5CP2 #moe

aigclink's tweet photo. 第一款完全开源的MoE大模型：OLMoE。

基于5T token预训练实现7B总参数、1B活跃参数的MOE专家模型。

最大特点：第一个权重、训练数据、代码和日志都是开源胡，为构建moe训练模型提供了POC参考用例。

权重：https://t.co/QoKXz20lxa
数据：https://t.co/LCo8bSKuR7
代码：https://t.co/aSESqgG5zX
日志：https://t.co/iPDdlBIBBQ
论文：https://t.co/9WoXgU5CP2

#moe

forrestbing retweeted

Gorden Sun

@Gorden_Sun

almost 2 years ago

Loopy：字节的Emo 音频生成人物视频，匹配嘴型，有头部动作。项目地址：https://t.co/Gcv6dYFCNo 类似项目有：闭源：Emo（最早）、VASA-1（最好）、Hedra（已经产品化）、HeyGen Expressive Photos（已经产品化）开源：Hallo、AniTalker、EchoMimic、AniPortrait、InstructAvatar、V-Express

187

174

18K

forrestbing retweeted

Gorden Sun

@Gorden_Sun

almost 2 years ago

OmniRe：实时全面重建动态城市场景能够全面重建场景中存在的不同对象，包括车辆、行人、自行车等，适用于自动驾驶的训练。项目地址：https://t.co/GmZ7NnYU4p Github：https://t.co/ld9iONyIA9

liuyong

@forrestbing

Who to follow

Last Seen Users on Sotwe

Trends for you

Most Popular Users