Herbert@MetaSec

@cleanini

Building a trustworthy machine intelligence Wolrd

Stanford, CA

Joined August 2010

1K Following

129 Followers

135 Posts

cleanini retweeted

Niels Rogge @NielsRogge

4 days ago

What is mid-training? The stage between pre-training and post-training A base model is continued on a smaller, curated data mixture chosen to strengthen capabilities that the original pre-training run undercovered, such as multilinguality, domain knowledge, or long-context extension. It usually keeps a pre-training-like objective, but uses higher-quality or more targeted data so later instruction tuning, preference tuning, or RL can shape behavior on top of stronger capabilities. Learn more here: https://t.co/WhpYkyGlv8

NielsRogge's tweet photo. What is mid-training?

The stage between pre-training and post-training

A base model is continued on a smaller, curated data mixture chosen to strengthen capabilities that the original pre-training run undercovered, such as multilinguality, domain knowledge, or long-context extension.

It usually keeps a pre-training-like objective, but uses higher-quality or more targeted data so later instruction tuning, preference tuning, or RL can shape behavior on top of stronger capabilities.

Learn more here: https://t.co/WhpYkyGlv8

447

442

32K

cleanini retweeted

Cameron R. Wolfe, Ph.D.

@cwolferesearch

4 days ago

Interested in learning how to run RL at scale? Here are the best resources to read… Research on Scaling RL 1. The Art of Scaling RL compute for LLMs: https://t.co/PGjI6Gwgv0 2. Scaling Behaviors of LLM RL Post-Training: https://t.co/2u2saB3C0h 3. Optimally Scaling Sampling Compute for LLM RL: https://t.co/rUSdUvJyNH 4. Scaling up RL: https://t.co/O8vV6z8ymx 5. ProRL V2 - Prolonged Training Validates RL Scaling Laws: https://t.co/vu72juvRW4 6. Polaris - A Recipe for Scaling RL with Reasoning Models: https://t.co/rMibSAeJbg RL Frameworks 1. Hybrid Flow (early outline of the verl framework): https://t.co/GnWXx131uD a. More up-to-date info can be found here: https://t.co/j801HcJmPP 2. AReal - Large-Scale Async RL: https://t.co/qhOvsQK09N 3. PipelineRL - Fast On-Policy RL: https://t.co/iRM7KzySXe 4. AsyncFlow - Async Streaming RL: https://t.co/YwmzFtiU2q RL for Agents 1. DeepSWE - Open Coding Agent Trained w/ RL: https://t.co/GHQHcmtE6F 2. AutoForge - Environment Synthesis for Agentic RL: https://t.co/mr3WDIL5vq 3. Agent-R1 - Training Agents w/ End-to-End RL: https://t.co/xpfQJGgzEv 4. AgentRL - Scaling RL for Multi-Turn, Multi-Task Agents: https://t.co/7fbVl0RWXG 5. The Landscape of Agentic RL: https://t.co/OMnSV4rgdW 6. Training SWE Agents with RL: https://t.co/YqMqySbyXS Case Studies & Tech Reports 1. Kimi tech reports: a. Kimi K2 - Open Agentic Intelligence: https://t.co/aAw17SXrIw b. Kimi End-to-end Agentic RL: https://t.co/ProBpOPIiI c. Kimi K1.5 - Scaling RL for LLMs: https://t.co/kRGOxY9Jvp 2. Composer series from Cursor: a. Composer 2: https://t.co/K0v8rNCE6Z b. Composer 2.5: https://t.co/D9PYimfOMU 3. Olmo 3 (also has open code / data): https://t.co/khetJFvp6N 4. MiniMax tech reports: a. MiniMax-M2: https://t.co/HApb0OB80S b. MiniMax-M1: https://t.co/mZj9UQsrnC 5. Nemotron 3 (NVIDIA): https://t.co/lCpE1GzxSi

cwolferesearch's tweet photo. Interested in learning how to run RL at scale? Here are the best resources to read…

Research on Scaling RL
1. The Art of Scaling RL compute for LLMs: https://t.co/PGjI6Gwgv0
2. Scaling Behaviors of LLM RL Post-Training: https://t.co/2u2saB3C0h
3. Optimally Scaling Sampling Compute for LLM RL: https://t.co/rUSdUvJyNH
4. Scaling up RL: https://t.co/O8vV6z8ymx
5. ProRL V2 - Prolonged Training Validates RL Scaling Laws: https://t.co/vu72juvRW4
6. Polaris - A Recipe for Scaling RL with Reasoning Models: https://t.co/rMibSAeJbg

RL Frameworks
1. Hybrid Flow (early outline of the verl framework): https://t.co/GnWXx131uD
a. More up-to-date info can be found here: https://t.co/j801HcJmPP
2. AReal - Large-Scale Async RL: https://t.co/qhOvsQK09N
3. PipelineRL - Fast On-Policy RL: https://t.co/iRM7KzySXe
4. AsyncFlow - Async Streaming RL: https://t.co/YwmzFtiU2q

RL for Agents
1. DeepSWE - Open Coding Agent Trained w/ RL: https://t.co/GHQHcmtE6F
2. AutoForge - Environment Synthesis for Agentic RL: https://t.co/mr3WDIL5vq
3. Agent-R1 - Training Agents w/ End-to-End RL: https://t.co/xpfQJGgzEv
4. AgentRL - Scaling RL for Multi-Turn, Multi-Task Agents: https://t.co/7fbVl0RWXG
5. The Landscape of Agentic RL: https://t.co/OMnSV4rgdW
6. Training SWE Agents with RL: https://t.co/YqMqySbyXS

Case Studies & Tech Reports
1. Kimi tech reports:
a. Kimi K2 - Open Agentic Intelligence: https://t.co/aAw17SXrIw
b. Kimi End-to-end Agentic RL: https://t.co/ProBpOPIiI
c. Kimi K1.5 - Scaling RL for LLMs: https://t.co/kRGOxY9Jvp
2. Composer series from Cursor:
a. Composer 2: https://t.co/K0v8rNCE6Z
b. Composer 2.5: https://t.co/D9PYimfOMU
3. Olmo 3 (also has open code / data): https://t.co/khetJFvp6N
4. MiniMax tech reports:
a. MiniMax-M2: https://t.co/HApb0OB80S
b. MiniMax-M1: https://t.co/mZj9UQsrnC
5. Nemotron 3 (NVIDIA): https://t.co/lCpE1GzxSi

798

134

34K

cleanini retweeted

Huan

@Huanusa

6 days ago

加州大学公开课：三个月流利学会任何语言的秘诀！这堂课直接把语言学习的底层方法论讲透了，看完很多人直呼“早知道这套方法，我英语/日语早就起飞了”！不是死记硬背，而是用大脑最擅长的方式学习语言。想快速学会英语、日语、韩语、西班牙语……任何一门语言的朋友，这堂课强烈建议刷一遍！

657

184K

cleanini retweeted

Anthropic

@AnthropicAI

11 days ago

New on the Engineering Blog: The access and permissions we grant agents should evolve with their capabilities. In our own products, we set these parameters through sandboxing, which limits the scope of any potentially destructive actions. Read more: https://t.co/KfBKW8O9kP

328

281

419K

Who to follow

Alvin-GenAI

@AlvinWeb3

Incubating a vertical agentic AI app, enterprise AI consultant | TMT veteran 20+ years | ex-Alibaba Group VP | Aspen Institute Global Leadership Network

Tianrun Yang

@AIRain2049

Founder | OpenClaw Contributor Building @ Naughty Labs

cleanini retweeted

about 1 month ago

https://t.co/CPbPpYKONX

263

426

80K

cleanini retweeted

kabikabi

@jakevin7

about 1 month ago

deepseek V4 论文里关于 'Agent 能力' 的训练部分值得深入阅读和学习。另外不得不赞叹的是deepseek 的工程能力还是依旧的如此扎实。包括自己设计DSL&实现DSec sandbox等等。里面有一个很巧思的地方，DeepSeek-V4 的 post train 由两个阶段组成：先独立训练多个domain-specific experts，再通过 ODP 合并成统一模型。下面是 V4 在 agent 能力训练上的一些思路： 1. 在 pre-train 中就注入了大量的 agentic data 来强化 agentic 能力。论文明确提到，为增强代码能力，DeepSeek-V4 在 mid-training 阶段加入了 agentic data - 让 base model 见过更长的任务过程。 - 让模型熟悉代码、命令、环境反馈、文件修改等模式。 - 给后续 Agent SFT/RL 提供更好的初始化，而不是从纯聊天模型开始硬训工具调用。 2. 训练多个“领域专家”，后训练的第一阶段叫 Specialist Training。论文说，对数学、代码、Agent、指令跟随等目标领域，分别训练独立专家模型 3. hard-to-verify 任务用 Generative Reward Model，传统 RLHF 往往需要训练一个 scalar reward model。DeepSeek-V4 论文说，他们在后训练中不再依赖传统 scalar reward model，而是针对 hard-to-verify 任务构造 rubric-guided RL data，并使用 Generative Reward Model，GRM 来评估 policy trajectory 4. 工具调用协议重新设计为 DSML/XML，V4 引入了新的 tool-call schema，自己设计的DSL格式，减少 escaping failure 和 tool-call errors 5. Interleaved Thinking，保留工具场景下的完整思考轨迹。在 tool-calling 场景中，整个对话过程的 reasoning content 都完整保留，包括跨 user message 边界。 6. Reasoning Effort 分模式训练，Agent 任务不是都需要最大推理。简单工具选择用 Non-think 更快；软件工程、搜索、长文档任务则可以用 High/Max，在成本和成功率之间权衡。 7. Quick Instruction 降低 Agent 前置决策成本 8. 最终用 OPD （multi-teacher On-Policy Distillation）把多个专家合并成统一模型 9. DSec：production-grade 沙箱支撑，V4为 Agentic AI post-training 和 evaluation 建的生产级沙盒平台，它运行在 3FS 分布式文件系统上，可以管理数十万并发 sandbox instances 10. RL/OPD rollout 也专门为长 Agent 轨迹优化 11. 构造自己的 Agent benchmark 集，构造了一个内部 R&D coding benchmark：从 50+ 内部工程师收集约 200 个真实任务，涵盖 feature development、bug fixing、refactoring、diagnostics，技术栈包括 PyTorch、CUDA、Rust、C++ 等。经过过滤后保留 30 个任务作为评测集

jakevin7's tweet photo. deepseek V4 论文里关于 'Agent 能力' 的训练部分值得深入阅读和学习。

另外不得不赞叹的是deepseek 的工程能力还是依旧的如此扎实。包括自己设计DSL&实现DSec sandbox等等。

里面有一个很巧思的地方，DeepSeek-V4 的 post train 由两个阶段组成：先独立训练多个domain-specific experts，再通过 ODP 合并成统一模型。

下面是 V4 在 agent 能力训练上的一些思路：
1. 在 pre-train 中就注入了大量的 agentic data 来强化 agentic 能力。论文明确提到，为增强代码能力，DeepSeek-V4 在 mid-training 阶段加入了 agentic data
- 让 base model 见过更长的任务过程。
- 让模型熟悉代码、命令、环境反馈、文件修改等模式。
- 给后续 Agent SFT/RL 提供更好的初始化，而不是从纯聊天模型开始硬训工具调用。
2. 训练多个“领域专家”，后训练的第一阶段叫 Specialist Training。论文说，对数学、代码、Agent、指令跟随等目标领域，分别训练独立专家模型
3. hard-to-verify 任务用 Generative Reward Model，传统 RLHF 往往需要训练一个 scalar reward model。DeepSeek-V4 论文说，他们在后训练中不再依赖传统 scalar reward model，而是针对 hard-to-verify 任务构造 rubric-guided RL data，并使用 Generative Reward Model，GRM 来评估 policy trajectory
4. 工具调用协议重新设计为 DSML/XML，V4 引入了新的 tool-call schema，自己设计的DSL格式，减少 escaping failure 和 tool-call errors
5. Interleaved Thinking，保留工具场景下的完整思考轨迹。在 tool-calling 场景中，整个对话过程的 reasoning content 都完整保留，包括跨 user message 边界。
6. Reasoning Effort 分模式训练，Agent 任务不是都需要最大推理。简单工具选择用 Non-think 更快；软件工程、搜索、长文档任务则可以用 High/Max，在成本和成功率之间权衡。
7. Quick Instruction 降低 Agent 前置决策成本
8. 最终用 OPD （multi-teacher On-Policy Distillation）把多个专家合并成统一模型
9. DSec：production-grade 沙箱支撑，V4为 Agentic AI post-training 和 evaluation 建的生产级沙盒平台，它运行在 3FS 分布式文件系统上，可以管理数十万并发 sandbox instances
10. RL/OPD rollout 也专门为长 Agent 轨迹优化
11. 构造自己的 Agent benchmark 集，构造了一个内部 R&D coding benchmark：从 50+ 内部工程师收集约 200 个真实任务，涵盖 feature development、bug fixing、refactoring、diagnostics，技术栈包括 PyTorch、CUDA、Rust、C++ 等。经过过滤后保留 30 个任务作为评测集

476

354

59K

cleanini retweeted

宝玉

@dotey

about 1 month ago

https://t.co/c53sSkOPTr

611

155

81K

cleanini retweeted

XinGPT🐶

@xingpt

2 months ago

Claude Code源码泄露后，关于Claude你必看的学习的资料（建议收藏） 1. Claude Code 官方文档 — 官方使用指南与架构说明：https://t.co/AtD6qtAdEe 2. @mal_shaik 的源码分析线程 — "我读完了整个 Claude Code 源码，这样你就不用读了"，总结了 11 层架构、60+ 工具、5 种压缩策略：https://t.co/z7xoslZ18w 3. @chenchengpro 的中文技术解读 — 从源码结构到提取方法的完整中文分析：https://t.co/eBUQ5aaKl1 4. @xxxjzuo 推荐的架构设计哲学分析 — 分析 Claude Code 稳定高质量输出背后的设计哲学：https://t.co/VHekel1y6h 5. Anthropic 官方 Prompt Engineering 指南 — 理解 Claude 系统提示词的设计思路：https://t.co/uSnD8FkrUv

131

11K

cleanini retweeted

deep Manifold

@BetaTomorrow

2 months ago

https://t.co/eBe3osMyAh

573

787

94K

cleanini retweeted

财经数据库

@caijingshujuku

3 months ago

刚刷到一部新鲜出炉的 AI 电影。确实太厉害！《代理人》，片长46分钟，我感觉这大概代表了现阶段 AI 视频的天花板水平。画面一致性、运镜、风格这些东西，你压根不会去在意——不是因为它做得将就，恰恰相反，是因为这些已经完全不是问题了，你的注意力会被剧情拽着走，根本没有空闲去挑剔技术层面的事。这种体验，说真的，之前看AI视频从来没有过。剧本也有点《黑镜》的味道，带着那种让你看完会回味、会隐隐不安的劲儿。刚好周末，时间也不长，推荐大家去看看

510

167

581

135K

cleanini retweeted

宝玉

@dotey

3 months ago

转译：Harness 工程就是控制论读 OpenAI 那篇 Harness 工程的文章[1]时，我一直有种说不上来的感觉。然后突然想通了：这个模式我见过，不是一次——是三次。第一次是 18 世纪 80 年代瓦特的离心式调速器[2]。在它出现之前，得有个工人站在蒸汽机旁边，用手调节阀门。有了它之后，一个带配重飞球的机械装置能自动感知转速并调节阀门。工人并没有消失，但工作变了：从亲手拧阀门，变成设计调速器。第二次是 Kubernetes[3]。你声明期望状态——三个副本、这个镜像、这些资源限制。一个控制器持续观察实际状态。当两者出现偏差，控制器就会去协调：重启崩溃的 Pod、扩缩副本、回滚有问题的部署。工程师的工作从重启服务，变成了编写系统据以协调的规格说明。第三次就是现在。OpenAI 描述了这样一批工程师：他们不再写代码。取而代之的是设计环境、构建反馈回路、将架构约束编成规则——然后由 AI 智能体来写代码。五个月，一百万行代码[1]，没有一行是手写的。他们管这叫"Harness 工程"（Harness Engineering，意为为 AI 智能体搭建"缰绳"和"马具"般的约束框架）。三次，同一个模式。诺伯特·维纳[4]在 1948 年就给它起了名字：控制论（Cybernetics），来自希腊语 κυβερνήτης——舵手。你不再亲手拧阀门，而是掌舵。每一次这个模式出现，都是因为有人造出了足够强大的传感器和执行器，在那个层面闭合了反馈回路。为什么代码库是最后的堡垒代码库并非没有反馈回路，只是只在较低层面有。编译器在语法层面闭合回路。测试套件在行为层面闭合回路。代码检查工具在风格层面闭合回路。这些都是真正的控制论式控制——但它们只能检查那些可以机械验证的属性。能编译吗？能通过测试吗？符合规则吗？而在这之上的一切——这个改动符合系统架构吗？这个方案是不是正确的思路？这个抽象随着代码库增长会不会埋下隐患？——既没有传感器，也没有执行器。只有人类能在那个层面运作，而且是两侧同时运作：判断质量，编写修复。大语言模型同时改变了这两端。它们能在过去只有人类才能把控的层面进行感知——也能在同一层面采取行动：重构一个模块、重新设计一个不一致的接口、围绕真正重要的契约重写整个测试套件。反馈回路第一次可以在做出关键决策的层面闭合了。但闭合回路是必要条件，不是充分条件。瓦特的调速器需要调校。Kubernetes 的控制器需要正确的规格说明。而让大语言模型在你的代码库上工作，需要提供一样更难的东西。校准传感器和执行器让基本的反馈回路运转起来——智能体可以运行的测试、能输出可解析结果的 CI、能指向修复方向的错误信息——这只是基本门槛。Carlini 已经展示过这一点[5]：他让 16 个并行智能体构建了一个 C 编译器，用的是简单到令人惊讶的提示词[6]，但测试基础设施是精心设计的。"我的大部分精力都花在了为 Claude 设计周围的环境——测试、环境、反馈机制。" 更难的问题是用你的系统特有的知识来校准传感器和执行器。大多数人卡在这里，然后把问题归咎于智能体。 "它老是做错。它不懂我们的代码库。"这个诊断几乎总是错的。智能体失败不是因为能力不够，而是因为它需要的知识——什么叫"好"、你的架构鼓励哪些模式、回避哪些模式——锁在你脑子里，你从没把它外化出来。智能体不会靠耳濡目染来学习。如果你不写下来，它在第一百次运行时犯的错和第一次一模一样。这项工作的本质是让你的判断力变得机器可读。描述实际分层和依赖方向的架构文档。内置修复指引的自定义代码检查规则。编码了你团队审美标准的黄金准则。OpenAI 也发现了这一点[1]：他们每个周五花 20% 的时间清理"AI 垃圾代码"——直到他们把标准编进了 Harness 本身。唯一的出路这些实践所要求的一切——文档、自动化测试、编码化的架构决策、快速反馈回路——一直都是正确的。过去三十年出版的每一本软件工程书籍都在推荐它们。大多数人跳过这些步骤，因为跳过的代价是缓慢而弥散的：质量缓慢下滑、新人上手痛苦、技术债务悄悄累积。智能体化工程让这个代价变得极端。跳过文档，智能体就会无视你的规范——不是在一个 PR 上，而是在每一个 PR 上，以机器的速度，全天候地。跳过测试，反馈回路就根本无法闭合。跳过架构约束，漂移的速度会快过你修复的速度。而陷阱在于：如果智能体不知道"干净"长什么样，你也没法用智能体来收拾这个烂摊子。没有校准，制造问题的机器同样无法解决问题。实践没有变。忽视它们的代价已经变得无法承受。生成-验证不对称性——P vs NP[7] 背后的直觉，被 Cobbe 等人用大语言模型实证验证[8]——指明了未来的方向。生成一个正确的解比验证一个解要难。你不需要在实现能力上超越机器，你需要在评判能力上超越它：定义"正确"是什么样子，识别输出哪里不对，判断方向是否正确。那些设计了瓦特调速器的工人再也没有回去拧阀门。不是因为他们做不到，而是因为那已经没有意义了。引用链接 [1] Harness 工程的文章: https://t.co/jzMo4arK5s [2] 瓦特的离心式调速器: https://t.co/ctRxZYFXeZ [3] Kubernetes: https://t.co/D7NdAdi8tV [4] 诺伯特·维纳: https://t.co/LGPwF5eL0u [5] Carlini 已经展示过这一点: https://t.co/2C8va2j7tE [6] 简单到令人惊讶的提示词: https://t.co/deEuA0EPtz [7] P vs NP: https://t.co/i5fKjcuDd0 [8] 用大语言模型实证验证: https://t.co/ekSHhMP6zK

233

185K

cleanini retweeted

AVB

@neural_avb

3 months ago

https://t.co/S3roDAxFx7

700

58K

cleanini retweeted

Bitturing

@Bitturing

3 months ago

创业路上，最难的不是执行，而是系统学习融资、管理、产品这些核心能力。网上信息太碎，很难拼成完整框架。我在 GitHub 挖到一个宝藏资源库：awesome-ceo 🔗 https://t.co/mLGPAZXOCL 覆盖 8 大模块：融资 / 产品 / 销售 / 营销 / 管理 / 招聘 / 财务 / 创业内容来自 YC、a16z、Sequoia 及一线创业者。

Bitturing's tweet photo. 创业路上，最难的不是执行，
而是系统学习融资、管理、产品这些核心能力。
网上信息太碎，很难拼成完整框架。

我在 GitHub 挖到一个宝藏资源库：awesome-ceo
🔗 https://t.co/mLGPAZXOCL

覆盖 8 大模块：
融资 / 产品 / 销售 / 营销 / 管理 / 招聘 / 财务 / 创业
内容来自 YC、a16z、Sequoia 及一线创业者。

562

171

753

44K

cleanini retweeted

ratsxp

@Pxstar_

3 months ago

Anthropic最终还是拒绝了五角大楼的要求坚持AI 不能用于大规模监控美国公民，也不能用于全自主致命武器。公司与公司是不一样的，人与人也是不一样的。

22K

cleanini retweeted

Rishabh Agarwal

@agarwl_

3 months ago

I gave a guest lecture at McGill about scaling RL for LLMs, sharing the slides here. https://t.co/vdBGFYzvio

159

165K

cleanini retweeted

大漂亮| C Labs

@giantcutie666

3 months ago

https://t.co/XyUauk6sDI

133

45K

cleanini retweeted

Misbah Syed

@MisbahSy

3 months ago

https://t.co/NRR3PkF5is

552

102

230K

cleanini retweeted

Shalini Goyal

@goyalshaliniuk

4 months ago

Not all AI agents are built the same. So what sets them apart? Here’s a breakdown of 10 core types of AI agents you’ll come across in real-world systems, from simple reactive agents to complex multi-agent systems. 1. Task-Specific AI Agent Built for one focused task like summarizing or translating. It follows a fixed process with no learning or adaptation. 2. Reactive Agent Responds to immediate input without using memory or history. Think of it like a reflex - it reacts, not plans. 3. Model-Based Agent Builds an internal map of its environment. Simulates outcomes before acting to make smarter, context-aware decisions. 4. Goal-Based Agent Starts with a goal and works backward. It plans steps, simulates paths, and selects the route that achieves the goal. 5. Utility-Based Agent Chooses actions based on how beneficial they are. It weighs all options and picks the one with the highest value. 6. Learning Agent Improves over time by learning from past actions. Adjusts its strategy using feedback and stores new knowledge. 7. Planning Agent Focuses on long-term strategy. It defines a goal, maps out steps, and adjusts based on progress not just reaction. 8. Reflex Agent with Memory Uses preset rules but with added memory of past inputs. Helps respond better when situations repeat or evolve. 9. Multi-Agent System Agent Works with or against other agents. They share environments, negotiate roles, and coordinate to reach a bigger goal. 10. Rational Agent Always selects the most logical option. It analyzes the full picture, predicts outcomes, and chooses the smartest path. Save this if you're exploring Agentic AI or designing intelligent decision-making systems.