hustwj @hustwj - Twitter Profile

Zeyuan Allen-Zhu @ZeyuanAllenZhu 更新了语言模型物理学的第4.1a部分，讨论了模型架构设计以及如何构建一个通用的合成预训练实验场。首先，作者指出了当前模型架构研究面临的困境。在所谓的学术规模预训练中，即使用约13亿参数的模型和1000亿个token进行训练，研究人员通常依赖于Lambada、PIQA、Hellaswag等八个主流基准测试来评估新架构。然而，作者通过实验发现，这些评估结果存在严重的噪声。仅仅通过改变模型的初始化随机种子或数据打乱种子，基准测试的准确率波动就可能达到2%到4%。相比之下，许多论文声称的新架构带来的性能提升往往只有1%到2%，这意味着架构之间的细微差异很容易被随机噪声所掩盖。此外，现实世界的数据是各种技能混合的，这会推迟模型涌现特定技能的时间，导致学习过程变得不可预测。为了解决这个问题，作者提出构建合成预训练实验场。这种方法的优势在于：第一，它是受控且清洁的，可以将智能分解为原子技能。第二，可以生成无限的高质量数据，确保技能能够早期、一致且可衡量地涌现。第三，它允许研究人员在小规模模型（如1亿参数级别）上利用微型缩放定律进行科学研究，精准量化不同架构在特定技能上的优劣。作者为合成实验场设定了四个设计标准： 1. 挑战架构的深度，测试模型的心算能力（系统1推理），即不依赖思维链就能直接得出答案的能力。 2. 排除思维链推理，因为这种推理与架构关联较小。 3. 专注于短上下文（如4000个token以内）中的深度推理。 4. 确保与现实世界相关，避免研究那些可以通过外部工具（如计算器）轻松解决的任务。基于这些标准，视频详细介绍了实验场中的五项核心任务： 1. 任务Depo（推理深度）：测试模型在上下文中进行多跳信息检索的能力，例如在节点环中寻找第K个后继节点。 2. 任务Brevo（推理广度）：要求模型对有向无环图（DAG）进行拓扑排序，这模拟了解决复杂数学问题时所需的潜在依赖关系处理能力。 3. 知识容量：通过合成个人传记数据，精确测量模型每个参数能够记忆多少比特的信息。 4. 任务Mano（知识操纵）：要求模型基于记忆的知识（如模运算表）进行多步心算，这是一种结合了记忆与逻辑的操作。 5. 结构歧义（CFG）：利用特定的上下文无关文法生成看似随机但具有深层分层结构的序列，测试模型解析全局结构的能力。视频最后展示了初步的对比结果：线性注意力机制在各项任务中表现均较差；Gated DeltaNet（GDN）在推理广度和知识容量方面表现优于传统的Transformer（Llama）；而Transformer在处理结构性歧义任务时依然具有独特优势。作者提醒，目前的对比尚未完全公平，因为不同架构之间还存在关键组件的差异。在接下来的讲座中，他将引入所谓的标准层（Canon layers）概念，以实现更公平的架构对比并推导架构设计原则。 https://t.co/UwKk247XCN

Zeyuan Allen-Zhu, Sc.D.

@ZeyuanAllenZhu

6 months ago

Continuing Tutorial II for Physics of Language Models. We often trust large-scale results simply because they are large; but once noise is removed, the synthetic pretrain playground starts to push back — hard! The second video (Part 4.1b, 90 minutes) makes this pushback concrete. From it, I derive 20+ architectural principles, organized into 12 result blocks. Two highlights that consistently surprise even experienced readers: Result 2.1 (new): "Why Canon layers actually work." Not because of multi-token attention — that explanation only applies to the first layer. The real mechanism is how Canon reshapes hierarchical learning across depth. Result 11: "Why linear models reason 4× shallower than Transformers." This has nothing to do with memory size — it is a structural failure shared by nearly all linear architectures. In Result 12, I show which of these principles already emerge at academic-scale pretraining (1.3B / 100B) — with orders-of-magnitude lower cost and far cleaner signals than many real-life large-scale runs. The remaining principles do not disappear; they only emerge when scaling to 8B / 1T, which I will show in the third video (Part 4.2). ⏮️ Previous: Part 4.1a — methodology & playground design ▶️ This: Part 4.1b — architectural principles from the playground 🔜 Next: Part 4.2 — when the playground reshapes real-life pretraining

ZeyuanAllenZhu's tweet photo. Continuing Tutorial II for Physics of Language Models.

We often trust large-scale results simply because they are large; but once noise is removed, the synthetic pretrain playground starts to push back — hard!

The second video (Part 4.1b, 90 minutes) makes this pushback concrete.
From it, I derive 20+ architectural principles, organized into 12 result blocks.

Two highlights that consistently surprise even experienced readers:

Result 2.1 (new):
"Why Canon layers actually work."
Not because of multi-token attention — that explanation only applies to the first layer.
The real mechanism is how Canon reshapes hierarchical learning across depth.

Result 11:
"Why linear models reason 4× shallower than Transformers."
This has nothing to do with memory size —
it is a structural failure shared by nearly all linear architectures.

In Result 12, I show which of these principles already emerge at academic-scale pretraining (1.3B / 100B) —
with orders-of-magnitude lower cost and far cleaner signals than many real-life large-scale runs.

The remaining principles do not disappear; they only emerge when scaling to 8B / 1T, which I will show in the third video (Part 4.2).

⏮️ Previous: Part 4.1a — methodology & playground design
▶️ This: Part 4.1b — architectural principles from the playground
🔜 Next: Part 4.2 — when the playground reshapes real-life pretraining

13

706

98

671

188K

0

1

0

47

hustwj

@hustwj

6 months ago

Claude Code Built-in Tools Reference https://t.co/tmHyMQPiDk

1

2

0

1

52

Who to follow

OWN - Digital Asset Mortgages

@own_hq

Building DeFi for real world use - with lasting impact. Bringing mortgages onchain!

Computer science prof, entrepreneur & leader at Ai2. Excited by AI for science, human-AI interaction, and Web-scale NLP.

hustwj

@hustwj

6 months ago

季逸超关于Agent的一些技术论断： 1. Agent的本质定义：通用Agent应当是通用模型与计算机虚拟机的结合。智能无法内化所有环境，必须通过全功能的虚拟机沙盒作为触达现实世界的接口，模拟人类的视觉、键盘和鼠标操作。 2. 编程是通用能力的媒介：编程不应被视为垂直技能，而是解决通用任务的最佳媒介。Agent通过在云端虚拟机中编写和执行代码，可以高效处理非编程类的复杂任务。 3. 长上下文的重要性下降：超过200k的上下文窗口已不再是核心竞争力。单纯追求长度会带来延迟和成本负担，技术重点应转向让模型具备“压缩意识”，学会将信息外化到文件系统而非全部装入工作内存。 4. 修正模型对齐的Chatbot偏差：现有模型多为对话机器人设计，倾向于快速给出答案。真正的Agent需要具备耐心，能基于环境观察逐步尝试，这需要模型在训练时对齐Agent特有的任务轨迹。 5. 纯血派Agent观点：坚决反对人为预设规则流的Agentic Workflow。技术路径应由智能主导决策，充分发挥模型的全能性，而不是生搬硬套人类社会的设计师或经理等角色分工。 6. 横向扩展的技术优势：在处理广域研究等超大规模任务时，与其死磕单模型的长上下文，不如同时启动数百个独立沙盒进行并行处理，这种架构能有效规避单模型的逻辑疲劳和“上下文压力”带来的懒惰问题。 7. 评估指标是唯一护城河：AI公司的技术品位体现在其内部基准测试上。主观评估在Agent开发中至关重要，因为自动化指标无法捕捉用户对完成质量、美学和易用性的真实感知。 8. 推崇交错式思考：Agent在获得观察后应进行短暂且紧凑的推理，以决定下一步动作。相比之下，过长的内部思维链可能会削弱模型对复杂指令的遵循能力并增加幻觉风险。 9. 避免过早的垂直整合：创业公司不应从头训练基座模型，这会拖慢迭代。应当通过巨大的Token消耗量成为模型厂商的超级客户，利用影响力推动Google、Anthropic等厂商优化底层的Agent能力。 10. 参数量对泛化能力依然关键：实验证明难以将知识、记忆与泛化能力完全分离。虽然工具调用能动态弥补知识，但要实现顶级的逻辑和泛化表现，大参数量模型目前仍是不可替代的。 11. 能动性是未来核心：Agent的本意是能动性。技术演进的目标是让Agent能够根据上下文主动执行任务，实现从“被动响应提示词”到“主动完成目标”的跨越。 https://t.co/iDUXu5TTey

hustwj

@hustwj

6 months ago

张小珺和Manus 联合创始人兼首席科学家**季逸超（Peak Ji）**在 Meta 宣布全资收购 Manus 前的深入对话。非常insightful, 很值得仔细听听！ https://t.co/9ZJJtPRuvz ### 1. 个人创业历程：从软件出海到 NLP 专家季逸超的创业基因源于家庭，他将自己定位为**科技创业者**。 * **早期成功：** 高中时期开发的“猛犸浏览器”在 App Store 获得了超过三十万美金的收入，让他坚信创新能带来正反馈，并成为中国第一代软件出海者。 * **技术转向：** 2013 年受 Word2Vec 等技术启发，他意识到自然语言处理（NLP）的巨大潜力，创立了 Magi，致力于通过“开放式信息提取”自动构建知识图谱。 * **通用大模型的冲击：** 2019 年接触 GPT-3 后，他意识到通用模型将统一垂直 NLP 任务，于是果断卖掉公司，随后在独角兽企业负责大模型业务并在真格基金担任 EIR。 ### 2. Manus 的演进：从 AI 浏览器到通用 Agent Manus 的诞生经历了从“改良”到“颠覆”的思维转变。 * **放弃 AI 浏览器：** 团队最初尝试开发 AI 原生浏览器，但随后意识到由于分发渠道和用户习惯的制约，创业公司很难在浏览器赛道挑战巨头。 * **发现新范式：** 团队观察到非程序员正在使用 Cursor（编程工具）处理非编程任务，意识到**编程是解决通用任务的最佳媒介**。 * **定义通用 Agent：** 2024 年 9 月正式立项 Manus，将其定位为**模型 + 计算机（虚拟机）**的结合。它通过模拟人类操作电脑的接口（视觉、键盘、鼠标）来触达现实世界，而非受限于特定插件。 ### 3. 技术逻辑与产品哲学季逸超分享了 Manus 在技术路径上的独特选择： * **不做垂直整合：** 相比于自己从头训模型，Manus 选择成为顶级模型的“超级大客户”，利用巨大的 Token 消耗量换取对模型厂商（如 Google, Anthropic）的影响力，推动它们优化 Agent 相关的核心能力。 * **上下文工程：** 他认为无限增加上下文长度并不重要，更重要的是让模型具备**压缩意识**，学会将不重要的信息外化或压缩。 * **纯血派 Agent：** 坚持由智能主导决策，而非预设的人为人为规则流（Agentic Workflow）。他认为 Agent 应该发挥模型的全能性，而不是生搬硬套人类的分工角色。 * **环境的重要性：** Manus 为每个会话提供独立的云端沙盒，使其能执行长程、异步任务，从而真正解放用户的注意力。 ### 4. 商业成就与团队文化 * **营收驱动：** Manus 针对**高价值脑力劳动者（Prosumers）**，目前 ARR（年度经常性收入）已超过一亿美金。比起活跃用户数（DAU），团队更关注每个用户产生的经济价值。 * **全球化竞争：** 团队身处新加坡，直接参与“NBA 级别”的全球竞争，追求最高质量的交付，而非低价竞争。 * **合伙人机制：** 核心团队由六位连续创业者组成。季逸超强调合伙人需要“身心健全”且“尊重常识”，这决定了公司在高速增长中的稳定性。 ### 5. 核心洞察 * **能动性（Proactiveness）：** Agent 的本质是 Agency（主动性）。未来的发展重点是让 Agent 能根据上下文主动完成任务，减少用户输入 Prompt 的负担。 * **竞争观：** 相比于死于大厂竞争，他更担心产品变得平庸或过于复杂，从而稀释了原本简洁高效的价值。

0

183

0

139

hustwj

@hustwj

6 months ago

Simon Willison （co-creator of the Django）总结了2025年大语言模型（LLM）领域的关键趋势与重大突破，将这一年描述为技术从单纯的文本生成向具备复杂推理、自主代理和多模态编辑能力全面演进的一年。 https://t.co/RBjBLcjJe2 1. “推理”与智能代理的崛起推理模型的普及：OpenAI 通过 o1 开启了“推理”（即推理缩放或强化学习）革命，随后在 2025 年发布了 o3 和 o4-mini。几乎所有主流实验室都推出了推理模型，这些模型通过自动验证奖励学习解决问题的策略，能够分解复杂任务。 AI 代理（Agents）落地：推理能力的关键在于驱动工具。AI 代理被定义为“循环运行工具以实现目标的 LLM”，它们在编码和深度搜索领域表现卓越。GPT-5 和 Claude Opus 4.5 等模型现在能够独立完成原本需要人类数小时才能完成的长时任务。 2. 编程范式的变革编码代理与 Claude Code：2025 年最重要的事件是 Claude Code 的发布，它是一款能编写、执行、检查并迭代代码的命令行工具。此外，像 Jules（Google）和 Codex Cloud（OpenAI）这样的异步编码代理允许用户通过手机发送指令后“离线”等待 Pull Request 的结果。 Vibe Coding（氛围编程）：这个术语由 Andrej Karpathy 提出，描述了一种开发者完全依赖 LLM、不看代码差异、仅通过“感觉”和反复提示来构建软件的新方式。作者指出，虽然这种方式适合快速原型，但专业工程仍需确保代码的可证明性。手机编程的常态化：随着模型能力的提升，作者在 2025 年甚至尝试在 iPhone 上利用 Claude Code 完成了复杂的代码库移植任务。 3. 市场格局与竞争中国开源模型的崛起：2025 年是中国开源模型大放异彩的一年。DeepSeek、Qwen（通义千问）、GLM 和 Kimi 等模型在多项排名中名列前茅，甚至在效率和成本上超越了美国同行。 OpenAI 失去领先地位：虽然 OpenAI 仍拥有顶尖模型，但在图像生成（落后于 Google 的 Nano Banana）、代码（落后于 Claude Opus）和开源领域已受到全面挑战。 Google Gemini 的反击：凭借自研的 TPU 硬件优势，Google 能够更廉价地进行模型训练和推理，其 Gemini 系列模型在 long context 和多模态能力上表现强劲。高昂的订阅费用：2025 年出现了每月 200 美元的高级订阅计划（如 Claude Pro Max），主要面向那些通过大量消耗 Token 来获取高效生产力的专业用户。 4. 多模态与学术成就提示词驱动的图像编辑：OpenAI 和 Google 分别推出了强大的图像编辑功能，允许用户通过文字指令修改现有照片。Google 的 Nano Banana Pro 甚至能生成专业级的详细图表。学术金牌：推理模型在国际数学奥林匹克（IMO）和国际大学生程序设计竞赛（ICPC）中获得了金牌级别的表现，证明了它们在解决从未见过的复杂问题上的能力。 5. 安全、伦理与负面影响偏差正常化（Normalization of Deviance）：许多用户为了效率开启“YOLO 模式”（自动确认所有操作），这种对风险的习以为常可能导致重大的安全事故。致命三要素（The Lethal Trifecta）：作者提出了这个术语来描述一种严重的提示注入攻击，即攻击者通过恶意指令利用 AI 代理窃取用户的隐私数据。 Slop（AI 垃圾内容）：随着 AI 生成内容的大规模泛化，“Slop”被 Merriam-Webster 评为年度词汇，指代那些充斥在网络上的低质量 AI 内容。数据中心遭遇阻力：由于能源消耗和碳排放问题，公众对新建 AI 数据中心的反对情绪在 2025 年显著升高。 6. 趣味实验与新词鹈鹕骑自行车：作者使用“让 LLM 生成鹈鹕骑自行车的 SVG 图像”作为非官方的基准测试，发现模型在这一奇怪任务上的表现与它们的整体智能高度相关。新词汇：2025 年诞生了许多新术语，如上下文腐烂（Context Rot）、Slopsquatting（垃圾内容劫持）和异步编码代理等。总结来说，2025 年是 AI 从“会聊天的工具”进化为“会思考且能干活的同事”的一年，虽然极大地提升了效率，但也带来了前所未有的安全和资源挑战。为了理解“推理”给 AI 带来的变化，可以将其想象成一个学生：以前的 AI 像是靠死记硬背参加考试，虽然记得多但容易出错；而现在的推理模型更像是学会了草稿纸上的推演，它会先思考、打草稿、检查错误，最后再给出答案。

0

69

hustwj

@hustwj

6 months ago

Jared（PromptLayer 创始人）围绕 **Claude Code** 及其背后的 **编码代理（Coding Agents）架构**展开, 分享了现代oding Agents何能取得突破，并深入分析了它们的内部设计哲学与技术实现。 https://t.co/4WjZDEJM7y 以下是核心内容的总结： ### 1. 核心设计哲学：化繁为简编码代理从早期的“复制粘贴”阶段进化到如今的自主执行，最大的突破在于**架构的简化**。 * **模型驱动而非工程驱动**：过去开发者倾向于通过复杂的提示词工程、分类器和 RAG（检索增强生成）来弥补模型的不足。而 Claude Code 的成功在于“让路给模型”，采用简单的架构，利用模型本身强大的工具调用（Tool Calling）和推理能力。 * **“Python 之禅”**：遵循“简单胜于复杂”、“扁平胜于嵌套”的原则。目前的编码代理核心通常只是一个简单的 **while 循环**：调用工具、获取结果、返回循环，直到任务完成。 ### 2. Claude Code 的关键组件 * **主循环与工具箱**：代理通过不断循环来解决问题。核心工具包括读取（Read）、搜索（Grep/Glob）、编辑（Edit）和最关键的 **Bash**。Bash 被视为“万能适配器”，模型可以通过它执行命令、创建环境甚至编写并运行脚本。 * **差异化编辑（Diffing）**：相比重写整个文件，使用 Unified Diff（统一差异）格式不仅节省 Token，还能显著减少模型出错的概率。 * **上下文管理**：由于长上下文会使模型变笨，Claude Code 使用了名为 **H2A** 的异步缓冲处理机制，以及对历史记录进行压缩和摘要（丢弃中间部分，保留头部和尾部）的技术。 * **子代理（Sub-agents）**：通过创建具有独立上下文的“任务（Tasks）”，处理如搜索文档、运行测试或代码审查等特定工作，完成后仅将结果传回主代理，从而避免主上下文过载。 ### 3. 规划与耐用性：待办事项清单（To-do Lists）编码代理现在普遍引入了结构化的**待办事项清单**。 * 这不仅是为了让用户在 UI 上看到进度，更重要的是**强制模型进行规划**。 * 这种机制是基于提示词而非硬性代码强制执行的，体现了模型指令遵循能力的提升。它还允许代理在崩溃后恢复进度。 ### 4. 其他主流编码代理的对比 * **Codex**：开源、使用 Rust 编写，在沙箱安全和多线程处理上更有优势。 * **Sourcegraph AMP**：提出了“切换武器胜于重新装弹”的 **Handoff（移交）** 概念，通过开启新线程而非不断压缩上下文来提高效率。 * **Cursor**：侧重于 UI 体验和极高的响应速度，通过数据蒸馏和微调建立竞争壁垒。 ### 5. 未来趋势与开发者建议 * **无头 SDK（Headless SDK）**：编码代理将演变为自动化的基础设施。例如，通过 GitHub Action 自动读取提交记录并更新文档。 * **信任模型而非 DAG**：在构建通用代理时，应减少死板的有向无环图（DAG）流程，给模型更多自主探索的空间。 * **严格测试工具而非流程**：开发者应将确定性逻辑封装在工具中并进行严格测试，而将逻辑编排交给模型。

0

96

hustwj

@hustwj

6 months ago

张小珺和Manus 联合创始人兼首席科学家**季逸超（Peak Ji）**在 Meta 宣布全资收购 Manus 前的深入对话。非常insightful, 很值得仔细听听！ https://t.co/9ZJJtPRuvz ### 1. 个人创业历程：从软件出海到 NLP 专家季逸超的创业基因源于家庭，他将自己定位为**科技创业者**。 * **早期成功：** 高中时期开发的“猛犸浏览器”在 App Store 获得了超过三十万美金的收入，让他坚信创新能带来正反馈，并成为中国第一代软件出海者。 * **技术转向：** 2013 年受 Word2Vec 等技术启发，他意识到自然语言处理（NLP）的巨大潜力，创立了 Magi，致力于通过“开放式信息提取”自动构建知识图谱。 * **通用大模型的冲击：** 2019 年接触 GPT-3 后，他意识到通用模型将统一垂直 NLP 任务，于是果断卖掉公司，随后在独角兽企业负责大模型业务并在真格基金担任 EIR。 ### 2. Manus 的演进：从 AI 浏览器到通用 Agent Manus 的诞生经历了从“改良”到“颠覆”的思维转变。 * **放弃 AI 浏览器：** 团队最初尝试开发 AI 原生浏览器，但随后意识到由于分发渠道和用户习惯的制约，创业公司很难在浏览器赛道挑战巨头。 * **发现新范式：** 团队观察到非程序员正在使用 Cursor（编程工具）处理非编程任务，意识到**编程是解决通用任务的最佳媒介**。 * **定义通用 Agent：** 2024 年 9 月正式立项 Manus，将其定位为**模型 + 计算机（虚拟机）**的结合。它通过模拟人类操作电脑的接口（视觉、键盘、鼠标）来触达现实世界，而非受限于特定插件。 ### 3. 技术逻辑与产品哲学季逸超分享了 Manus 在技术路径上的独特选择： * **不做垂直整合：** 相比于自己从头训模型，Manus 选择成为顶级模型的“超级大客户”，利用巨大的 Token 消耗量换取对模型厂商（如 Google, Anthropic）的影响力，推动它们优化 Agent 相关的核心能力。 * **上下文工程：** 他认为无限增加上下文长度并不重要，更重要的是让模型具备**压缩意识**，学会将不重要的信息外化或压缩。 * **纯血派 Agent：** 坚持由智能主导决策，而非预设的人为人为规则流（Agentic Workflow）。他认为 Agent 应该发挥模型的全能性，而不是生搬硬套人类的分工角色。 * **环境的重要性：** Manus 为每个会话提供独立的云端沙盒，使其能执行长程、异步任务，从而真正解放用户的注意力。 ### 4. 商业成就与团队文化 * **营收驱动：** Manus 针对**高价值脑力劳动者（Prosumers）**，目前 ARR（年度经常性收入）已超过一亿美金。比起活跃用户数（DAU），团队更关注每个用户产生的经济价值。 * **全球化竞争：** 团队身处新加坡，直接参与“NBA 级别”的全球竞争，追求最高质量的交付，而非低价竞争。 * **合伙人机制：** 核心团队由六位连续创业者组成。季逸超强调合伙人需要“身心健全”且“尊重常识”，这决定了公司在高速增长中的稳定性。 ### 5. 核心洞察 * **能动性（Proactiveness）：** Agent 的本质是 Agency（主动性）。未来的发展重点是让 Agent 能根据上下文主动完成任务，减少用户输入 Prompt 的负担。 * **竞争观：** 相比于死于大厂竞争，他更担心产品变得平庸或过于复杂，从而稀释了原本简洁高效的价值。

0

183

hustwj

@hustwj

6 months ago

# 深度解构 Claude Code：探秘其背后的“独门秘籍” https://t.co/FzA5O5eQ7x ## 前言：为什么 Claude Code 体验更胜一筹？很多人好奇，为什么在底层模型相同的情况下，Claude Code 的使用体验却显著优于其他编程智能体（Coding Agents）？为了揭开这个秘密，Yifan对其 9MB 的 CLI.js 文件进行了逆向工程，并拦截了其与 Anthropic API 的交互请求。实验证明，Claude Code 的强大并非源于复杂的底层代码逻辑，而是源于极其精细的**提示词工程（Prompt Engineering）**。 --- ## 第一部分：逆向工程的两种路径 ### 1. 静态分析：源码解包 - **工具：** 使用 `WebCrack` 对混淆过的脚本进行解压和去混淆。 - **发现：** 解压后得到了一个长达 **443,000 行**的 JavaScript 文件。 - **结论：** 尽管文件庞大，但提示词和 API 调用是动态构建的，很难直接通过搜索字符串提取完整的 System Prompt。 ### 2. 动态分析：流量拦截（关键突破） - **工具：** `ProxyMan`。 - **原理：** 由于 Claude Code 允许手动设置环境变量 `ANTHROPIC_BASE_URL`，这说明它直接向 API 发送请求。通过代理拦截，我们可以捕获完整的消息历史、系统提示词（System Prompt）和工具定义。 --- ## 第二部分：Claude Code 的核心编排逻辑一个标准的 Claude Code 交互过程包含以下环节： 1. **系统提示词（System Prompt）：** 定义角色。 2. **工具定义（Tool Definitions）：** 告知模型可以使用哪些工具。 3. **循环迭代（The Loop）：** - 用户发起请求（如：查询天气）。 - LLM 决定调用工具（Tool Call）。 - 客户端在本地执行工具并获取结果。 - 将结果反馈给 LLM，循环往复，直到 LLM 认为任务完成并输出最终总结。 --- ## 第三部分：系统提示词中的“秘密配方” 通过对提取出的 System Prompt 进行分析，我发现了三个关键观察点： ### 核心观察 1：高频重复与重要性强调 Claude Code 在提示词中通过**多处重复**来强化核心工作流。 - **案例：** `ToDoWrite` 工具（用于显示任务清单）。它在任务管理、示例展示、任务执行和工具政策等多个章节被反复提及。 - **对比：** `Lint` 工具仅被提及一次，导致其执行成功率仅为 50% 左右；而反复强调的 `ToDoWrite` 则表现得极其可靠。 - **技巧：** 使用 `IMPORTANT`、`MUST`、`NEVER` 等强语气词，并在消息历史中不断插入“系统提醒块”（System Reminder Block），防止 Agent 遗忘。 ### 核心观察 2：自然语言定义工作流 Claude Code 的大部分行为（如任务拆解、搜索策略、提交规范）都是通过**自然语言**定义在 System Prompt 里的，而不是硬编码在 CLI 程序中。 - 这种方式赋予了系统极强的灵活性：修改行为只需修改提示词，无需重构代码。 ### 核心观察 3：语义化的格式化策略 - **全大写强调：** 关键禁令（如“不要添加注释”）使用全大写。 - **XML 标签：** 大量使用 `<example>`、`<task_management>` 等成对的 XML 标签来包裹内容。这种结构化处理能显著提高 LLM 理解复杂、跨行指令的语义准确度。 --- ## 第四部分：子智能体（Sub-agents）的运作机制 Claude Code 的一个进阶功能是触发“子智能体”。 ### 工作流程： 1. 主智能体调用一个名为 `task` 的工具。 2. Claude Code 为子智能体创建一个**全新的、独立的**消息历史。 3. 子智能体使用特定的 System Prompt 执行任务。 4. **关键细节：** 任务完成后，子智能体的详细对话历史会被**丢弃**，只有最终总结会作为“工具执行结果”返回给主智能体。 > **警告：** 主、子智能体之间的内存不互通。因此，返回给主智能体的总结必须包含所有必要信息，否则会导致重复劳动。 --- ## 第五部分：工具定义中的深度信息 Claude Code 的工具描述远比普通的 MCP（Model Context Protocol）工具详细。 - 它不仅定义了工具功能，还包含了：**可用 Agent 列表**、**大量触发示例**、**何时该用/不该用的指导**。 - **推荐做法：** 当你创建子智能体时，建议选择“由 Claude 生成描述”，因为它会自动根据你的对话历史生成符合上述最佳实践的详细描述。 --- ## 第六部分：其他实用发现 - **Slash 命令的本质：** 诸如 `/init` 或 `/compact`（当上下文满时运行）等命令，本质上也是运行预设的提示词模板。 - **外部配置感知：** 提示词中明确指令 Claude 检查 `.cursorrules` 和 GitHub Copilot 指令文件。 - **模型专属性：** 目前的提示词是针对 **Claude 3.5 Sonnet** 家族深度调优的。如果你切换到 OpenAI 或其他模型，由于每种模型对提示词的敏感度不同，工具调用的准确性可能会下降。 --- ## 总结：给开发者的启示通过这次逆向分析，我们得到的最大启示是：**优秀的 Agent 循环是由精细的工作流提示词定义的。** 即使到了 2025 年，提示词工程依然是构建顶级 AI 应用的核心竞争力。 **后续行动建议：** - 在构建自己的 Agent 时，使用 XML 标签结构化你的 Prompt。 - 对于核心工具，在 Prompt 的不同位置进行多次强化。 - 建立评估体系（Evals），针对不同模型家族优化特定的提示词。

0

69

hustwj retweeted

lvxinxin

@lvxinxin

over 2 years ago

好喜歡看你坦白的眼眸一片蔚藍清空多希望和你同一個星座唱著同樣的歌 2024第一次懷舊⋯

5

19

4

3

17K

hustwj

@hustwj

over 2 years ago

又又，陶俊和郝浩涵于2014年4月，上海松江街头

0

3

0

162

hustwj

@hustwj

over 2 years ago · New Taipei City

云门剧场

0

95

hustwj retweeted

Percy Liang

@percyliang

almost 3 years ago

Cyc is spiritually similar to modern foundation models. Rather than building separate (expert) systems for each domain which were brittle and lacked commonsense, Cyc ambitiously strived to invest in a single knowledge base that could be adapted for a wide range of tasks.

3

65

15

22

26K

hustwj retweeted

Greg Durrett

@gregd_nlp

almost 3 years ago

📣 Today we launched an overhauled NLP course to 600 students in the online MS programs at UT Austin. 98 YouTube videos 🎥 + readings 📖 open to all! https://t.co/y7sTe2Pb83 w/5 hours of new 🎥 on LLMs, RLHF, chain-of-thought, etc! Meme trailer 🎬 https://t.co/Okv5LPQEyE 🧵

3

319

63

160

44K

hustwj

@hustwj

almost 3 years ago

0

66

hustwj retweeted

Sharing Travel

@TripInChina

almost 3 years ago

At night in Shenzhen, there are drone shows almost every week.😍😍😍

10

634

161

33

75K

hustwj retweeted

Elon Musk

@elonmusk

almost 3 years ago

To address extreme levels of data scraping & system manipulation, we’ve applied the following temporary limits: - Verified accounts are limited to reading 6000 posts/day - Unverified accounts to 600 posts/day - New unverified accounts to 300/day

175K

411K

96K

24K

608M

hustwj retweeted

Jay Lee @busyjaylee

about 3 years ago

新女友是个设计师，观摩了她一小时加班，基本就是 Deepl 翻译输入中文命令，然后拷贝英文到 Midjourney，等生成，持续迭代，最后把得到的各种局部图 p 在一起。和我写函数名等 copilot 填充的工作流有异曲同工之妙。

31

1K

178

236

213K

hustwj

@hustwj

about 3 years ago

E M E L - Holm (A Dream) (Official Video) https://t.co/J4I2AKJEAR

0

43

hustwj

@hustwj

Who to follow

Last Seen Users on Sotwe

Trends for you

Most Popular Users