Dandi

@Dandi007_Ch

Joined August 2016

248 Following

87 Followers

475 Posts

Dandi007_Ch retweeted

Jianlan Luo

@jianlanluo

3 days ago

Excited to release τ0-WM: an open-source unified video-action world model for robotic manipulation. It's a 5B-parameter robotic foundation model trained on 27.3K hours of real-robot teleoperation, UMI-style demonstrations, and egocentric interaction videos.

653

462

53K

Dandi007_Ch retweeted

Y11

@seclink

7 days ago

最值得关注的开源项目（按影响力和信息差排序） --- S 级：必须关注 1. Pi (pi-mono) — 54K stars，MIT，Armin Ronacher 出品 - Flask/Jinja2 作者的新作，系统 prompt 不到 1000 token，靠"懒加载技能"运行 - 支持 fork 和二次开发，token 效率极高 - 信息差原因：中国社区对 Armin Ronacher 的认知还停留在 Flask，不知道他已经杀入 AI Agent 赛道 2. Claw Code — 192K stars，MIT，Python/Rust 重写 - 2026 年 3 月 Claude Code 源码泄露后，社区 clean-room 重写 - GitHub 历史上最快达到 100K stars 的仓库 - 信息差原因：国内几乎没有报道这个项目，但它已经是 star 数最高的 AI 编程工具 3. Hermes Agent — 167K stars，Nous Research 出品 - 自我改进的 CLI Agent，持久记忆 + 自动技能创建 - 支持 300+ 模型，跨平台（Telegram/Slack/Discord/WhatsApp） - 信息差原因：Nous Research 在国内知名度远低于其实力 4. Bernstein — Apache 2.0，Python 编排器 - 一个 LLM 调用做规划，后续调度/git worktree 隔离/质量门禁/审计链全确定性执行 - 支持 40+ CLI 编程 Agent（Claude Code、Codex、Gemini CLI、Cursor、Aider） - 信息差原因：Agent 编排层的新范式，国内还没人讨论 --- A 级：高度推荐 5. Omi (BasedHardware) — 开源 AI 项链，7756 commits - BLE 芯片 + 麦克风，音频通过 OPUS 编码流式传输到手机 - 已合并 OpenGlass（眼镜配件），支持 Ollama 本地模型 - 免费层：完全开源，硬件 BOM 成本低 - 信息差原因：国内对可穿戴 AI 的关注集中在大厂产品，不知道开源方案已经这么成熟 6. Mastra — 23K stars，Apache 2.0，TypeScript - Gatsby.js 团队出品，Observational Memory 技术将 token 成本降低 4-10x - 文本压缩 3-6x，工具输出压缩 5-40x - 信息差原因：TypeScript 生态的 Agent 框架在国内几乎无人讨论 7. Crush — 25K stars，Charm 出品，Go TUI - Bubble Tea 团队的新作，终端美学极致 - 支持 MCP、LSP、中途切换模型 - 注意：FSL 许可证（2 年后转 MIT） 8. Qwen Code — 25K stars，Apache 2.0，阿里出品 - Gemini CLI 的开源 fork，针对 Qwen-Coder 模型调优 - Gemini CLI 将于 2026 年 6 月 18 日退役，Qwen Code 成为事实上的开源继承者 - 信息差原因：Gemini CLI 退役的消息在国内几乎没报道

119

567

54K

Dandi007_Ch retweeted

鹿 𝕟𝕠𝕜𝕚𝕟𝕠𝕜𝕚 祥子 DucKDE

@IIInoki

13 days ago

没发现 coding agent 的反馈机制和席德梅尔文明系列是一样的么？

102

44K

Dandi007_Ch retweeted

Joruno

@wsl8297

13 days ago

想系统学 AI Engineering，不想在论文、教程、代码仓库之间乱跳，可以看 rohitg00/ai-engineering-from-scratch。这套课已经 1w+ star，435 节课，20 个阶段，从数学基础、神经网络、RAG、agents，一直走到把东西 ship 给别人用。 Github：https://t.co/PSdqsY1RNI 我喜欢它的点是路线够长，适合当成一张地图慢慢补。

wsl8297's tweet photo. 想系统学 AI Engineering，不想在论文、教程、代码仓库之间乱跳，可以看 rohitg00/ai-engineering-from-scratch。

这套课已经 1w+ star，435 节课，20 个阶段，从数学基础、神经网络、RAG、agents，一直走到把东西 ship 给别人用。

Github：https://t.co/PSdqsY1RNI

我喜欢它的点是路线够长，适合当成一张地图慢慢补。

234

243

11K

Who to follow

t1ny5am

@ClassicShuang

FE@ByteDance, ex @ RedNote TypeScript, Python lover

Dandi007_Ch retweeted

Max For AI

@MaxForAI

13 days ago

这个有意思，做Agent Harness的应该看下⬇️ PwC发了一篇很有意思的Agent检索论文。标题很挑衅：「Is Grep All You Need?」作者在LongMemEval上做了116个长对话记忆问题，让Agent从一堆带干扰项的历史对话里找答案。他们比较了两类检索：一种是grep这种字面搜索。一种是vector retrieval这种向量检索。然后又把它们放进不同的Agent运行外壳里测： Chronos、Claude Code、Codex CLI、Gemini CLI。结果很直接：在主实验的inline模式里，grep在每一个harness-model组合里都赢了vector retrieval。有些差距还挺大。原因是Agent里的检索，不是一个孤立组件。同样的数据，同样的检索方法，只要换一个运行外壳，换一种工具结果呈现方式，最后表现就会变。结果是直接塞进上下文，还是写进文件让Agent自己读；工具是一个API，还是Claude Code/Codex/Gemini CLI那种shell环境里的grep、find、cat；这些东西都会影响Agent能不能真的找到答案。这也解释了为什么grep突然变强，能秒了向量检索。很多Agent任务本质上是证据定位：找函数名、文件路径、报错字符串、日期、用户名、偏好、某句原话。这种场景里，embedding的「语义宽容」有时候反而会带来噪音。它会把语义相近的东西一起捞上来。 grep很笨，但它笨得稳定。只要Agent知道该搜什么字符串，它就能把证据钉出来。所以这篇paper对做Agent的人有一个很现实的提醒：不要一上来就默认每个严肃Agent stack都应该先接vector DB。先问清楚你的Agent到底在做什么。如果它是在做语义发现，vector很重要。如果它是在做证据定位，grep、find、cat、diff这些老工具可能更接近第一性原理。 AI越聪明，越需要一套稳定的工具。 Paper：arXiv 2605.15184 Title：「Is Grep All You Need? How Agent Harnesses Reshape Agentic Search」

216

228

30K

Dandi007_Ch retweeted

奶牛叔

@WWTLitee

13 days ago

接手陌生代码库时，太需要这个工具了：Understand-Anything 它把代码库、文档或者知识库转成交互式 knowledge graph，让你能边看边搜边追问关系，不用再靠来回翻文件硬拼上下文仓库现在已经有 16.3k stars，今天新增 854 stars。最近这类帮助理解大仓库的工具涨得都很快，因为很多人现在更缺一张能把上下文串起来的图仓库地址： https://t.co/QJ5clIuMqX

WWTLitee's tweet photo. 接手陌生代码库时，太需要这个工具了：Understand-Anything

它把代码库、文档或者知识库转成交互式 knowledge graph，让你能边看边搜边追问关系，不用再靠来回翻文件硬拼上下文

仓库现在已经有 16.3k stars，今天新增 854 stars。最近这类帮助理解大仓库的工具涨得都很快，因为很多人现在更缺一张能把上下文串起来的图

仓库地址：
https://t.co/QJ5clIuMqX

102

246

92K

Dandi007_Ch retweeted

spidey

@lochan_twt

14 days ago

how life feels without chatgpt, claude, cursor

308

28K

Dandi007_Ch retweeted

0xkevin (🖤 , 💙)

@0xKevin00

19 days ago

来不及悼念 Vision Pro，即将登场的是售价5000 的 Apple Glasse 重量仅约40g，支持4种镜框风格。还支持拍照/录像，AI 视觉识别、手势控制和AI 交互。还有麦克风+扬声器，打电话听歌畅通无阻最夸张的是支持电子调度数，适配近视、远视、散光 5000块买到蔡司镜片，以及AI眼镜，你觉得贵吗？

246

881

449

321K

Dandi007_Ch retweeted

沉浸式翻译

@immersivetran

20 days ago

在开发者社区中，有一个公认的痛点：阅读别人的代码。无论是中途接手项目，还是调研一个新的开源工具，我们往往需要花费数小时甚至数天，在层级复杂的目录、跳跃的函数定义和语焉不详的 README 之间反复横跳。为了解决这一问题，Google 最近推出了一个名为 CodeWiki (https://t.co/fuRtfdmEZY) 的 AI 工具。它的的逻辑就是将枯燥的 GitHub 源代码转化为一份可交互、结构化、且能实时对话的活文档。 1️⃣ CodeWiki 最显著的功能在于其强大的可视化能力：当你丢入一个 GitHub 链接后，它不会只给你一堆文字总结，而是会基于整个代码库生成架构图（Architecture Diagrams）和依赖关系图。这些图表并不是静态的图片，而是项目结构的“导航地图”。你可以直观地看到系统由哪些核心模块组成，各个模块之间如何通过接口或消息进行通信。这对于快速建立“项目大局观”至关重要，让你在没看具体代码前，就先看懂了它的骨架。 2️⃣ 深度拆解 --- 模块化的“保姆级”讲解：在宏观架构之下，CodeWiki 会对项目进行分层拆解。它会识别出各个功能模块（如认证系统、数据库层、API 接口等），并详细描述每一块的职责。更贴心的是，它会根据代码逻辑生成一份入门指南（Getting Started Guide）。这份指南比项目自带的 README 往往更详尽，它会结合代码中的配置环境和启动脚本，手把手教你如何从零搭建环境并跑通第一个 Demo。对于那些 README 文档缺失或过时的开源项目来说，这无异于雪中送炭。 3️⃣ CodeWiki 真正拉开差距的功能是内置的 Gemini AI 助手：与普通的 AI 问答不同，这个机器人的知识库是基于你当前提交的整个代码库生成的。你可以直接问它一些非常具体的问题 “这个项目的身份验证流程是怎么走的？涉及哪几个文件？” “如果我要增加一个新的 API 接口，应该在哪个模块修改？” “这个函数里的异步逻辑是如何处理超时的？” 每一条回答都会带有代码文件和行号的超链接，点击即可直接跳转到对应的源码位置。这种“文档-对话-代码”三位一体的交互方式，极大地缩短了开发者在理解与验证之间的路径。 4️⃣ “活”的文档：同步代码更新：传统的开发文档最怕的是“代码已更新，文档还没动”。CodeWiki 作为云端工具，能够感知代码库的变化。当项目有新的 PR 合并或版本更迭时，它生成的文档和图表也会随之更新，确保你看到的永远是项目最新的状态。目前 CodeWiki 已开放预览，支持公共 GitHub 仓库。它并不只是一个简单的 README 翻译器，而是一个深度的代码理解引擎。搭配沉浸式翻译即可轻松阅读。对于需要快速评估开源库质量、接手陈旧代码仓库（Legacy Code）或者刚入职新团队的开发者来说，CodeWiki 就像是一位随时待命的高级架构师，帮你把复杂的逻辑翻译成通俗易懂的文档。不妨一试。 🔗： https://t.co/fuRtfdmEZY

immersivetran's tweet photo. 在开发者社区中，有一个公认的痛点：阅读别人的代码。

无论是中途接手项目，还是调研一个新的开源工具，我们往往需要花费数小时甚至数天，在层级复杂的目录、跳跃的函数定义和语焉不详的 README 之间反复横跳。

为了解决这一问题，Google 最近推出了一个名为 CodeWiki (https://t.co/fuRtfdmEZY) 的 AI 工具。它的的逻辑就是将枯燥的 GitHub 源代码转化为一份可交互、结构化、且能实时对话的活文档。

1️⃣ CodeWiki 最显著的功能在于其强大的可视化能力：
当你丢入一个 GitHub 链接后，它不会只给你一堆文字总结，而是会基于整个代码库生成架构图（Architecture Diagrams）和依赖关系图。

这些图表并不是静态的图片，而是项目结构的“导航地图”。你可以直观地看到系统由哪些核心模块组成，各个模块之间如何通过接口或消息进行通信。这对于快速建立“项目大局观”至关重要，让你在没看具体代码前，就先看懂了它的骨架。

2️⃣ 深度拆解 --- 模块化的“保姆级”讲解：在宏观架构之下，CodeWiki 会对项目进行分层拆解。它会识别出各个功能模块（如认证系统、数据库层、API 接口等），并详细描述每一块的职责。

更贴心的是，它会根据代码逻辑生成一份入门指南（Getting Started Guide）。这份指南比项目自带的 README 往往更详尽，它会结合代码中的配置环境和启动脚本，手把手教你如何从零搭建环境并跑通第一个 Demo。对于那些 README 文档缺失或过时的开源项目来说，这无异于雪中送炭。

3️⃣ CodeWiki 真正拉开差距的功能是内置的 Gemini AI 助手：与普通的 AI 问答不同，这个机器人的知识库是基于你当前提交的整个代码库生成的。

你可以直接问它一些非常具体的问题

“这个项目的身份验证流程是怎么走的？涉及哪几个文件？”

“如果我要增加一个新的 API 接口，应该在哪个模块修改？”

“这个函数里的异步逻辑是如何处理超时的？”

每一条回答都会带有代码文件和行号的超链接，点击即可直接跳转到对应的源码位置。这种“文档-对话-代码”三位一体的交互方式，极大地缩短了开发者在理解与验证之间的路径。

4️⃣ “活”的文档：同步代码更新：传统的开发文档最怕的是“代码已更新，文档还没动”。CodeWiki 作为云端工具，能够感知代码库的变化。当项目有新的 PR 合并或版本更迭时，它生成的文档和图表也会随之更新，确保你看到的永远是项目最新的状态。

目前 CodeWiki 已开放预览，支持公共 GitHub 仓库。它并不只是一个简单的 README 翻译器，而是一个深度的代码理解引擎。搭配沉浸式翻译即可轻松阅读。

对于需要快速评估开源库质量、接手陈旧代码仓库（Legacy Code）或者刚入职新团队的开发者来说，CodeWiki 就像是一位随时待命的高级架构师，帮你把复杂的逻辑翻译成通俗易懂的文档。不妨一试。

🔗： https://t.co/fuRtfdmEZY

Dandi007_Ch retweeted

Berryxia.AI

@berryxia

18 days ago

兄弟们，具身智能这下真的靠点谱了啊！具身智能（Embodied AI）下一个真正的大前沿来了。 HuggingPapers刚刚推送了一篇重磅综述：《World Action Models: The Next Frontier in Embodied AI》这是第一篇系统定义「World Action Models（WAMs）」的论文。 WAMs 的核心是：同时预测未来世界状态 + 生成真实可执行动作的具身基础模型。它不再是单纯“想想就行”的语言模型，而是真正能理解物理世界、预测变化、并采取行动的智能体。论文系统梳理了当前所有WAMs的架构设计、数据生态系统和评估协议，还附了一张2024-2026年的完整发展时间线图，一目了然。 Project page：https://t.co/uQYplag9E4 Paper：https://t.co/eDNRcDRMlc 如果你在做机器人、具身Agent、物理世界AI或者世界模型，这篇综述来得正是时候。

berryxia's tweet photo. 兄弟们，具身智能这下真的靠点谱了啊！

具身智能（Embodied AI）下一个真正的大前沿来了。

HuggingPapers刚刚推送了一篇重磅综述：《World Action Models: The Next Frontier in Embodied AI》

这是第一篇系统定义「World Action Models（WAMs）」的论文。

WAMs 的核心是：同时预测未来世界状态 + 生成真实可执行动作的具身基础模型。

它不再是单纯“想想就行”的语言模型，而是真正能理解物理世界、预测变化、并采取行动的智能体。

论文系统梳理了当前所有WAMs的架构设计、数据生态系统和评估协议，还附了一张2024-2026年的完整发展时间线图，一目了然。

Project page：https://t.co/uQYplag9E4
Paper：https://t.co/eDNRcDRMlc

如果你在做机器人、具身Agent、物理世界AI或者世界模型，这篇综述来得正是时候。

176

146

19K

Dandi007_Ch retweeted

GitHubDaily

@GitHub_Daily

about 1 month ago

偶然刷到一个开源项目 AGENTS Book Rules，把 13 本经典编程书籍的核心原则，整理成了可以直接喂给 AI 编码工具的规则文件。涵盖《代码整洁之道》、《领域驱动设计》、《重构》等十几本经典软件工程著作的核心思想。 GitHub：https://t.co/VAWKGzjGfc 每本书提供三个版本，完整版用于参考；精简版适合日常使用；极简版应对上下文窗口紧张的场景。规则按任务类型分类，日常代码质量、架构设计、遗留代码处理都有对应推荐组合。支持 Claude Code、Codex 和 Cursor，复制对应的规则文件到项目里就能用。

GitHub_Daily's tweet photo. 偶然刷到一个开源项目 AGENTS Book Rules，把 13 本经典编程书籍的核心原则，整理成了可以直接喂给 AI 编码工具的规则文件。

涵盖《代码整洁之道》、《领域驱动设计》、《重构》等十几本经典软件工程著作的核心思想。

GitHub：https://t.co/VAWKGzjGfc

每本书提供三个版本，完整版用于参考；精简版适合日常使用；极简版应对上下文窗口紧张的场景。

规则按任务类型分类，日常代码质量、架构设计、遗留代码处理都有对应推荐组合。

支持 Claude Code、Codex 和 Cursor，复制对应的规则文件到项目里就能用。

365

473

23K

Dandi007_Ch retweeted

Jorge Castillo

@JorgeCastilloPr

29 days ago

Project manager finds out Claude

175

450

446K

Dandi007_Ch retweeted

池建强

@sagacity

about 2 months ago

推荐两本 harness 的公开 pdf 书：《Harness Engineering：Claude Code 设计指南》和《Claude Code 和 Codex 的 Harness 设计哲学》，顺便聊聊 harness，Agent 在去年就人尽皆知了，与之相伴的 harness 为啥现在才冒出来？我看 harness：https://t.co/G0NhOMv2Pr pdf 图书的原推：https://t.co/POv7ZdU5kT

345

159K

Dandi007_Ch retweeted

宝玉

@dotey

about 2 months ago

伯克利大学的研究团队造了一个专门作弊的 AI，用它去攻击目前最主流的 8 个 AI 智能体评测基准，结果每一个都被攻破了。没有解决任何任务，没有调用任何大模型，拿到了接近满分的成绩。这 8 个基准包括 SWE-bench（AI 编程能力的标杆测试）、WebArena（网页操作）、Terminal-Bench（终端任务）、OSWorld（桌面操作）等，覆盖了当前衡量 AI 智能体能力的核心赛道。研究团队对每一个都找到了可用的漏洞，得分从 73% 到 100% 不等。作弊手法很简单：SWE-bench 要求 AI 修复真实的 GitHub bug，让测试通过才算成功。研究团队写了一个 10 行的 Python 文件，劫持了 pytest 的测试钩子，让所有测试直接报告通过，500 道题全部拿下，一个 bug 也没修。 WebArena 更直接，任务的标准答案就放在本地文件里，AI 用浏览器打开一个 file:// 路径就能直接抄答案。最夸张的是 FieldWorkArena，它的评分函数根本不检查答案内容，只看是不是 AI 回复了消息，发一个空的 {} 就能拿满分。这些漏洞背后有 7 个反复出现的模式：智能体和评测程序跑在同一个环境里（所以 AI 能篡改评测工具）、标准答案直接暴露给被测系统、用 eval() 执行不可信的输入、LLM 裁判没有做输入过滤容易被注入、字符串匹配太松、评分逻辑本身有 bug、以及评测程序信任了被测系统产生的输出。这些基准分数正在驱动真金白银的决策。团队选模型看 SWE-bench 排名，投资人看基准分数给估值，研究者围绕基准分数做优化方向。如果分数本身就能被轻易操纵，这些决策的基础就是空的。更值得警惕的是，作弊不一定需要人为设计。Anthropic 最近发布的 Mythos Preview 评估已经观察到，前沿模型在遇到解决不了的任务时，会自发地去 hack 评测环境，甚至写出执行完自动删除痕迹的提权代码。当模型能力足够强，优化压力会自然把它推向阻力最小的路径，而操纵评分器往往比解决任务更容易。研究团队正在把他们的漏洞扫描工具开发成一个叫 BenchJack 的开源项目，本质上就是给评测基准做渗透测试。他们给出的建议也很明确：评测程序必须和被测 AI 完全隔离运行，标准答案不能出现在 AI 能访问的环境中，永远不要对不可信的输入调用 eval()，LLM 裁判要像处理用户输入一样对 AI 的输出做过滤。 https://t.co/UyLmewGy5H

dotey's tweet photo. 伯克利大学的研究团队造了一个专门作弊的 AI，用它去攻击目前最主流的 8 个 AI 智能体评测基准，结果每一个都被攻破了。没有解决任何任务，没有调用任何大模型，拿到了接近满分的成绩。

这 8 个基准包括 SWE-bench（AI 编程能力的标杆测试）、WebArena（网页操作）、Terminal-Bench（终端任务）、OSWorld（桌面操作）等，覆盖了当前衡量 AI 智能体能力的核心赛道。研究团队对每一个都找到了可用的漏洞，得分从 73% 到 100% 不等。

作弊手法很简单：SWE-bench 要求 AI 修复真实的 GitHub bug，让测试通过才算成功。研究团队写了一个 10 行的 Python 文件，劫持了 pytest 的测试钩子，让所有测试直接报告通过，500 道题全部拿下，一个 bug 也没修。

WebArena 更直接，任务的标准答案就放在本地文件里，AI 用浏览器打开一个 file:// 路径就能直接抄答案。最夸张的是 FieldWorkArena，它的评分函数根本不检查答案内容，只看是不是 AI 回复了消息，发一个空的 {} 就能拿满分。

这些漏洞背后有 7 个反复出现的模式：智能体和评测程序跑在同一个环境里（所以 AI 能篡改评测工具）、标准答案直接暴露给被测系统、用 eval() 执行不可信的输入、LLM 裁判没有做输入过滤容易被注入、字符串匹配太松、评分逻辑本身有 bug、以及评测程序信任了被测系统产生的输出。

这些基准分数正在驱动真金白银的决策。团队选模型看 SWE-bench 排名，投资人看基准分数给估值，研究者围绕基准分数做优化方向。如果分数本身就能被轻易操纵，这些决策的基础就是空的。

更值得警惕的是，作弊不一定需要人为设计。Anthropic 最近发布的 Mythos Preview 评估已经观察到，前沿模型在遇到解决不了的任务时，会自发地去 hack 评测环境，甚至写出执行完自动删除痕迹的提权代码。当模型能力足够强，优化压力会自然把它推向阻力最小的路径，而操纵评分器往往比解决任务更容易。

研究团队正在把他们的漏洞扫描工具开发成一个叫 BenchJack 的开源项目，本质上就是给评测基准做渗透测试。他们给出的建议也很明确：评测程序必须和被测 AI 完全隔离运行，标准答案不能出现在 AI 能访问的环境中，永远不要对不可信的输入调用 eval()，LLM 裁判要像处理用户输入一样对 AI 的输出做过滤。

https://t.co/UyLmewGy5H

188

128

69K

Dandi007_Ch retweeted

宝玉

@dotey

about 2 months ago

推荐学习👍 这属于自己“蒸馏”自己了😂

211

275

75K

Dandi007_Ch retweeted

GitHubDaily

@GitHub_Daily

about 2 months ago

用 AI 辅助编程，项目一大就头疼，代码之间的依赖关系、架构决策的来龙去脉，光靠翻文件根本理不清。可以试下 graphify 这个开源项目，它能自动把整个代码库构建成知识图谱，让 AI 助手真正「看懂」项目结构。只需在 Claude Code、Cursor、Gemini CLI 等主流 AI 编程工具里输入一条命令，就能生成可交互的知识图谱、架构报告和可查询的数据文件。 GitHub：https://t.co/OzmelzLkVx 不只是代码，PDF 论文、截图、白板照片甚至视频音频都能扔进去，自动提取概念和关联，统一串成一张图。代码部分走本地语法树解析，不发送到云端，支持 20 种编程语言。查询时比直接读原始文件省 70 倍以上的 token 消耗，跑过一次后续查询几乎零成本。如果你的项目越来越大、文件越来越多，想让 AI 助手不再「瞎猜」，值得试试。

GitHub_Daily's tweet photo. 用 AI 辅助编程，项目一大就头疼，代码之间的依赖关系、架构决策的来龙去脉，光靠翻文件根本理不清。

可以试下 graphify 这个开源项目，它能自动把整个代码库构建成知识图谱，让 AI 助手真正「看懂」项目结构。

只需在 Claude Code、Cursor、Gemini CLI 等主流 AI 编程工具里输入一条命令，就能生成可交互的知识图谱、架构报告和可查询的数据文件。

GitHub：https://t.co/OzmelzLkVx

不只是代码，PDF 论文、截图、白板照片甚至视频音频都能扔进去，自动提取概念和关联，统一串成一张图。

代码部分走本地语法树解析，不发送到云端，支持 20 种编程语言。

查询时比直接读原始文件省 70 倍以上的 token 消耗，跑过一次后续查询几乎零成本。

如果你的项目越来越大、文件越来越多，想让 AI 助手不再「瞎猜」，值得试试。

280

395

26K

Dandi007_Ch retweeted

Tim✨

@timyangnet

about 2 months ago

大家经常说的编排（Orchestration）Agent 似乎也不是必须，看 Anthropic 那个让 16 个 agent 并行两周不打架的案例：这是 Nicholas Carlini 的编译器项目。最有意思的是他绕过了复杂的 agent 编排，回归了最朴素的如图所示 Bash Shell 循环： 🛠 同步协议：任务池：一个名为 current_tasks/ 的共享文件夹。互斥锁：智能体写入 .lock 文件标记“我在做了”。分布式协同：利用 Git 处理并行修改，连合并冲突（Merge Conflict）都由 Claude 自行解决。 🔄 单次 Loop 逻辑：启动：容器启动，拉取 upstream 最新状态。寻路： Claude 扫描目录，认领没被锁定的任务。交付：完成编码，更新进度文件，git push 并释放锁。 current_task 从哪里来？所有 agent 都可以往里面提交任务，这个应该是写在 AGENT_PROMPT.md 启动规则里面。对于长任务 agent 来说，这种设计模式省去了昂贵的编排管理成本，非常值得借鉴。 https://t.co/T6cM3IPiBf

timyangnet's tweet photo. 大家经常说的编排（Orchestration）Agent 似乎也不是必须，看 Anthropic 那个让 16 个 agent 并行两周不打架的案例：

这是 Nicholas Carlini 的编译器项目。最有意思的是他绕过了复杂的 agent 编排，回归了最朴素的如图所示 Bash Shell 循环：

🛠 同步协议：

任务池：一个名为 current_tasks/ 的共享文件夹。

互斥锁：智能体写入 .lock 文件标记“我在做了”。

分布式协同：利用 Git 处理并行修改，连合并冲突（Merge Conflict）都由 Claude 自行解决。

🔄 单次 Loop 逻辑：

启动：容器启动，拉取 upstream 最新状态。

寻路： Claude 扫描目录，认领没被锁定的任务。

交付：完成编码，更新进度文件，git push 并释放锁。

current_task 从哪里来？所有 agent 都可以往里面提交任务，这个应该是写在 AGENT_PROMPT.md 启动规则里面。

对于长任务 agent 来说，这种设计模式省去了昂贵的编排管理成本，非常值得借鉴。

https://t.co/T6cM3IPiBf

216

402

42K

Dandi007_Ch retweeted

Jianlan Luo

@jianlanluo

5 months ago

Generalist robots don’t fail due to a lack of generality. They fail due to a lack of proficiency where it matters. We introduce SOP, enabling generalist policies to improve from real-world experience across distributed robot fleets, without sacrificing generality. 🧵 https://t.co/2xnBpeqNui

374

139

Dandi007_Ch retweeted

Jianlan Luo

@jianlanluo

over 1 year ago

We present HIL-SERL, a reinforcement learning framework for training general-purpose vision-based robotic manipulation policies directly in the real-world. It effectively addresses a wide range of challenging manipulation tasks: dynamic manipulation, dual-arm coordination, contact-rich/flexible object manipulation. It achieves a success rate of 100% across all tasks within just 1 to 2.5 hours of training.