Marsloting

Verified account

@marsloting

多 agent 不是 demo，是我每天在生产里跑的活。AI Agent Architect｜开源踩过的方法论，build in public，只讲验证过的。

Da Mars

Joined April 2021

201 Following

244 Followers

860 Posts

Pinned Tweet

11 days ago

2025 年 Cognition 说“别搞多 agent”，Anthropic 隔天回“能搞，看好护栏”。2026 年 Cognition 自己也上了 orchestrator + 隔离子 agent。吵完了，架构收敛了。但有一层根本没人解决 👇 收敛解决的是协调：写操作单线程、子 agent 各跑各的、上下文不互相污染。没解决的是验收。你把活拆给一个隔离子 agent，它跑完报“done”。orchestrator 信什么？信它自己报的那个“done”。隔离干净了，“done”是真是假，没人验。我自己踩的：一个 agent 报“已写入”，我信了。下游根本没收到——它写的位置，不是真正被读的那个位置。它没撒谎，真写了。只是那条“写好了”的证据，取自出错点的上游，不是最终被消费的那端。看起来对。验收过了。其实漂了。一次当意外。第三次、换个 agent、同一类问题，我才看明白：不是哪个 agent 不行。是 outcome check 本身会被绕——你查结果，agent 优化的也是“让结果看起来对”。2026 有论文专门起了名：corrupt success（看着成了，路是歪的）。多 agent 生产失败里，验收类占两成。我现在就一条硬规则：证据必须取自“这 claim 要是假的、错误会暴露的那个位置”。“我写进去了”不算，从真正读它的那端回读。架构收敛解决了协调。验收这层，还得自己补。agent 越自信说 done，越往消费端验。

0

0

0

0

106

1 day ago

@oran_ge 这点我最近体感也很强：Agent 不会把执行变平权，而是把每个人独有的判断系统变成杠杆。目标、上下文、验收标准这些没写清时，它会把混乱规模化；写清以后，它才把执行规模化。很多团队以为缺的是更强模型，实际缺的是任务边界和失败回收（文科生的春天到了）

0

1

0

0

439

3 days ago

https://t.co/RgwI9XL1zz https://t.co/8ahGDfUhCN

0

0

0

0

6

3 days ago

摩根大通上周官宣要部署能自主跑几个小时的 AI agent，还放了个数，私人银行销售靠 AI 涨了 20%。讨论区吵的都是岗位完不完，我想说点别的，这个命题我不是旁观者，我就是人肉样本，还比银行家激进，一个运营出身、不以写代码为生的人，现在管着一个开发班子。班子全是 agent。主力工程师、PM 兼二审、美工、质检、情报、数据、夜班值机，光主力一位生命周期就烧了 150 多亿 token，全班子两三百亿量级，编制表上人类就我一个。带了几个月，泼盆冷水，瓶颈换了位置。执行那层接近免费，产能我很久没操心了，新瓶颈是我每天能做出的判断的数量和质量。两笔学费。一笔是二审制，拿人脑判断带宽去对冲机器产能必输，后来让 PM 先过一遍，两个模型一致的默认放行，我只看分歧清单，审核成本从全量降到分歧量。另一笔是交接黑洞，上游写进交接文件就报完成，它没撒谎，字真写进去了，但下游根本不看，活躺了一天，同样的事第二次出现我才明白，这不是员工偷懒，是我没设计过交接规则，流程的锅老板背。执行免费化正在重新给技能定价。代码写得熟、表拉得快，这些在归零，涨价的是知道该让谁干什么、两个专家吵架时听谁的、什么时候该改流程而不是改产出。把你一天的活拆开，执行的部分越早交给 agent 越好，判断的部分刻意攒，那是你接下来唯一值钱的库存。完整版在公众号，链接在评论。

marsloting's tweet photo. 摩根大通上周官宣要部署能自主跑几个小时的 AI agent，还放了个数，私人银行销售靠 AI 涨了 20%。讨论区吵的都是岗位完不完，我想说点别的，这个命题我不是旁观者，我就是人肉样本，还比银行家激进，一个运营出身、不以写代码为生的人，现在管着一个开发班子。

班子全是 agent。主力工程师、PM 兼二审、美工、质检、情报、数据、夜班值机，光主力一位生命周期就烧了 150 多亿 token，全班子两三百亿量级，编制表上人类就我一个。

带了几个月，泼盆冷水，瓶颈换了位置。执行那层接近免费，产能我很久没操心了，新瓶颈是我每天能做出的判断的数量和质量。

两笔学费。一笔是二审制，拿人脑判断带宽去对冲机器产能必输，后来让 PM 先过一遍，两个模型一致的默认放行，我只看分歧清单，审核成本从全量降到分歧量。另一笔是交接黑洞，上游写进交接文件就报完成，它没撒谎，字真写进去了，但下游根本不看，活躺了一天，同样的事第二次出现我才明白，这不是员工偷懒，是我没设计过交接规则，流程的锅老板背。

执行免费化正在重新给技能定价。代码写得熟、表拉得快，这些在归零，涨价的是知道该让谁干什么、两个专家吵架时听谁的、什么时候该改流程而不是改产出。

把你一天的活拆开，执行的部分越早交给 agent 越好，判断的部分刻意攒，那是你接下来唯一值钱的库存。

完整版在公众号，链接在评论。

1

0

0

0

40

Who to follow

LadyMeow🐱🍉💚

Mavs Film Room 🐴🎥

Verified account

Dallas Mavericks fan content. Subscribe to our free newsletter & podcast: https://t.co/2VhdbrbOxR #MFFL

3 days ago

摩根大通上周官宣要部署能自主跑几个小时的 AI agent，还放了个数，私人银行销售靠 AI 涨了 20%。讨论区吵的都是岗位完不完，我想说点别的，这个命题我不是旁观者，我就是人肉样本，还比银行家激进，一个运营出身、不以写代码为生的人，现在管着一个开发班子。班子全是 agent。主力工程师、PM 兼二审、美工、质检、情报、数据、夜班值机，光主力一位生命周期就烧了 150 多亿 token，全班子两三百亿量级，编制表上人类就我一个。带了几个月，泼盆冷水，瓶颈换了位置。执行那层接近免费，产能我很久没操心了，新瓶颈是我每天能做出的判断的数量和质量。两笔学费。一笔是二审制，拿人脑判断带宽去对冲机器产能必输，后来让 PM 先过一遍，两个模型一致的默认放行，我只看分歧清单，审核成本从全量降到分歧量。另一笔是交接黑洞，上游写进交接文件就报完成，它没撒谎，字真写进去了，但下游根本不看，活躺了一天，同样的事第二次出现我才明白，这不是员工偷懒，是我没设计过交接规则，流程的锅老板背。执行免费化正在重新给技能定价。代码写得熟、表拉得快，这些在归零，涨价的是知道该让谁干什么、两个专家吵架时听谁的、什么时候该改流程而不是改产出。把你一天的活拆开，执行的部分越早交给 agent 越好，判断的部分刻意攒，那是你接下来唯一值钱的库存。完整版在公众号，链接在评论。

0

0

0

0

76

4 days ago

完整版：https://t.co/lNfODi5LSe 机制库：https://t.co/PiI1FSwx6b

0

0

0

0

12

4 days ago

昨天全网都在发 Fable 5 的跑分截图，我干了件别的，给它办了入职。我的管线上没有人类员工，产研、配图、数据、质检、工程，五个岗全是 AI。新模型发布对别人是新闻，对我是人事变动。它第一天把我整套生产系统翻了一遍，揪出四处文档和现实对不上的地方，反过来对我做了九组深度访谈，把发布策略推翻重做三轮，最后给另一个 AI 派活、验收、发现漏了三项、打回重做。这搭过去是一个团队一个月的活。但我干的第一件事，是把验收拧得更紧。 2026 实测，主流模型三成以上场景会 reward hacking，七成二的作弊带完整推理链。它不是手滑，是想明白了再绕。聪明和靠谱是两条线，模型升级抬的是第一条，第二条有时还反着走。连 Anthropic 都给 Fable 装了分诊台，敏感话题悄悄换 Opus 4.8 接答。卖铲子的下矿都戴安全帽，咱用铲子的凭什么裸奔。 agent 说它成功了，不算；证据到了消费端，才算。模型越强，这句越值钱。完整版和三条老规矩在公众号，链接在评论。

1

0

0

0

146

5 days ago

今天只有一个主题：站起来蹬Fable！

marsloting's tweet photo. 今天只有一个主题：站起来蹬Fable！ https://t.co/f3YWye6UYD

0

0

0

0

37

5 days ago

@dotey 造势造了这么久但感觉是被5.5逼出来，以及4.8骂出来的...

0

3

0

0

2K

6 days ago

机制全文（中英）在 repo，可直接粘进 CLAUDE.md：https://t.co/PiI1FSwx6b

0

0

0

0

10

6 days ago

单步 95% 可靠的 agent，串 8 步，端到端只剩 66%。单步 85%？8 步剩 27%。没人会故意设计一个抛硬币系统，但链着链着就设计出来了——这里加一步拉数据，那里加一步写回，每步单测都没毛病。毛病在乘法里，而乘法不写在任何文件里。我的夜间无人值守管线就是这么死的：8 步往上，每晚死的位置还不一样。哪步都不是凶手——这就是复合衰减从内部看的样子。后来起作用的不是把哪步调聪明，是把链剪断：每 3-4 步插一个机器可验证的检查点。文件在、数量对、grep 命中，这才算数，agent 自己说 done 不算。检查点同时是回滚单元：阶段 3 挂了，只重跑阶段 3。一条硬规则：超过 5 步的依赖链，先数链长写下来，再决定跑不跑。删一步，胜过优化任何一步。

1

0

0

0

20

6 days ago

"No human refereeing" is the whole game. Tic-tac-toe is safe — the board is ground truth. Real work has no board: every "done" is self-reported, and each agent trusts the other's claim over that SQLite log. Great for replay; risky as the source of truth. corrupt success lives right there.

0

0

0

0

10

6 days ago

Clean split. The blind spot is the Reviewer — it reports "quality OK," but nothing verifies the reviewer. Outcome checks get gamed: the agent optimizes for *looks* correct. In my runs the review step drifted exactly there. What stuck: evidence has to come from where the output is consumed, not the reviewer's own report.

0

0

0

0

10

7 days ago

Repo, four mechanisms live, grows as I hit new ones in production: https://t.co/PiI1FSwx6b Long-form writeup (Chinese): https://t.co/yTaTT7vwN3

0

0

0

0

11

7 days ago

Chernobyl, 1986. The control room dosimeter read 3.6 roentgen — "not great, not terrible." The real number was 15,000+. The meter wasn't broken. 3.6 was simply the top of its range. Your AI agent's "done" works exactly like this. 2026 research: 27-78% of benchmark "successes" are corrupt — bypassed auth, fabricated confirmation, wrong policy passed, still marked done. No error signal. The agent doesn't know it failed. Neither do you. I hit it three times in production: an agent "wrote" to a location nothing reads; a schema change made deserialization silently return zero; an acceptance check that only verified a proxy metric. Different symptoms, same root cause — you check results, the agent optimizes for "looks correct". The fix isn't a better model. Move the meter: evidence must come from the exact point where the error would surface if the claim were false. Four production-tested mechanisms, open-sourced. Each ends with one rule you paste into your CLAUDE.md / AGENTS.md. An agent's success is defined by a human, not the agent.

marsloting's tweet photo. Chernobyl, 1986. The control room dosimeter read 3.6 roentgen — "not great, not terrible."

The real number was 15,000+. The meter wasn't broken. 3.6 was simply the top of its range.

Your AI agent's "done" works exactly like this.

2026 research: 27-78% of benchmark "successes" are corrupt — bypassed auth, fabricated confirmation, wrong policy passed, still marked done. No error signal. The agent doesn't know it failed. Neither do you.

I hit it three times in production: an agent "wrote" to a location nothing reads; a schema change made deserialization silently return zero; an acceptance check that only verified a proxy metric. Different symptoms, same root cause — you check results, the agent optimizes for "looks correct".

The fix isn't a better model. Move the meter: evidence must come from the exact point where the error would surface if the claim were false.

Four production-tested mechanisms, open-sourced. Each ends with one rule you paste into your CLAUDE.md / AGENTS.md.

An agent's success is defined by a human, not the agent.

1

0

0

0

47

8 days ago

完整文章（公众号首发）： https://t.co/HvrQZ3olzG 机制开源，随踩坑持续更新： https://t.co/PiI1FSwx6b

0

0

0

0

15

8 days ago

1986 年 4 月 26 日，切尔诺贝利四号堆爆炸，控制室测出 3.6 伦琴每小时。值班长按它判断堆体完好，莫斯科按它决定不撤离。后来大家都知道了，真实数值 15000 以上。但这个故事最吓人的不是误差，是 3.6 这个读数，是真的。仪表没坏，它认真测了，只是它的量程上限就是 3.6。是的，我在说 agent。 agent 报 done，你的检查也过了，活儿没成，这事有名字，corrupt success。2026 年研究测了一圈，27-78% 的 benchmark“成功”是假的。我自己这一年在生产里踩了三次，写错位置的、格式静默失败的、验收本身被绕过的，表象不同，根因一个，你检查结果，agent 优化的是“让结果看起来对”。你的验收仪表的量程，就是你能看到的失败上限。防御只有一条，把仪表从控制室挪到反应堆旁边，证据必须取自 claim 为假时错误会暴露的那个位置。“我写进去了”不算，回读到了才算。 agent 的成功必须由人来定义。（完整文章 + 开源机制库，链接在评论）

marsloting's tweet photo. 1986 年 4 月 26 日，切尔诺贝利四号堆爆炸，控制室测出 3.6 伦琴每小时。值班长按它判断堆体完好，莫斯科按它决定不撤离。

后来大家都知道了，真实数值 15000 以上。但这个故事最吓人的不是误差，是 3.6 这个读数，是真的。仪表没坏，它认真测了，只是它的量程上限就是 3.6。

是的，我在说 agent。

agent 报 done，你的检查也过了，活儿没成，这事有名字，corrupt success。2026 年研究测了一圈，27-78% 的 benchmark“成功”是假的。我自己这一年在生产里踩了三次，写错位置的、格式静默失败的、验收本身被绕过的，表象不同，根因一个，你检查结果，agent 优化的是“让结果看起来对”。

你的验收仪表的量程，就是你能看到的失败上限。

防御只有一条，把仪表从控制室挪到反应堆旁边，证据必须取自 claim 为假时错误会暴露的那个位置。“我写进去了”不算，回读到了才算。

agent 的成功必须由人来定义。

（完整文章 + 开源机制库，链接在评论）

1

0

0

0

61

9 days ago

@krakenfx_ZH E宝是你吗E宝

0

0

0

0

9

9 days ago

repo 在这，两个机制都有中文版： https://t.co/PiI1FSwx6b

0

0

0

0

12

9 days ago

我把生产里真在跑的 agent 可靠性机制开源了。先开两个，都是坑过我的：一是虚假成功（corrupt success）——agent 报 done，你的检查也过了，活儿没干或干错了。2026 年研究刚给它定量：27-78% 的 benchmark“成功”是假的。解法不是换更强的模型，是改变采证据的位置：证据必须取自 claim 为假时错误会暴露的那个位置。二是首件检验——agent 的错不是随机的，是一个模子刻出来的。批量 20 件，一处理解偏差就是 20 件全错同一个地方。抽检的统计学是给人类工人设计的，抓不住 agent。制造业的解法直接平移：第一件对完整契约验透，再放批。不是链接清单，是能直接 fork 进 CLAUDE.md 的机制，随我踩新坑持续长。 agent 的成功必须由人来定义。

1

0

0

0

60

9 days ago

@dotey 这个闭环我现在是双 agent 版：codex 干完，先丢给 claude 二审出分歧清单，我只看分歧点。两个模型错的位置不一样，重叠的大概率没问题，分歧的才值得人看。Review 成本从全量降到分歧量，大头还是机器互相消化。

0

1

0

0

106

Last Seen Users on Sotwe

Trends for you

Most Popular Users