zh @zhattention - Twitter Profile

为什么分数接近，不代表能力接近？拿 GLM-5.2 和 Opus 4.8 比：SWE-Bench Pro 上 62.1 vs 69.2，就差 7 分，看着快追平��。但 GLM 激活 40B，Opus 闭源没公开、按万亿总参反推激活在数百 B——差一个数量级。关��在激活参数。MoE 的总参扩的是知识存储，但每个 token 的有效推理算力由激活规模决定。窄域 agentic coding 可以用大规模 RL 把分数对齐到评测分布，刷到接近；但 per-token 容量是刷不上去的。难度一拉就现形：编码综合 Fable 85.6、GLM 62.1，差 23 分；最难的 FrontierCode Diamond 连 Opus 都才 13.4，开源这梯队根本够不着。题越难、链路越长，40B 激活的天花板越藏不住。所以账面 7 分是后训练对齐出来的，真实能力差距远不止于此。

5

23

1

14

12K

zh

@zhattention

11 days ago

@ShouChen_ 这个是i split e，e gives power to i，所以i就读原来的音了（跟娃学的）

0

363

zh

@zhattention

11 days ago

@oicufo @xleaps @snowboat84 @grok 就是被一帮币圈的人忽悠了

1

0

43

zh

@zhattention

11 days ago

@tinyfool 🤔 怀疑楼主在钓鱼

0

115

zh

@zhattention

13 days ago

@oicufo 吹的比较多，但是模型参数够大实力还是可以的

0

24

zh

@zhattention

15 days ago

GLM 5.2 这波吹得有点上头了最硬的吹点是 Code Arena Frontend 排第二、+29 分压 Opus 4.7、只输 Fable。但 Arena 测的是前端"好不好看、讨不讨喜"的人类偏好，风格分占大头，跟真实能力两码事，benchmaxx 一下就上去了还有人吹"比降智后的 Opus 4.8 还强"——哥，那是被安全策略故意阉割过的版本，赢它含金量自己掂量马斯克那句其实最中肯：榜上赢没问题，但换成真实��用性、开发者口碑、收入，是另一回事。Anthropic 那种"最大化有用智能"榜上测不出来，收入里见而且体感这边白天一堆人 429 根本连不上。benchmaxx 是王者，serving 跟不上也白搭便宜 + 开源是真的，但那是 DeepSeek、Qwen 的基本盘，不是 GLM 独有的护城河最逗的是连粉丝都在喊"没理解为啥这么强为啥为啥"——一个说不清自己哪好的"强"，多半是对着榜调出来的股价一周涨 70%，叙事跑产品前面太多了。等两周看 token 还涨不涨、人还用不用，再吹

2

0

484

zh

@zhattention

13 days ago

@oicufo 港股可以买点

1

0

28

zh

@zhattention

13 days ago

@YYuke2333 不过封Fable 也是奇葩行为，scaling law在这里，以为别人训练不出来，自断市场 AI 游戏只能持续卷，��有停止最终平权

0

352

zh

@zhattention

13 days ago

@tinyfool 技术上补一句:政府说的"内部安全护栏"其实不在模型内部,是外挂的一层分类器。对齐没法用手术刀写进权重,只能在 I/O 上套过滤器兜底。所以 jailbreak 不是能补的 bug,是结构性的——攻击打的是外面那层 wrapper,够��到认知。用一个二元禁令去管一个永远补不严的东西,当然没有说明书。

0

1

0

104

zh

@zhattention

14 days ago

The deeper point: this degradation is bolted on, not trained in. You can't scalpel out cyber capability via loss without hitting the rest — it's a lifelong-learning problem — so "safety" ends up as an external classifier. Which is why a wrapper-level jailbreak undoes it on day one. You don't control the model, you filter its I/O.

0

20

zh

@zhattention

14 days ago

Exactly the tell: they couldn't make the weights safe, so "safety" lives in an external classifier strapped on top. You can't surgically remove one capability (cyber) via loss without degrading everything else — it's a lifelong-learning problem. So you bolt a filter on the outside. And external filters get jailbroken day one, because the attack hits the wrapper, not the cognition.

0

41

zh

@zhattention

Who to follow

Last Seen Users on Sotwe

Trends for you

Most Popular Users