okcomputer

@thatcoolwall

LEMURIA

Joined October 2021

2.6K Following

527 Followers

359 Posts

okcomputer @thatcoolwall

about 1 month ago

Yao Shunyu: Let Me Go a Little Crazy! Training Models at Anthropic & Gem... https://t.co/vRJcnnqY6f via @YouTube

thatcoolwall retweeted

思维怪怪

@0xLogicrw

about 1 month ago

MiniMax 发布技术博客，披露其 M2 系列大模型无法输出人名「马嘉祺」的根因排查过程。排查从一个个例出发，最终揭示了一个波及整个词表近 5% 的系统性退化问题。根本原因是大模型两个训练阶段的数据覆盖严重脱节。第一阶段（预训练）用海量互联网文本编出了一本约 20 万词的「字典」；第二阶段（后训练）用精选的对话数据教模型说话，但这份对话数据只覆盖了字典里的一部分。字典里有、但对话数据里没练到的词，就会在第二阶段逐渐被遗忘。「嘉祺」就是这样的一个词。分词器（tokenizer，负责把文字切成模型能处理的最小单元）因为在互联网文本中见到「嘉祺」连用的次数够��，就把它合并成了一个独立单元。预训练时模型学会了这个词，但后训练的对话数据里包含「嘉祺」的样本不到 5 条。后训练不断调整模型参数，练到的词越来越准，没练到的词则在参数更新中被带偏。最终，模型仍然「认识」马嘉祺、能准确回答相关信息，丢失的只是把这个名字写出来的能力。退化排名靠前的还有「传奇私服」「无痛人流」等互联网 SEO 垃圾词。这类词在预训练的互联网语料中铺天盖地，分词器给了它们独立编号，但精选的后训练对话数据不会收录这些内容，结果同样被遗忘。团队对完整词表做了全量扫描，发现约 4.9% 的词发生了显著退化。退化最严重的是日语：29.7% 的日语词显著退化，远超韩语 3.3%、俄语 3.7%、中文 3.9% 和英文 3.5%。日语的严重退化还解开了一个旧谜。此前模型在日语对话中偶尔混入俄语或韩语字符，一直找不到原因。这次分析表明，大量日语词退化后，在模型内部的参数空间里「漂」到了其他语言的地盘上，导致模型该写日语时错写成俄语或韩语。修复方案是构造一份覆盖全词表的合成数据，让模型用简单的复读任务把字典里每个词都练一遍。效果立竿见影：日语回答中混入俄文字符的比例从 47% 降至 1%，全词表参数稳定度从最低 0.329 升至全部高于 0.97。

164

747

264K

thatcoolwall retweeted

Jason Zhu

@GoSailGlobal

about 1 month ago

Stanford CS336 上，Tatsu 讲了一节 LLM 架构课，把过去 3 年所有主流 LLM 拆开，看它们的共通模板结论挺爆：90% 的架构选择已经收敛，你随便挑一个开源大模型，它跟其他模型在这些维度上几乎一模一样讲师的原话 - 2024 年大家都在 cosplay Llama2 - 2025 年的主题是「怎么训得不崩」 - 2026 年的主题是「怎么扛住长上下文」下面是 2026 年开源 LLM 的标准模板你训自己的模型可以直接抄【架构层已经收敛的 7 件事】 1）Layer Norm 挪出残差流（pre-norm）原版 Transformer 把 LN 放在残差里几乎所有现代模型都挪到外面原因：keep your residual stream clean 梯度反传更稳 2）RMS Norm 替代 LayerNorm LayerNorm 的减均值 + 加 bias 那部分实际没怎么帮上忙丢掉之后 flops 只省 0.17% 但运行时省到 25% （瓶颈在数据搬运计算反而次要） 3）所有 bias 项全删跟 RMS Norm 一个道理系统层省内存搬运 4）激活函数用 SwiGLU 或 GeGLU gated linear unit 几乎所有现代模型都用 Llama 系 / Qwen / Mistral 用 SwiGLU Google 系（Gemma / T5）用 GeGLU 区别极小选哪个都行 5）位置编码用 RoPE 2024 年之后基本统一了原理：把每对维度按位置旋转一个角度让 inner product 只依赖相对位置 6）Transformer block 串联（不是并联） GPT-J / Palm 试过并联现在基本被放弃串联的实现优化得太好了并联省的那点系统开销不值得损失表达力 7）Layer norm 可以「撒」哪儿不稳就在哪儿加 LN attention 之前能加之后能加两边都加（double norm）也可以现代模型很多这样做【超参数已经收敛的 5 个数】 1）feedforward 维度 / hidden 维度 - 非 GLU 模型：4 倍 - GLU 模型：8/3 ≈ 2.67 倍（因为 GLU 多一组矩阵要保持总参数量） - Llama 系：3.5 倍 - T5 1.0 试过 64 倍后来 T5 1.1 改回标准别学 2）head 数 × head 维度 ≈ hidden 维度几乎所有模型都遵守 T5 是为数不多的例外 3）模型纵横比（hidden / 层数）≈ 100 太深 pipeline parallel 难做太宽表达力受限 100 这个数字是系统约束 + 表达力的平衡点 4）vocab size 单语模型：30K 左右（早期 GPT-2 那种）多语 / 通用模型：100K-200K（GPT-4 / Llama 3 / Gemma 都在这个范围）现代基本都是后者 5）weight decay 仍然普��使用但研究发现它在 LLM 里干的事其实是优化器干预让你最终能收敛到更深的最优点跟你想的「防过拟合」没什么关系所以别因为「单 epoch 不会过拟合」就把它关掉【稳定性三个救命 trick】训练大模型最怕中途 loss 突然飙升然后 NaN 全军覆没现代模型用三个 trick 防这件事 1）Z-loss output softmax 的 normalizer 容易爆加一个 (log Z)² 的正则项让 Z 始终接近 1 DCLM / Olmo 都用 2）QK norm attention 的 Q 和 K 在矩阵乘之前各加一个 LN 让 softmax 的输入永远是单位尺度 multimodal 圈先用起来现在所有大模型都加 3）Logit soft cap（仅 Google 系） attention logit 用 tanh 硬封顶 Gemma 2/3/4 都在用但会损失一点点性能慎用【Attention 两个新趋势】 1）GQA（Grouped Query Attention）几乎统一原版 multi-head 推理时 KV cache 会让算术强度崩到 1/h GQA 共享 K 和 V 但保留多个 Q 表达力几乎不损失推理成本砍掉 80% 现在所有要做生产部署的大模型没有不用 GQA 的 2）局部 + 全局 attention 交替处理长上下文的新方式 Cohere Command A 起头现在 Llama 4 / Gemma 4 / Olmo 3 全在用比如每 4 层有 1 层 full attention 其他 3 层是 sliding window 只看附近的 token 比纯 SSM 更稳比纯 full attention 便宜得多（Qwen 3.5 做了变体把 sliding window 那 3 层换成 SSM）收尾一句如果你正在训自己的 LLM，上面这一套就是 2026 年的「默认配置」不需要重新发明，直接抄如果你只是想看懂 GitHub 上那些 modeling_xxx.py 这一份足够你不再被术语吓住

591

534K

okcomputer @thatcoolwall

about 2 months ago

@bboczeng 可以写个科幻小说

385

Who to follow

m33k

@mwchld

Full Stack Dev. In free time creating mobile apps. https://t.co/NaWEMuOlOB. https://t.co/7LvkjTkWpV

Doc Ock

@pinipu1892

Discord: Doc Ock#4255 | Creepz #6900 #3936 #10205 #10485 | Creepz rule, humans drool

Vic71

@_Vic_71

#71 $PORTAL

thatcoolwall retweeted

Lexi 勒西

@lexi_labs

about 2 months ago

这个网站囊括了软件工程领域所有的定律： https://t.co/TSm21k7Zxp

535

551

41K

thatcoolwall retweeted

Max Lv

@m0d8ye

about 2 months ago

@grapeot 补充一个 NV 正在做的 GPU resiliency 项目 https://t.co/wN7L9eUy2g 硬件故障率无法避免，那就只有靠软件层面修正了

thatcoolwall retweeted

鸭哥

@grapeot

about 2 months ago

Meta 训练 Llama 3 用了 16,384 张 H100，54 天里故障 419 次，平均每 3 小时一次。MoE 模型的 GPU 利用率只有 20-35%。FP4 训练目前只存在于论文里。我根据公开论文和行业数据，把 pre-training 的难度整理成了六个维度，每个维度附上了具体数字和原始来源。读完这篇之后，当有人用一堆术语渲染训练有多难的时候，你能分辨哪些是真实约束、哪些是在夸大。 https://t.co/mBKxInkQSg

740

113

731

82K

okcomputer @thatcoolwall

about 2 months ago

@m0d8ye @grapeot 好东西，感谢分享

106

okcomputer @thatcoolwall

2 months ago

@grapeot 更多算力只能加速求解，不能让模型更准 — 这句话是不是不够准确。更快的算力可以在同样的时间等到更精确的解。

138

okcomputer @thatcoolwall

3 months ago

@geniusvczh 请假如何做test automation。什么是best practice

735

okcomputer @thatcoolwall

3 months ago

@lifesinger @zhang_benita @sainingxie 语言的核心是沟通—但也是对整个世界的有效抽象。从这个角度说，LLM岂不更有效

258

okcomputer @thatcoolwall

3 months ago

@yvbbrjdr 语言就是世界的抽象，从这个角度LLM在大部分情况下，不都应该是更有效的吗

205

okcomputer @thatcoolwall

3 months ago

@lidangzzz 可以嵌入cursor吗

223

okcomputer @thatcoolwall

3 months ago

@tvytlx 我的实验需要1个小时或更长，这个方法行吗

949

thatcoolwall retweeted

AYi

@AYi_AInotes

3 months ago

分享一篇好文，非常深度的方法论，可以说是世界级水准的 Agentic Engineer的终极秘诀了，尤其是“ https://t.co/mqh4jpV2xZ作为嵌套IF-ELSE上下文路由器 + Rules/Skills + 定期spa-day compaction”体系”这点，简直是核武器级别！！如果想把你的大龙虾 claude code 等 Agent从“聪明但容易漂移的工具”升级为【高度懂你、可长期稳定、可自我迭代的认知基础设施，彻底抛弃所有外部依赖】这篇你一定要看！！！作者全程生产级验证（真实工厂、长期运行），并诚实指出 sycophancy局限、长期session弊端，并给出可立即执行的对抗方案核心要点我翻译和拆解如下👇

592

128

135K

okcomputer @thatcoolwall

4 months ago

@ShanghaoJin 什么是B卡

243

thatcoolwall retweeted

Netflix

@netflix

5 months ago

No hands is crazy. @AlexHonnold #SkyscraperLIVE

546

28K

thatcoolwall retweeted

Arman Hezarkhani

@ArmanHezarkhani

5 months ago

https://t.co/Mt1PRTZCdT

713

13K

thatcoolwall retweeted

西里森森

@sirisensen

5 months ago

田渊栋的年终总结，这两天在圈子里传得挺广。很多人转发的时候，关注点都放在了他被裁这件事上。毕竟他在Meta干了十多年，是做强化学习的知名华人科学家，年初还被调去给Llama4救火，结果忙活大半年，10月份人被裁了。但最��，我把他的这份年终总结反复读了几遍，看到他在总结里提出了一个大多数人会很陌生，但非常关键的概念——费米能级。他说，AI时代的人才价值分布，会越来越像物理学里的费米能级。先给不熟悉的朋友简单介绍一下田渊栋。本科交大，博士CMU，毕业后先加入了Google无人驾驶团队。后转入了Facebook的AI研究院，一待就是十多年。他主要做的是强化学习方向，发过很多篇重要的论文。这样的履历，让田渊栋前半段职业生涯过得很舒服。他自己也说，在公司待久了，最近一两年做事说话都抱着一种让公司赶紧把我开了吧的心态，反而越来越放得开。 2023年底休长假的时候差点就��了，但最后没签离职的字。但转折发生在2025年1月底，他被调去给Llama4救火。作为一个做强化学习的老手，他在去之前还专门画了一个2乘2的回报矩阵，把各种可能性都算了一遍。去帮忙，项目成了，皆大欢喜。去帮忙，项目没成，至少问心无愧。他算来算去，觉得去是最稳妥的选择。结果最后发生的是他完全没算到的第五种可能：去帮忙，人被裁了。一夜之间，他从大厂的首席科学家，变成了失业人员。现在我们回到他写的年终总结。其实他几乎没花什么篇幅在被裁员的情绪上，反而用大量的文字，写了一个他观察到的现象。他说，以前我们理解职场，基本是这样一个模型：工作经验越多，能力越强，回报越大，是个单调递增的曲线。所以大厂有职级，职级随年限晋升，越老越香。但现在，情况变了。现在评估一个人的价值，不再是��本人能产出多少，而是看你能不能提高AI的能力。「你加上AI的产出，要大于AI单独的产出，这样你才有存在的价值。」 AI的供给只会越来越便宜。在很长一段成长期内，大多数人的能力是比不过AI的，所以这段时间里，人本身是没有价值的。只有当人的能力强到一定程度，能够辅助AI变得更强，才开始有价值。而且跨过这个门槛之后，厉害的人对AI的加成，会远远高于普通人。因为普通人只会对AI的具体产出修修补补，而厉害的人能提出系统性的解决方案，让AI变得更强，这种效应会被几何级数放大。这就像物理学里电子在材料中的分布：低于某个能级的电子遍地都是，高于这个能级的电子指数级减少。这个能级，就是AI洪水的水位线。田渊栋把它叫做「人类社会的费米能级」。他看到AI时代的底层逻辑是：低于费米能级的职业，可能在一夜之��被颠覆。就像地震一样，前一天还是岁月��好，后一天整个行业被端掉了。而且这条水位线还会一直往上涨。他举了自己的例子。他说，以前做项目，招人是很重要的一环。但现在脑子里的第一个问题是：还需不需要人？几个Codex进程一开，给它们下各种指令，它们就可以24小时不间断干活，速度远超任何人类。而且随便PUA，永远听话，毫无怨言。和AI工作，他现在最担心的是工作量有没有给够，有没有用完每天的剩余token数目。然后他说：这每个月交给OpenAI的20块钱，一定要榨干它的价值。我突然意识到，就因为这区区20块钱，我已经成为了每个毛孔里都滴着血的肮脏资本家。他能这么想，全世界最聪明和最富有的头脑，也一定会这么想。所以他说：请大家丢掉幻想，准备战斗吧。那在这种情况下，普通人应该怎么办？田渊栋用了一个很有画面感的说法。他说，未来的世界不再是传统故事里描绘的那样，人们为了争夺稀缺的武功秘籍或者寻找唯一的阿拉丁神灯而展开冒险。相反，这将是一个遍地神灯的时代。每一个AI都像是一个神灯，能力超群，渴望实现别人的愿望。「在这种环境下，真正稀缺的不再是实现愿望的能力，而是愿望本身。」大模型提供了极其廉价的思考结果，这种便利会让很多人逐渐失去思考的动力，久而久之丧失原创能力，思想被生成式内容绑架和同化。最终变成一具空壳，连许愿的能力都失去了。这就是新时代对懒人的定义：不是体力上的懒惰，而是精神上没有空闲去思考，没有能力去构思独特的东西。他在总结的最后写下了一段话。「如果将来的孩子立志要去土卫六开演唱会，或者想在黑洞边缘探险，千万不要打压这样看似荒诞的志向。因为这份宏大的愿望，或许正是他们一辈子主动思考的根本源泉，也是让他们始终屹立于费米能级之上的关键。」田渊栋这篇年终总结想说的或许是：只要你还在主动思考，你就没有真正被淘汰。用思考对抗同化，用目标对抗迷茫。这或许才是AI时代，一个人最深的护城河。

410

185K

okcomputer @thatcoolwall

5 months ago

@ayuan1000 这是大内密谈的嘉宾吗

183

okcomputer

@thatcoolwall

Who to follow

Last Seen Users on Sotwe

Trends for you

Most Popular Users