Home
Language
English
Türkçe
Bahasa Indonesia
About
Privacy Policy
Terms of Service
Pricing
Sign In
Download All
Share
WaydeMo
@yangqch
have fun
California, USA
Joined October 2009
231
Following
965
Followers
1.9K
Posts
yangqch
retweeted
Jason Zhu
@GoSailGlobal
about 2 months ago
Stanford CS336 上,Tatsu 讲了一节 LLM 架构课,把过去 3 年所有主流 LLM 拆开,看它们的共通模板 结论挺爆:90% 的架构选择已经收敛,你随便挑一个开源大模型,它跟其他模型在这些维度上几乎一模一样 讲师的原话 - 2024 年大家都在 cosplay Llama2 - 2025 年的主题是「怎么训得不崩」 - 2026 年的主题是「怎么扛住长上下文」 下面是 2026 年开源 LLM 的标准模板 你训自己的模型可以直接抄 【架构层 已经收敛的 7 件事】 1)Layer Norm 挪出残差流(pre-norm) 原版 Transformer 把 LN 放在残差里 几乎所有现代模型都挪到外面 原因:keep your residual stream clean 梯度反传更稳 2)RMS Norm 替代 LayerNorm LayerNorm 的减均值 + 加 bias 那部分实际没怎么帮上忙 丢掉之后 flops 只省 0.17% 但运行时省到 25% (瓶颈在数据搬运 计算反而次要) 3)所有 bias 项全删 跟 RMS Norm 一个道理 系统层省内存搬运 4)激活函数用 SwiGLU 或 GeGLU gated linear unit 几乎所有现代模型都用 Llama 系 / Qwen / Mistral 用 SwiGLU Google 系(Gemma / T5)用 GeGLU 区别极小 选哪个都行 5)位置编码用 RoPE 2024 年之后基本统一了 原理:把每对维度按位置旋转一个角度 让 inner product 只依赖相对位置 6)Transformer block 串联(不是并联) GPT-J / Palm 试过并联 现在基本被放弃 串联的实现优化得太好了 并联省的那点系统开销不值得损失表达力 7)Layer norm 可以「撒」 哪儿不稳就在哪儿加 LN attention 之前能加 之后能加 两边都加(double norm)也可以 现代模型很多这样做 【超参数 已经收敛的 5 个数】 1)feedforward 维度 / hidden 维度 - 非 GLU 模型:4 倍 - GLU 模型:8/3 ≈ 2.67 倍(因为 GLU 多一组矩阵 要保持总参数量) - Llama 系:3.5 倍 - T5 1.0 试过 64 倍 后来 T5 1.1 改回标准 别学 2)head 数 × head 维度 ≈ hidden 维度 几乎所有模型都遵守 T5 是为数不多的例外 3)模型纵横比(hidden / 层数)≈ 100 太深 pipeline parallel 难做 太宽 表达力受限 100 这个数字是系统约束 + 表达力的平衡点 4)vocab size 单语模型:30K 左右(早期 GPT-2 那种) 多语 / 通用模型:100K-200K(GPT-4 / Llama 3 / Gemma 都在这个范围) 现代基本都是后者 5)weight decay 仍然普遍使用 但研究发现它在 LLM 里干的事其实是优化器干预 让你最终能收敛到更深的最优点 跟你想的「防过拟合」没什么关系 所以别因为「单 epoch 不会过拟合」就把它关掉 【稳定性 三个救命 trick】 训练大模型最怕中途 loss 突然飙升 然后 NaN 全军覆没 现代模型用三个 trick 防这件事 1)Z-loss output softmax 的 normalizer 容易爆 加一个 (log Z)² 的正则项 让 Z 始终接近 1 DCLM / Olmo 都用 2)QK norm attention 的 Q 和 K 在矩阵乘之前各加一个 LN 让 softmax 的输入永远是单位尺度 multimodal 圈先用起来 现在所有大模型都加 3)Logit soft cap(仅 Google 系) attention logit 用 tanh 硬封顶 Gemma 2/3/4 都在用 但会损失一点点性能 慎用 【Attention 两个新趋势】 1)GQA(Grouped Query Attention)几乎统一 原版 multi-head 推理时 KV cache 会让算术强度崩到 1/h GQA 共享 K 和 V 但保留多个 Q 表达力几乎不损失 推理成本砍掉 80% 现在所有要做生产部署的大模型 没有不用 GQA 的 2)局部 + 全局 attention 交替 处理长上下文的新方式 Cohere Command A 起头 现在 Llama 4 / Gemma 4 / Olmo 3 全在用 比如每 4 层有 1 层 full attention 其他 3 层是 sliding window 只看附近的 token 比纯 SSM 更稳 比纯 full attention 便宜得多 (Qwen 3.5 做了变体 把 sliding window 那 3 层换成 SSM) 收尾一句 如果你正在训自己的 LLM,上面这一套就是 2026 年的「默认配置」 不需要重新发明,直接抄 如果你只是想看懂 GitHub 上那些 modeling_xxx.py 这一份足够你不再被术语吓住
See More
GoSailGlobal's tweet video.
WaydeMo
@yangqch
5 months ago
@ChifaKing
��得好像很意外一样
WaydeMo
@yangqch
5 months ago
@FengMartin3
@Yintinusa
你光说一个月付 不比较保险的额度 是没意义的
WaydeMo
@yangqch
5 months ago
@Yintinusa
一个月1000的保险 兜底肯定比较充分 比如一年最大自付额低于2000 那么一年的医疗支出就能控制在1w5美元以内 对于年收入20w的人来说 挺值得的。
Who to follow
Fan Wennan
@FWennan
Scifi Art|Space Art|Concept Design|Futurismo|https://t.co/wcOWpCHgVU
Vonng
@RonVonng
Pigsty Author, Postgres Hacker, Distribution Maker, Cloud-Exit Han Solo. https://t.co/mnr3YeUTiv | Pigsty - Free/OSS PG Distribution & RDS: https://t.co/qTuw91ylsN
润学博导 疾走飞升
@RunnerOfPhil
伊利诺伊大学克莱登分校(ICCU)PhR
WaydeMo
@yangqch
8 months ago
@usJoe3
@yibingsg
@grok
这个Ethan说的是真的吗?
WaydeMo
@yangqch
8 months ago
@diyas_1989
如果是你 他确实不会show up
WaydeMo
@yangqch
9 months ago
@diyas_1989
我没沉住气 在INTC爆发前夜卖了
WaydeMo
@yangqch
10 months ago
@diyas_1989
Intel不是要丢弃fab吗
WaydeMo
@yangqch
10 months ago
@diyas_1989
真走了你还来得及?
WaydeMo
@yangqch
11 months ago
@TtracyS87606
沃顿毕业去个二线城市准能过上小资���活 非在湾区纽约卷那只能是为了更大的突破。
WaydeMo
@yangqch
11 months ago
@diyas_1989
Why do they target China though?
WaydeMo
@yangqch
11 months ago
@diyas_1989
This is country target tarriff. China will retaliate
WaydeMo
@yangqch
11 months ago
@diyas_1989
I thought Fed is independent...
WaydeMo
@yangqch
12 months ago
@TruthOfFinance
@diyas_1989
没有的事 Mountain View就放了一个多小时 说到底还是夏威夷政府没钱
WaydeMo
@yangqch
12 months ago
@diyas_1989
还不如mountain view...
yangqch
retweeted
凡人小北
@frxiaobei
about 1 year ago
我要就坐不住了:这不是 I/O,这他喵的是 Google 开的新一张桌子。 你以为他们在发 Gemini 模型,其实他们是在把 Gemini 变成 Chrome、Docs、Gmail、Android……你所有动作背后的“默认大脑”。 这哪里是在跟 ChatGPT 比能力,人家直接新开一张桌子不跟你玩了。 当你还在加 AI 应用、卷 LLM 接入速度的时候,Google 的生态已经全面 AI 化了。 这波不是AI 更聪明了,而是你不知不觉已经活在它里了。 聊一聊我的看法,不聊横向对比 ChatGPT 谁强谁弱, 看清 Google 这两天已经从追赶变成了主导,直接奔着 AI 生态主导权来了。👇
See More
WaydeMo
@yangqch
about 1 year ago
@diyas_1989
@divram_ai
You fuse fake with real?
WaydeMo
@yangqch
about 1 year ago
@diyas_1989
Tiffany says i should buy Apple
Last Seen Users on Sotwe
hakaneskisehir6
Seen from
Turkey
💃derya🕴deniz
Seen from
Turkey
biakering
Seen from
Indonesia
peeradol ทหารด้านมืด
Seen from
Thailand
H
Seen from
Egypt
Fggg
Seen from
Turkey
Pakistani Gay🇵🇰
Stay Cute Pls
Seen from
Chile
Andrii
Seen from
Singapore
.Hussein
Seen from
France
Trends for you
1
#SmackDown
Under 10K tweets
2
Morocco
Under 10K tweets
3
Juneteenth
Under 10K tweets
4
Australia
Under 10K tweets
5
#tadc
Under 10K tweets
6
Air Force One
Under 10K tweets
7
Fauci
Under 10K tweets
8
Jimmie Johnson
Under 10K tweets
9
Skubal
Under 10K tweets
10
#LoveAfterLockup
Under 10K tweets
Most Popular Users
1
Elon Musk
@elonmusk
240.3M followers
2
Barack Obama
@barackobama
119.3M followers
3
Donald J. Trump
@realdonaldtrump
111.6M followers
4
Cristiano Ronaldo
@cristiano
109.9M followers
5
Narendra Modi
@narendramodi
106.9M followers
6
Rihanna
@rihanna
97.5M followers
7
NASA
@nasa
92.1M followers
8
Justin Bieber
@justinbieber
90.7M followers
9
KATY PERRY
@katyperry
87.3M followers
10
Taylor Swift
@taylorswift13
81.1M followers
11
Lady Gaga
@ladygaga
72.7M followers
12
Kim Kardashian
@kimkardashian
69.6M followers
13
Virat Kohli
@imvkohli
69.3M followers
14
YouTube
@youtube
68.6M followers
15
Bill Gates
@billgates
63.7M followers
16
The Ellen Show
@theellenshow
62.5M followers
17
Neymar Jr
@neymarjr
62M followers
18
CNN
@cnn
61.9M followers
19
X
@x
60.9M followers
20
Selena Gomez
@selenagomez
60.4M followers
Olivia
Online
✨
⭐
💫