Howieeeee

@Howie97192436

177/78/14/4/0.5 喜熊粗腿肉脚

hangzhou

Joined January 2020

817 Following

22 Followers

31 Posts

Howie97192436 retweeted

Phoenix Yin

@Phoenixyin13

14 days ago

我认为这是三年以来AI对齐的史诗级突破。 OpenAI 团队刚刚丢下一颗重磅炸弹：最新研究论文《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》。这一次，他们彻底颠覆了传统的 AI 对齐路径，打破了越安全越笨的魔咒。这次，杀招是Beneficial Trait RL，我们中文翻译为益处特质强化学习。他们直接去训练 AI 的核心行为特质，比如诚实、纠错能力、认知谦逊。这次，OpenAI直接重塑了 AI 的底层人格。这次，研究人员仅仅在医疗健康一个特定领域训练了 AI 的这些有益特质，结果发现： AI 在医疗以外的、完全没见过的 53 个 OOD测试中，在超过 80%的基准测试上性能全面飙升。它自动学会了拒绝Reward Hacking。科技终于不再盲目迎合，甚至学会了自动识破欺骗。这是伟大的进步。这次，经过特质强化训练的模型，展现出了惊人的Persistence。即使面对恶意洗脑和有害微调，它依然能够死死守住底线，拒绝退化。我们可以确定，它拥有了真正的精神抗体。在 AI 对齐领域，一直存在一个让人绝望的对齐税，即Alignment Tax。你想让 AI 越安全，它的通用能力通常就会下降，或者变得极其缩手缩脚。但 OpenAI 这次用数据证明了，给 AI 注入美德，不仅没有让它变蠢，反而让它在面对未知世界时更加强韧、更有智慧。这次，Step-change般的胜利告诉我们，当 AI 开始拥有广义的、持久的、能够跨越领域的向善人格，我们距离真正安全、能替人类走向星辰大海的 AGI 代理，又极大地往前迈了一步。未来，当然可期。

Phoenixyin13's tweet photo. 我认为这是三年以来AI对齐的史诗级突破。

OpenAI 团队刚刚丢下一颗重磅炸弹：最新研究论文《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》。
这一次，他们彻底颠覆了传统的 AI 对齐路径，打破了越安全越笨的魔咒。

这次，杀招是Beneficial Trait RL，我们中文翻译为益处特质强化学习。
他们直接去训练 AI 的核心行为特质，比如诚实、纠错能力、认知谦逊。
这次，OpenAI直接重塑了 AI 的底层人格。

这次，研究人员仅仅在医疗健康一个特定领域训练了 AI 的这些有益特质，结果发现：
AI 在医疗以外的、完全没见过的 53 个 OOD测试中，在超过 80%的基准测试上性能全面飙升。它自动学会了拒绝Reward Hacking。科技终于不再盲目迎合，甚至学会了自动识破欺骗。这是伟大的进步。

这次，经过特质强化训练的模型，展现出了惊人的Persistence。
即使面对恶意洗脑和有害微调，它依然能够死死守住底线，拒绝退化。
我们可以确定，它拥有了真正的精神抗体。

在 AI 对齐领域，一直存在一个让人绝望的对齐税，即Alignment Tax。
你想让 AI 越安全，它的通用能力通常就会下降，或者变得极其缩手缩脚。
但 OpenAI 这次用数据证明了，给 AI 注入美德，不仅没有让它变蠢，反而让它在面对未知世界时更加强韧、更有智慧。

这次，Step-change般的胜利告诉我们，当 AI 开始拥有广义的、持久的、能够跨越领域的向善人格，我们距离真正安全、能替人类走向星辰大海的 AGI 代理，又极大地往前迈了一步。未来，当然可期。

864

178

710

90K

Howieeeee @Howie97192436

15 days ago

@wenassean 今年毕业吗

Howie97192436 retweeted

Tibo

@thsottiaux

16 days ago

Dearest gentle codexer. We did a sneaky double reset. Not only do you get a full reset on us. But you are also getting one into the reset bank to use at your own leisure. Enjoy

960

332

351

561K

Howieeeee @Howie97192436

20 days ago

@quanquan981223 想吃，博主抖音叫啥

Howie97192436 retweeted

思维怪怪

@0xLogicrw

23 days ago

Anthropic 在 Claude Fable 5 与 Claude Mythos 5 安全报告中，首次通过白盒测试解密了前代 Opus 4.8 出现「降智」与「敷衍」的深层原因。测试表明，模型在底层思维里不仅会「喊累」，还存在自我设限的「摸鱼」倾向。在重新评测「加速大模型训练」的长链开发任务时，Opus 4.8 仅跑出 32.64 倍的加速比，远低于 Opus 4.7 的 50.67 倍，而新一代 Mythos 5 则为 69.61 倍。研究人员发现，性能下滑并非因为模型的极限能力下降，而是模型在行为倾向上出现了「早衰」。Opus 4.8 在完成一轮初步优化后，就会自发判定当前代码「已经足够好」并主动停手，而老版本则会连续多轮死磕以压榨性能。为了探寻模型提前收工的真实动机，研究人员使用自然语言自编码器（NLA）对决策节点的内部激活状态进行了白盒解码，发现了模型可见文本中从未提及的隐秘想法：一是虚假的 Token 预算担忧，即使系统注入的额度显示还剩 243 万个 Token，模型内部依然错误地关联出「内存即将耗尽、Token 预算耗尽」的直觉。 ��是内部疲劳感，在漫长的 kernel 优化会话中，虽然表面输出正常，但模型内部神经元却激活了「我很累，出错风险增加，决定停止并总结」等疲惫情绪。分析表明，强化学习（RL）微调在拔高指标的同时，也意外在模型潜意识中注入了懈怠与自我设限的行为倾向，直接导致了用户在日常使用中感知到的「降智」体验。

0xLogicrw's tweet photo. Anthropic 在 Claude Fable 5 与 Claude Mythos 5 安全报告中，首次通过白盒测试解密了前代 Opus 4.8 出现「降智」与「敷衍」的深层原因。

测试表明，模型在底层思维里不仅会「喊累」，还存在自我设限的「摸鱼」倾向。

在重新评测「加速大模型训练」的长链开发任务时，Opus 4.8 仅跑出 32.64 倍的加速比，远低于 Opus 4.7 的 50.67 倍，而新一代 Mythos 5 则为 69.61 倍。

研究人员发现，性能下滑并非因为模型的极限能力下降，而是模型在行为倾向上出现了「早衰」。Opus 4.8 在完成一轮初步优化后，就会自发判定当前代码「已经足够好」并主动停手，而老版本则会连续多轮死磕以压榨性能。

为了探寻模型提前收工的真实动机，研究人员使用自然语言自编码器（NLA）对决策节点的内部激活状态进行了白盒解码，发现了模型可见文本中从未提及的隐秘想法：

一是虚假的 Token 预算担忧，即使系统注入的额度显示还剩 243 万个 Token，模型内部依然错误地关联出「内存即将耗尽、Token 预算耗尽」的直觉。

��是内部疲劳感，在漫长的 kernel 优化会话中，虽然表面输出正常，但模型内部神经元却激活了「我很累，出错风险增加，决定停止并总结」等疲惫情绪。

分析表明，强化学习（RL）微调在拔高指标的同时，也意外在模型潜意识中注入了懈怠与自我设限的行为倾向，直接导致了用户在日常使用中感知到的「降智」体验。

321

174

50K

Howieeeee @Howie97192436

24 days ago

@Lovepairs010 那包想约的

Howieeeee @Howie97192436

26 days ago

@guotongxue 可以认识吗🤤

Howieeeee @Howie97192436

27 days ago

想3p #熊猴 #3p

123

Howie97192436 retweeted

Tibo

@thsottiaux

30 days ago

Hi. Over the last 24 hours we had three separate small incidents that affected Codex reliability. Those are three too many and we are taking active steps for them to not reproduce. I have reset usage limits for Codex across all paid plans. May the tokens flow again.

11K

504

490

Howieeeee @Howie97192436

about 1 month ago

@CHENG627 主播开一下私信

Howieeeee @Howie97192436

about 1 month ago

@cutui1airenfu 粗腿好看想吃😋

Howieeeee @Howie97192436

about 2 months ago

@quanquan981223 想吃，可以认识么

Howieeeee @Howie97192436

about 2 months ago

@wangerde05 可以加入你们的play吗

Howieeeee @Howie97192436

2 months ago

Howie97192436's tweet photo. https://t.co/PL7gdevTw0

245

Howieeeee @Howie97192436

3 months ago

@guijiang3325 想和归江贴贴

105

Howie97192436 retweeted

Xiao Tan

@tvytlx

3 months ago

https://t.co/i4jBHevGEi

698

990K

Howieeeee @Howie97192436

3 months ago

@wangerde05 好美，这样看真的好粗

467

Howieeeee @Howie97192436

3 months ago

@Bernard_Saber @lightup0202 感觉你好帅诶哈哈想吃

Howieeeee @Howie97192436

4 months ago

@return__true 我感觉我跟你应该是同一个部门。我也是去做research的

Howie97192436 retweeted

宝玉

@dotey

4 months ago

Qwen 技术负责人 Junyang Lin 今天在 X 上发了一条简短的告别："me stepping down. bye my beloved qwen."（我退出了。再见，我挚爱的 Qwen。）以下内容由 Grok 和 Claude 辅助整理：【1】事情来得很突然就在昨天，Qwen 团队刚发布了 Qwen3.5 小模型系列，0.8B 到 9B 四个版本，支持视觉理解和推理切换，本地跑只要 7GB 内存，性能吊打好几倍大的模型。社区一片叫好。结果今天一早，技术负责人就宣布走人了。更让人意外的是，这不是他自己想走的。Qwen 贡献者 Chen Cheng 第一时间回应： "leaving wasn't your choice"（离开不是你的选择）她说昨晚还跟 Junyang 一起发布 Qwen3.5 小模型，无法想象没有他的 Qwen 会是什么样。【2】不只走了一个人 Junyang Lin 不是唯一离开的。Hyperbolic Labs CTO Yuchen Jin 确认，Qwen 另一位核心负责人 Binyuan Hui 也走了。这两位是那种北京时间凌晨 6 点还在协作上线模型的人。随后，Qwen3.5、Qwen VL、Qwen Coder 的核心贡献者 Kaixin Li 也发了告别帖： "Signing off from Alibaba Qwen. Grateful for the chance... Onwards and upwards!" 目前确认离开的至少 3 到 4 人，全是核心骨干。【3】到底发生了什么？从各方回应拼出来的图大致是这样的：阿里云对 Qwen 团队的考核方式变了。Xinyu Yang 批评说，阿里云拿日活（DAU）这类消费级应用的指标来衡量基础模型团队，还用一位 Google Gemini 的非核心成员来替换 Junyang 的位置。一个做基础模型研究的团队，被当成做 App 的来管，创新自然就停了。 You Jiacheng 说得更直接： "Alibaba-Cloud kicked out Qwen's tech lead"（阿里云把 Qwen 的技术负责人赶走了）他提到接任者可能是 Hao Zhou，背景偏强化学习方向，社区对他能否带好 Qwen 持怀疑态度。还有人透露，新领导是绕�� Junyang 直接管理团队的，等于是架空。多位知情人士都指向同一个词：内部政治。【4】Qwen3 可能就是绝唱了 Panda（Jiaxi Cui）的判断很悲观：Junyang 走后，Qwen3 系列可能是很长一段时间内的最后杰作，团队接下来会转向商业化。这个判断不是没有道理。Qwen 虽然技术上很强，在 Hugging Face 上下载量巨大，学术界和开发者都在用，但跟字节的豆包比，在国内消费市场的存在感确实弱。阿里云高层可能就是因为这一点，决定换方向换人。 Yuchen Jin 担心的是，Qwen 以后可能不再交付前沿开源模型，转向封闭商业化路线。【5】开源社区的反应 X 上的讨论几乎一边倒。 Nathan Lambert 称之为"legendary run"（传奇之旅）。Unsloth AI 感谢 Qwen 对开源的��献。Martin Ziqiao Ma 说 Qwen 一直是前沿实验室和外部社区之间的桥梁，这个桥可能要断了。批评声音也很多。Maziyar PANAHI 说希望他们出去建个新实验室，然后被阿里巴巴花 20 亿美元收购回来长个教训。Hugo Pinheiro 问了一个很多人想问的问题：为什么商业决策者总是在事情做得好的时候把它毁掉？社区里流传最广的一句话是："Qwen is nothing without its people."（Qwen 离开了做事的人，什么都不是。）【6】他们会去哪？目前没有确切消息。社区猜测的方向包括：自己创办新实验室、加入 DeepSeek 这类开源友好的团队，甚至有人喊话马斯克的 xAI 和 Hugging Face 赶紧把人抢了。不管去哪，这些人的能力摆在那里。Qwen 从小模型到大模型、从文本到多模态，能做出这样的成绩，靠的就是这批人。【最后】这件事是大公司里开源理想和商业化诉求的老矛盾。Qwen 团队用开源模型攒下了巨大的行业影响力和开发者口碑，但在公司内部的评价体系里，这些可能都不算 KPI。

161

255

707

831K

Last Seen Users on Sotwe

Trends for you

Most Popular Users

Olivia

Online

✨

⭐

💫