Datou @Datou - Twitter Profile

Datou @Datou

about 10 hours ago

@xiaohu 豆包语气

1

0

335

Datou @Datou

about 11 hours ago

“用一个类比讲清楚”，ai自媒体是不是最早被ai夺舍的那一拨？

小互

@xiaohu

about 12 hours ago

Google 发布 Gemma 4 12B 开源模型 16GB 笔记本跑全模态 AI Gemma 4 12B 采用了一种叫"Unified"的无编码器架构，让文字、图像、音频、视频四种输入直接进入同一个 Transformer 主干网络处理。模型可直接处理原始的图像和声音用一个类比讲清楚传统多模态模型处理图片和音频的方式，类似于一个只会中文的老板配了两个翻译：一个英文翻译（视觉编码器），一个日文翻译（音频编码器）。每次有英文或日文材料进来，必须先让翻译转成中文，老板才能看懂。翻译本身占工位（显存），翻译过程要排队等（延迟），而且老板拿到的是翻译加工过的版本，不是原文。 Gemma 4 12B 做的事情是：把两个翻译都裁了，让老板自己学会了直接看英文和日文。几个关键数字： 16GB 显存或统一内存能跑，4-bit 量化低到 8GB，目标就是在普通笔记本上本地运行 256K Token 上下文窗口，支持 140+ 种语言内置 Thinking 模式（逐步推理）和原生 Function Calling

20

250

36

282

38K

1

2

3K

Datou @Datou

about 13 hours ago

tui 更新成本低没毛病，但 feature 是需要先有产品定义的，字符界面是需要设计的，前端也是要改动的，只是 tui 的前端和设计 ai 能干一大部分，feature 可能是研究员想的程序员想的，得扮演产品经理的角色才行。更新成本低更新快，不等于有用的 feature 会越来越多，也可能天天无效更新错失范式转换。

Kai

@real_kai42

about 24 hours ago

TUI 的意义就是，Kimi Code 在不需要任何产品/设计/前端的辅助下，能够一天更新无数 feature。因为 TUI 实现 UI 的成本足够低如果是 GUI，想达到同样的迭代速度，时间/人力至少翻一倍这是我理解的 TUI 的价值，“能够让产品飞速迭代和试错”

91

194

11

37

54K

0

4

0

1K

Datou @Datou

about 13 hours ago

@sun_hanchi 🤣

0

30

Who to follow

宝玉

@dotey

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

vigorxu

@vigorX777

💚 公众号：「懂点儿AI」 AIGC 实践者 🖖 AI 产品学徒 🕹️ 自媒体踩坑专家 🏄‍♀️

YQ

@yongqianme

20y robotics & industrial automation. 3x founder (exited IIoT, AIGC, OSS in CN/US). ex @StaubliRobots @spirit_ai2024 Buy my book: https://t.co/dORhZoroas

Datou @Datou

1 day ago

训练半天发现不如 deepseek v4

geniusvczh @geniusvczh

1 day ago

昨天玩了半天发现-flash才5B，现在有个正式版，微软说他比sonnet 4.6好，希望他能用🤪 https://t.co/wGqim5wQTW

14

23

0

11

45K

18

62

5

13

40K

Datou retweeted

Aoden Teo

@AodenTeoMT

about 20 hours ago

Today, we’re excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-parameter text-to-speech model for highly expressive speech generation. It emotes like a human and responds faster than a human, with just 110 milliseconds of latency. We’ve open-sourced the model weights, with API access coming soon. Hear how Miso One sounds in the thread below.

382

7K

558

8K

2M

Datou retweeted

Ideogram @ideogram_ai

about 20 hours ago

Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-tune on your own data, and run it on your hardware. Live on every Ideogram plan and the API today.

345

7K

706

6K

2M

Datou @Datou

about 23 hours ago

mai image怎么赢的呢？

宝玉

@dotey

6 months ago

🍌nano banana prompt：中国神话角色组合插画，二郎神、孙悟空、哪吒三位经典人物，Q版可爱风格，动态活泼。 - 二郎神：神情沉稳淡定，眉间天眼微闭，头戴华美金冠，身穿精致传统战袍，手持三尖两刃刀，身旁伴随表情开心呆萌的啸天犬。 - 孙悟空：神情自信调皮，头顶凤翅紫金冠（一般是束发冠加上雉尾，形似生了两根“蟑螂须”），金色猴毛蓬松有型，穿着黄色虎皮短裙、祥云战甲，手握金箍棒，摆出经典眺望远方的动作姿势，灵动而自豪。 - 哪吒：面容俏皮勇敢，扎着两个冲天发髻，身穿飘逸灵动的红色莲花战甲，脚踏风火轮，手持火尖枪，乾坤圈环绕周身，充满少年英雄的气息。整体绘画风格细腻精致，色彩柔和暖调，线条清晰流畅，带有淡淡的水彩插画质感，背景简洁典雅，画面充满趣味、温馨与故事性。

dotey's tweet photo. 🍌nano banana prompt：

中国神话角色组合插画，二郎神、孙悟空、哪吒三位经典人物，Q版可爱风格，动态活泼。

- 二郎神：神情沉稳淡定，眉间天眼微闭，头戴华美金冠，身穿精致传统战袍，手持三尖两刃刀，身旁伴随表情开心呆萌的啸天犬。
- 孙悟空：神情自信调皮，头顶凤翅紫金冠（一般是束发冠加上雉尾，形似生了两根“蟑螂须”），金色猴毛蓬松有型，穿着黄色虎皮短裙、祥云战甲，手握金箍棒，摆出经典眺望远方的动作姿势，灵动而自豪。
- 哪吒：面容俏皮勇敢，扎着两个冲天发髻，身穿飘逸灵动的红色莲花战甲，脚踏风火轮，手持火尖枪，乾坤圈环绕周身，充满少年英雄的气息。

整体绘画风格细腻精致，色彩柔和暖调，线条清晰流畅，带有淡淡的水彩插画质感，背景简洁典雅，画面充满趣味、温馨与故事性。

15

193

20

150

66K

0

2

0

520

Datou @Datou

about 23 hours ago

@_Suresh2 😂

0

434

Datou @Datou

1 day ago

微软还是爱惜羽毛的，刻意避开合成数据，只用人类数据训练出一个 base 模型，然后一生三，训练三个不同领域的专家模型，然后自己蒸馏自己，把三种能力蒸回 bese 模型（权重配比很考验经验），再强化学习一轮让蒸馏模型懂得看问题下菜碟灵活运用这三种能力。确实讲了很多细节，一生三三蒸一有意思。

yv

@yvbbrjdr

1 day ago

推荐大家读一下MAI-Thinking-1的technical paper，里面有详细的怎么训出一个SOTA LLM的（几乎）所有细节。 https://t.co/it5mCFd6v3

23

1K

228

2K

175K

13

434

56

377

89K

Datou @Datou

1 day ago

刚想骂 codex 傻逼，它自己回过味儿来了

0

1

0

770

Datou @Datou

1 day ago

@splitscreensad2 确实，deepseek 公开过，微软跟着学并没有炼出来超越 ds 的模型😑

0

3

0

726

Datou @Datou

1 day ago

这要是非理性估值，还没 chatgpt 的时候腾讯股价 714.8 怎么说？

Robinson · 鲁棒逊

@python_xxt

2 days ago

腾讯因为微信要接入AI智能体，今天大涨10.46% 整个市场已经疯了，不投AI估值就死，投AI就非理性估值。其实在水面之下，如果有机会可以购入字节跳动的原始股，字节一定会是国内AI的大赢家，万亿市值可期

36

15

3

5

9K

0

1

0

987

Datou @Datou

1 day ago

@Xxi5olc 我一开始的表述更准确的说法是没有使用第三方模型的合成数据，写不下那么多字。微软的训练是从纯人类数据得到 base 模型，永纯人类数据微调成三个不同领域的专家模型，然后从自己的专家模型得到合成数据，把三类知识蒸馏进自己的 base 模型。

0

258

Datou @Datou

1 day ago

fp4 精度 1000tops，内存带宽 273gb/s，3000 美元不香

小互

@xiaohu

1 day ago

收到Mac mini被开发者追捧的吸引微软发布了一台类似Mac mini的台式机： Surface RTX Spark Dev Box 它是一个小盒子，放在桌上就行配置了英伟达最新的 RTX Spark 芯片，128GB 内存，算力达到 1 petaflop（1000 万亿次运算），能在本地跑 1200 亿参数的大模型，不用连云端 GPU。外观看起来像一个"压扁的 Xbox Series X"，顶部有类似的散热格栅，只是通风孔是方形的而不是圆形的。整个机身是阳极氧化铝 3D 打印的，顶部有 1000 个通风孔。定位：给开发者在本地跑 AI 模型、Agent 工作流、模型微调用的，不用什么都往云上送，省钱也快开箱即用：预装了开发者版 Windows 11 Pro，VS Code、GitHub Copilot、WSL、PowerShell 7 都配好了，开机就能写代码散热：整个铝合金机身就是散热系统，100W 功耗，顶部有 1000 个通风孔，能扛长时间训练任务不降频价格：官方还没公布，行业分析师估计在 3000 到 3500 美元之间，同类产品 AMD Ryzen AI Halo PC 和 NVIDIA DGX Spark 大约卖 3999 美元今年晚些时候在美国上市...

xiaohu's tweet photo. 收到Mac mini被开发者追捧的吸引

微软发布了一台类似Mac mini的台式机： Surface RTX Spark Dev Box

它是一个小盒子，放在桌上就行

配置了英伟达最新的 RTX Spark 芯片，128GB 内存，算力达到 1 petaflop（1000 万亿次运算），能在本地跑 1200 亿参数的大模型，不用连云端 GPU。

外观看起来像一个"压扁的 Xbox Series X"，顶部有类似的散热格栅，只是通风孔是方形的而不是圆形的。整个机身是阳极氧化铝 3D 打印的，顶部有 1000 个通风孔。

定位：给开发者在本地跑 AI 模型、Agent 工作流、模型微调用的，不用什么都往云上送，省钱也快

开箱即用：预装了开发者版 Windows 11 Pro，VS Code、GitHub Copilot、WSL、PowerShell 7 都配好了，开机就能写代码

散热：整个铝合金机身就是散热系统，100W 功耗，顶部有 1000 个通风孔，能扛长时间训练任务不降频

价格：官方还没公布，行业分析师估计在 3000 到 3500 美元之间，同类产品 AMD Ryzen AI Halo PC 和 NVIDIA DGX Spark 大约卖 3999 美元

今年晚些时候在美国上市...

109

217

21

131

85K

16

6

0

1

3K

Datou @Datou

1 day ago

放的时间太长了，想拿出来换上发现已经水解了

0

1

0

420

Datou @Datou

1 day ago

《用玄学包装让人接受科学建议》

属鼠蜀黍 @_naiVe_2

2 days ago

鼠肯

3

1

0

1

744

1

0

641

Datou @Datou

1 day ago

@Xxi5olc 自己蒸自己还是不太一样，base 模型能学会某些专业知识，代表这些知识更容易被蒸进 base 模型，强行蒸第三方模型的合成数据，base 模型不一定能学会，可能会超纲。这更像是一种平均的提升所有能力的方法，让 base 模型分别学 abc，以确保 base 同时学会 abc，而不是靠蒸馏第三方走捷径。

1

4

0

2K

Datou @Datou

1 day ago

大模型的参数量是如何确定的，比如 1t-a35b。首先有一些刚性的约束，比如推理成本可负担，gpu集群可以支撑训练，然后从小参数量逐步扩大（不要走捷径），看scaling ladder是不是持续有收益，看越来越大的参数规模下预训练和强化学习会不会崩，最后停在了 1t-a35 ，在一些测试项目上拿到了满意的成绩。

Datou @Datou

1 day ago

微软还是爱惜羽毛的，刻意避开合成数据，只用人类数据训练出一个 base 模型，然后一生三，训练三个不同领域的专家模型，然后自己蒸馏自己，把三种能力蒸回 bese 模型（权重配比很考验经验），再强化学习一轮让蒸馏模型懂得看问题下菜碟灵活运用这三种能力。确实讲了很多细节，一生三三蒸一有意思。

13

434

56

377

89K

6

23

1

6

6K

Datou @Datou

1 day ago

如果真推出 128g 的 5070，那确实很香

Gorden Sun

@Gorden_Sun

3 days ago

NVIDIA发布RTX Spark超级芯片，联合微软推出个人AI PC AI Agent的超级芯片，提供1 PFLOPS的AI算力和最高128GB统一内存；与微软深度合作，为Windows构建原生Agent运行环境，电脑会在秋季上线；能渲染90GB+的3D场景、剪辑12K 4:2:2视频、本地运行120B参数LLM；反正我是不信了，上次不也推出个什么硬件来着，结果完全不行。官方介绍：https://t.co/VEbKacQdwv