solrex

@solrex

软件工程师，对冷门知识充满兴趣，对奇思妙想充满热情，对自己完成一事充满骄傲。 The geek shall inherit the earth.

北京, 中华人民共和国

Joined November 2008

256 Following

602 Followers

2.2K Posts

12 months ago

自驾时到底用手台好还是车台好？这是一个在业余无线电圈子和越野车圈子经常被讨论的问题，普遍的理解是车台比手台信号好，但是手台比车台方便。但还有一种使用方式是给手台接上天线，那到底这几种方式信号强度差多少呢？ https://t.co/oHKHv6n8Bo

solrex's tweet photo. 自驾时到底用手台好还是车台好？

这是一个在业余无线电圈子和越野车圈子经常被讨论的问题，普遍的理解是车台比手台信号好，但是手台比车台方便。但还有一种使用方式是给手台接上天线，那到底这几种方式信号强度差多少呢？
https://t.co/oHKHv6n8Bo https://t.co/VteNw3KXP1

0

0

0

0

183

12 months ago

优化Qwen3 - FP8模型L40S卡性能提升18% https://t.co/elgjB1Dz9r

0

0

0

0

110

about 1 year ago

@lmsysorg @deepseek_ai Is there a place where I can find the deployment details, such as P/D sglang start arguments, KV transfer arguments, and configuration settings?

0

4

0

1

697

solrex retweeted

over 1 year ago

🚀 Day 1 of #OpenSourceWeek: FlashMLA Honored to share FlashMLA - our efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences and now in production. ✅ BF16 support ✅ Paged KV cache (block size 64) ⚡ 3000 GB/s memory-bound & 580 TFLOPS compute-bound on H800 🔗 Explore on GitHub: https://t.co/4JvJTn5HX2

553

10K

1K

2K

2M

Who to follow

Software developer, electronic hobbyist. https://t.co/ALqdMIFUgV, https://t.co/N2lhKJEyvU

INTJ，射手。欲望越纯粹，生活越简单。

https://t.co/tuJngGyMqX

over 1 year ago

原来是官方算错了，补充了一个从 safetensors 文件中提取参数 shape 和分层统计的脚本。 https://t.co/pSfp2UsmFQ

over 1 year ago

仔细计算了一下 DeepSeek V3 的参数量，还是了解到一些PR文章没提到的细节，比如前3层dense MLP的参数规模其实相当于9个专家。 https://t.co/djmbHYRHQi 另外，激活参数我计算是37.5B，官方给的是36.7B，不知道哪里算错了？

0

0

0

0

307

1

0

0

0

154

over 1 year ago

@fxtrader 你要想开个窗，你必须说我要把房顶掀了。

0

0

0

0

863

over 1 year ago

DeepSeek 这次是真出圈了，像ChatGPT历史场景再现：在线聊天服务饱和，溢出的用户寻求云厂商提供的私有化部署，云厂商也纷纷饱和。好奇这次1亿月活需要多久？

0

0

0

0

146

over 1 year ago

3D打印一个羽毛球拍的挂架，还蛮好看的，有高级感。

solrex's tweet photo. 3D打印一个羽毛球拍的挂架，还蛮好看的，有高级感。 https://t.co/X4Oymfr8iX

1

1

0

0

429

over 1 year ago

仔细计算了一下 DeepSeek V3 的参数量，还是了解到一些PR文章没提到的细节，比如前3层dense MLP的参数规模其实相当于9个专家。 https://t.co/djmbHYRHQi 另外，激活参数我计算是37.5B，官方给的是36.7B，不知道哪里算错了？

0

0

0

0

307

solrex retweeted

Eric Xu (e/Mettā)

over 1 year ago

说来话长原因很多我“局部观察”的原因是被一个真的想帮忙但水平一般的投资方给影响了从 AI 切换到了区块链但如人饮水创业不易选择都是事后才知道结果请不要解读为对此公司或者创业者的批评时间回到2017年。我已经把 https://t.co/YbiX5ePpyv 公司卖掉加入 Reddit 了，在硅谷听说又有一组人要来搞 AI 写代码就在旧金山市区约了聊了一下当时就是 Illia 和他的共同创始人 Alex. 其中 Alex 是 ACM 竞赛世界级选手，Illia 是 Google Research Transformer 团队的训练集群 TL. 我原原本本地告诉他们我遇到的问题，RNN 训练的挑战语言模型往上做的基础设施上的挑战等等包括企业用户提的反馈当时虽然 Illia 是 Transformer 的共同作者我记得在那场谈话里我们都没有提到要用 decoder only transformer 去做语言模型（即 GPT 的思路）。我们都是沿着只用代码训练语言模型或者用 Stackoverflow 训练英语到 snippet 模型。或者用向量提取做 snippet 查询（当时还没有 RAG 这个概念）然后我引荐了几个我当时谈的投资人其中就有他们后来签的第一个投资人（名字略去）。那个投资人既投资了 AI 代码生成方向 , 又投资了 dApp 于是他们的公司 https://t.co/xVpddZ16fm 就开张了。取这个名字是因为大家都相信 AI 写代码不远了就是最后几公里的事情下面的事情就快速变化了：回想起来因为当时的模型，算力，包括思路（先训练英语再用 RL 微调）都没达到，所以明知道就那一座山但是所有人都没能力翻过去。这也是侧面证明 Google 和 OAI 后来的创新是很重要的 Anyway, 当你融了一笔钱训练烧光了一半，被投资追着要“帮你”的时候，你的眼前全是一连串的“如何 pivot”. 在当时区块链的风气下用 AI 写 contract 就成了下一个转进点。这不是我瞎编了相同的投资人给我相同的建议只不过我比较固执没采纳而已所以后来 Near 团队就去看了区块链一看嘿公链性能太差还得先 yak shave 一下下面的就是历史了硅谷都是这样一个个故事组成的做事情，碰机会。英雄不论出处事前不必担心对错

4

120

15

54

36K

over 1 year ago

3. 估算 MoE 的总参数规模大概是 656B，如果 EP32 那就是 20.5B，EP64 是 10.25 B，其余参数 15B 粗算按 TP4（不考虑MLA dup）是 3.75B。那 A800 BF16 精度下 TP4+EP32 大概单卡显存需要 48.5G，略多，但可能也能跑？

0

0

0

0

59

over 1 year ago

全TP性能一般，最优方案难度太高，有没有中间路线？

solrex's tweet photo. 全TP性能一般，最优方案难度太高，有没有中间路线？ https://t.co/Wagk12Dn9d

1

0

0

0

146

over 1 year ago

2. DP 引入的主要原因是 TP 和 EP 对齐时候的浪费问题：全 TP32 通信开销比较大，而且 MLA 做 TP 本来就有浪费；如果参照技术报告用大 EP 和小 TP，的确会更好，那就会引入 EP32 和 TP4 不匹配问题，所以才要做 DP8。

1

0

0

0

74

over 1 year ago

除了惊叹其成本和效果之外，还要看到 DeepSeek V3 在 AI 大模型架构上更复杂和精巧的设计。未来大模型架构将会需要更多有复杂工程架构经验的工程师，去应对日益精巧的系统设计。 https://t.co/gklVGZ9Vbv

0

0

0

0

182

over 1 year ago

试了很多AI，没一个能帮我正确地配置一个基于strongswan的IKEv2的VPN，使它能够在所有场景下work。包括以下各种情况的组合：客户端mac、iPhone、Android高低版本、Windows高低版本，网络ipv4、ipv6，通过nat、不通过。甚至错误日志AI都分析不出来原因，当然我也不行，只是偶尔能试出来。

1

1

0

0

385

over 1 year ago

这款电动螺丝刀原装纸盒只能容纳机身，放不下批头。为了取用方便，自己建模设计了一个盒子。跟着B站学习了一体成型的铰链设计，盒子打印出来直接能转动合上。自己研究了 fusion 360中对两个实体求差的方法（居然是藏在“合体”命令的裁剪操作），实现了内卡扣和两边限位。

solrex's tweet photo. 这款电动螺丝刀原装纸盒只能容纳机身，放不下批头。为了取用方便，自己建模设计了一个盒子。

跟着B站学习了一体成型的铰链设计，盒子打印出来直接能转动合上。

自己研究了 fusion 360中对两个实体求差的方法（居然是藏在“合体”命令的裁剪操作），实现了内卡扣和两边限位。 https://t.co/YzlgG2nOqR

0

1

0

0

264

over 1 year ago

一个新认知：有些人虽然自诩为长期主义者，但可能有着高认知闭合需要，导致所有的决策都是跟随着短期目标而动。 https://t.co/9aEvz12O2G

0

0

0

0

93

over 1 year ago

现在的模型也太大了，600多G，光下载模型得半天。有没有专门发布大模型torrent的网站？

0

0

0

0

135

solrex retweeted

Ozan the otter @kroleterya

almost 7 years ago

@HillaryClinton No please. Last time you stand with solidarity with others, Libya, Syria, Iraq, Yemen... all of them burned to the ground.

1K

14K

857

24

0

Last Seen Users on Sotwe

Trends for you

Most Popular Users