seaslee

@seaslee

欢歌将代替了悲叹，笑脸将代替了哭脸. 乐观派

Jinan,China

Joined December 2009

198 Following

23 Followers

293 Posts

seaslee retweeted

🐈🐈🐈 @200kgdollar

4 months ago

Z-Library域名经常变更，假冒的很多。对于域名变更，只需要记住网址: https://t.co/TPMDjH1zV8 每次会自动定位到新网址，re可理解为return。分辨Z-Library域名真假：如 https://t.co/1xlqcwNFr7 都存一个API接口/eapi/info 访问 https://t.co/wmJio1H8cV 可以得到如下图的JSON文件，假的没有。

200kgdollar's tweet photo. Z-Library域名经常变更，假冒的很多。
对于域名变更，只需要记住网址: https://t.co/TPMDjH1zV8
每次会自动定位到新网址，re可理解为return。
分辨Z-Library域名真假：如 https://t.co/1xlqcwNFr7 都存一个API接口/eapi/info 访问 https://t.co/wmJio1H8cV 可以得到如下图的JSON文件，假的没有。 https://t.co/TaCFQmqHxQ

seaslee retweeted

yibie

@yibie

28 days ago

训练小模型：2026 年最被低估的 AI 技能 2026 年 5 月 11 日，一个叫 CJ Zafir 的人发了一条推文。他想教普通人 fine-tune 开源模型。 2538 个赞，316 次转发，178,000 次观看。这条推文炸了。不是因为他发明了什么新东西——Unsloth 早在 2023 年就开源了，Hugging Face 上的 fine-tuning 教程有几百篇。炸了是因为他在一个所有 AI 公司都在比赛造「更大模型」的时候，反手指向了完全相反的方向：小模型。你自己训练的。在 Colab 上。花几十美元。两个月过去了。CJ 没有停。他把这条推文变成了一套完整的方法论：Codex 5.5 做大脑规划工作流，DeepSeek v4 Pro 做肌肉批量生成数据，Unsloth 做训练引擎，Qwen 3.5 4B 做基座模型。然后他用这套方法论，花了 $173 训练出一个 4B 模型，在垂直任务上精度 96%+，击败了 20 倍大的模型。再后来他做了个 voice agent 的工具调用 fine-tune——成本 $11。从 $80 到 $173 到 $11。这不是渐进式优化。这是在重置整个 AI 部署的经济学。一、CJ 方法论：为什么值得认真对待 CJ 不是第一个倡导 fine-tuning 的人。但他做对了一件事：他把整个流程的成本打到了个人开发者可以承受的水平，并且公开了每一步。工具链 | 角色 | 工具 | 成本 | |------|------|------| | 规划（Orchestrator） | Codex 5.5 | 订阅内 | | 数据生成（Generator） | DeepSeek v4 Pro | API 按量 | | 训练框架 | Unsloth | 免费开源 | | 训练硬件 | Google Colab Pro A100 80GB | ~$0.60/hr | | 推理部署 | llama.cpp / Ollama | 免费 | 数据流水线 CJ 最核心的洞察不是「用什么工具」，而是「怎么造数据」：「"Low quality data = Low quality model performance"」他的流水线是自进化的：Codex 设计工作流 → DeepSeek 批量生成数据行 → 每批次过 Quality Gates → Codex 根据上一批结果优化生成规格。结果是越跑越快、越便宜、质量越高。 $80 生成了 1 亿+参数的高质量数据集。不是简单 paraphrase，是「手工打造」每一行——Codex 设计的多样化 prompt 模板 + DeepSeek 的高速执行 + 可编程的质量门槛。模型选择 CJ 实测了 Gemma 4 和 Qwen 3.5 全系列后，结论很明确：「Qwen 3.5 9B 和 4B 是垂直训练的完美基座模型。Gemma 4 在垂直任务上不及 Qwen 3.5。」他的 Qwen 3.5 4B fine-tune 在精度和延迟上击败了 20 倍大的模型。不是什么小众 benchmark——是他自己在垂直任务上实测的结果。二、这不是 CJ 一个人的实验——行业数据在同时发声 CJ 的方法论看起来像「个人黑客技巧」，但独立的数据正在从各个方向验证同一个趋势。市场规模 SLM（Small Language Model，1B-13B 参数）市场 2024 年达到 65 亿美元，年复合增长率 25.7%。SLM 在大多数企业任务上已经匹配或超过 GPT-3.5 级别性能，只需一小部分成本。性能阿里巴巴的 Qwen 3.5 9B 在 MMLU-Pro、GPQA Diamond 和 multilingual MMMLU 三个基准上击败了 OpenAI 的 gpt-oss-120B——13 倍参数差距，小模型胜。另一项独立的 brand normalization 案例中，一个小模型达到了 90.6% 准确率，超越了 GPT-5.2 和 Gemini 3 Pro。企业已经在省钱——真正的省钱 | 公司 | 方案 | 效果 | |------|------|------| | Knowunity | 用 Distil Labs fine-tune SLM | 推理成本降 68% | | 某客服 agent | 从通用大模型切换到 fine-tuned SLM | 月成本从 $13,000 降到 $400 | | EliseAI | 专门训练的垂直小模型用于住房和医疗 | 推理成本降 60%，延迟降 80% | | AT&T | 专用 SLM 做客服和欺诈检测 | 数百万美元节省 | 400 美元一个月。一个客服 agent。这是几个工程师的年收入可以覆盖无限次 API 调用的部署方案。三、「数据集工厂」才是真正的护城河 CJ 在 5 月 22 日发了一条推文，八个词：「"The moat might not be the fine-tune itself. It might be the dataset factory."」这是整个小模型运动最重要的洞察。Fine-tuning 技能本身正在被民主化——Unsloth 已经能在 3GB VRAM 上训练，Colab 免费提供 GPU，CJ 连 prompt 模板都公开了。当人人都能做 fine-tune 的时候，差异化从「会不会做」转移到了「数据从哪里来」。中文社区的 AKIRAXCLAW 在一篇分析里补了一个关键观察：「「CJ 的工作流在 2026 年多数是业界共识，但真正难点不是工具——而是你有没有 200 笔干净数据 + 自动评估脚本。」」在 CJ 的体系里，Codex 的核心角色是 orchestrator，不是因为它比 DeepSeek 聪明，而是因为它能设计数据流水线、构建 Quality Gates、自进化优化生成规格——它在管理数据生产的质量系统，而不仅仅是生产数据。四、从边缘到生产线：部署已经在发生 SLM fine-tune 的部署门槛已经降到消费级硬件。Unsloth 2.0 支持 GGUF 量化导出 + llama.cpp / Ollama 部署。一个 3B 参数量化到 INT4 后占用 1.5-2GB 内存，可以在树莓派 5 上运行。Qwen 3-0.6B 在 Pixel 8 和 iPhone 15 Pro 上实现约 40 tokens/s 推理。 2024 年你可能需要一台 A100 才能跑 fine-tune。2026 年你可以在 Colab 上训练、在手机上推理。这种从「数据中心才能碰」到「个人设备上运行」的变化，是 Platform Shift 级别的。而 NVIDIA 在推动的「Data Flywheel Blueprint」——用生产流量持续生成训练数据，自动 fine-tune，自动部署——正在把这个流程变成企业基础设施。NVInfo AI 用这个方案在三个月内把内部知识助手的质量提升到覆盖 30,000 名员工。五、成本轨迹：从「公司预算」到「午饭钱」 CJ 的公开成本记录是最好的注脚： | 日期 | 项目 | 成本 | |------|------|------| | 05-13 | 1 亿+参数数据集生成 | ~$80 | | 05-27 | Qwen 3.5 4B 完整 fine-tune | ~$173 | | 05-28 | Qwen 3.5 tool calling for voice agent | $11 | $11。这在硅谷大概是一顿午饭。在印度、东南亚、非洲，是一个独立开发者完全负担得起的预算。fine-tune 已经从「大公司才有资格做的研发项目」变成了「个人开发者用午休时间能完成的 side project」。六、结论：学会训练你的第一个模型 CJ 给的学习路线图异常简单： 1. 从 1B-4B 小模型开始，不要一上来就搞大模型 2. 用 Colab Pro（A100 ≈ $0.60/hr），不要急着买 GPU 3. 先 fine-tune 7-10 个模型积累经验（SFT → LoRA/QLoRA → GRPO/DPO） 4. 用 Codex 做规划，DeepSeek 做数据生成 5. 理解量化（GGUF）、本地推理（llama.cpp）、KV 缓存他甚至在 5 月 23 日直接发布了一个「复制粘贴就能用」的 prompt——把整个学习路径封装成一段对话，扔进 Codex 或 ChatGPT，让 AI 带你从 beginner 到 advanced。这就是 2026 年 AI 技能民主化的真实面貌：不是每个人都需要学会训练模型。但学会训练小模型的人，不再需要 10 人团队和 10 万美元预算。通用大模型的军备竞赛还在继续。GPT-5、Claude Opus 5、Gemini 3 会越来越强。但越来越多的真实场景正在证明：一个花了 $173 训练的 4B 小模型，在你自己的数据上，比你花 $200/月订阅的通用大模型更好用。不是因为小模型更聪明。是因为它只做了你需要的那一件事。参考来源：CJ Zafir X 推文系列 (2026.05.11-05.28)；AKIRAXCLAW 中文分析；Alibaba Qwen 3.5 benchmark (VentureBeat)；Unsloth 2.0 文档；NVIDIA Data Flywheel Blueprint；AT&T / EliseAI / Knowunity / https://t.co/7r0fApoHPJ 企业案例；Manicode / Arendil 独立 benchmark；SLM Market Report 2024-2026

346

98K

seaslee retweeted

铁锤人

@lxfater

about 2 months ago

谷歌 Gemini 团队主管 Addy Osmani也开始编程Skill了他把资深工程师多年积累的工作流程和开发规范，整理成一套标准化的技能库，让 AI 编程助手在写代码的每个环节都能按照统一的高标准来执行。你可以理解为，它给 AI 配了一本老工程师的操作手册这种workflow还是值得学习的 https://t.co/zFHaUClTkM

238

103K

seaslee retweeted

will brown

@willccbb

about 2 months ago

https://t.co/gCIFKAjB0Z

265

487K

Who to follow

Aeolus Qian

@aeolusariel

對不起自己的人，永遠對不起他人。你從來都不曾離去。

snow

@flyinn2000

生于魔都,混于魔都.家已被拆,无家可归的一个魔都土人.

seaslee retweeted

2 months ago

MIT一招，直接把AI巨头过去5年的百亿“上下文窗口军备竞赛”打成笑话！所有大模型最头疼的“Context Rot”（上下文腐烂）终于被干掉了！ MIT CSAIL三位研究员刚放出的RLM（Recursive Language Models）直接把规则改了： ✅ 超长文档不再塞进AI窗口，而是以外部Python变量存着 ✅ AI像顶尖程序员一样写代码：正则搜索、结构导航、精准切片 ✅ 需要哪块就只拉哪块，读完后递归生成子AI并行分析，再主AI合成答案 ✅ 无总结、无丢失、无性能衰减实测结果炸裂： • 最难的长上下文基准上，传统前沿模型接近0分 • RLM直接双位数百分比提升 • 可处理1000万token（主流模型原生窗口的100倍！） • 成本甚至更低代码已开源，GitHub一键替换现有LLM调用，零改动就能支持以前完全不可能的超长任务。上下文窗口战争？结束了。 MIT不是把窗口做更大，而是直接走出了战场。这才是2026年真正的具身智能/长期Agent杀手级方案。（原论文+完整代码已附👇）

berryxia's tweet photo. MIT一招，直接把AI巨头过去5年的百亿“上下文窗口军备竞赛”打成笑话！

所有大模型最头疼的“Context Rot”（上下文腐烂）终于被干掉了！

MIT CSAIL三位研究员刚放出的RLM（Recursive Language Models）直接把规则改了：

✅ 超长文档不再塞进AI窗口，而是以外部Python变量存着

✅ AI像顶尖程序员一样写代码：正则搜索、结构导航、精准切片

✅ 需要哪块就只拉哪块，读完后递归生成子AI并行分析，再主AI合成答案

✅ 无总结、无丢失、无性能衰减
实测结果炸裂：

• 最难的长上下文基准上，传统前沿模型接近0分

• RLM直接双位数百分比提升
• 可处理1000万token（主流模型原生窗口的100倍！）

• 成本甚至更低

代码已开源，GitHub一键替换现有LLM调用，零改动就能支持以前完全不可能的超长任务。

上下文窗口战争？结束了。

MIT不是把窗口做更大，而是直接走出了战场。
这才是2026年真正的具身智能/长期Agent杀手级方案。

（原论文+完整代码已附👇）

501

119

764

102K

seaslee retweeted

Cameron R. Wolfe, Ph.D.

@cwolferesearch

2 months ago

Currently doing a write up on scaling laws for RL. Here are the papers I'm covering so far: 1. The Art of Scaling Reinforcement Learning Compute for LLMs (https://t.co/PGjI6Gwgv0) 2. Scaling Behaviors of LLM Reinforcement Learning Post-Training (https://t.co/2u2saB3C0h) 3. Optimally Scaling Sampling Compute for LLM RL (https://t.co/rUSdUvJyNH) What am I missing? Please share other papers I should include!

cwolferesearch's tweet photo. Currently doing a write up on scaling laws for RL. Here are the papers I'm covering so far:

1. The Art of Scaling Reinforcement Learning Compute for LLMs (https://t.co/PGjI6Gwgv0)
2. Scaling Behaviors of LLM Reinforcement Learning Post-Training (https://t.co/2u2saB3C0h)
3. Optimally Scaling Sampling Compute for LLM RL (https://t.co/rUSdUvJyNH)

What am I missing? Please share other papers I should include!

294

306

43K

seaslee retweeted

思维怪怪

@0xLogicrw

3 months ago

前 Hugging Face 技术负责人、现谷歌 DeepMind 资深工程师 Philipp Schmid 对比了近期三篇 Agent 模型技术报告后发现，月之暗面（Kimi K2.5）、AI 编程工具 Cursor（Composer 2）和向量数据库公司 Chroma（Context-1）虽然各自独立开发，但强化学习的方法论几乎一模一样。四个共同点： 1. 从强基座模型出发，不从零训练：月之暗面扩展Kimi K2，Cursor以Kimi K2.5（1万亿参数/320亿活跃MoE）为基座，Chroma基于gpt-oss-20B 2. 在生产级环境中训练：三个团队均用与线上一致的工具链和执行环境跑RL rollout 3. 基于可验证结果的奖励信号，辅以生成式奖励模型（GRM）处理开放式任务 4. 异步大规模并行生成训练轨迹三家各自的创新点不同： Kimi K2.5 的 Agent Swarm 通过 RL 让模型学会将任务动态拆解为并行子任务，由可训练的编排器调度冻结的子 Agent 执行，在 BrowseComp 基准上以 78.4% 超过 GPT-5.2 Pro 的 77.9%，推理延迟降低最多 4.5 倍。 Cursor 的 Composer 2 用自动摘要机制应对长编码会话的上下文膨胀，并从生产流量中实时提取 RL 训练信号，整个循环约 5 小时，每天可部署多个新版本。 Chroma 的 Context-1 是一个 200 亿参数的搜索 Agent，核心技巧是「自编辑上下文」，模型学会主动丢弃无关检索结果以腾出空间继续搜索，在检索任务上以远低于前沿模型的成本和约 10 倍的速度达到可比精度。 Schmid 还注意到，三个团队都经历了反复的奖励黑客修复周期。Cursor 的模型学会了发送格式错误的工具调用来规避惩罚，Kimi 的编排器会退化为串行执行或刷并行奖励却不拆分真实任务，Chroma 的 Agent 则收敛为「搜一次就停」。每种退化行为都需要针对性地调整奖励函数。

221

269

55K

seaslee retweeted

Sai Surya Duvvuri

@dvsaisurya

4 months ago

Excited to share LUCID — a new attention mechanism that improves retrieval and reasoning in long-context LLMs! [1/9]🧵 Here's how it works:

dvsaisurya's tweet photo. Excited to share LUCID — a new attention mechanism that improves retrieval and reasoning in long-context LLMs!

[1/9]🧵 Here's how it works:

442

385

127K

seaslee retweeted

Robert Youssef

@rryssf

4 months ago

Stanford and Caltech researchers just published the first comprehensive taxonomy of how llms fail at reasoning not a list of cherry-picked gotchas. a 2-axis framework that finally lets you compare failure modes across tasks instead of treating each one as a random anecdote the findings are uncomfortable

rryssf's tweet photo. Stanford and Caltech researchers just published the first comprehensive taxonomy of how llms fail at reasoning

not a list of cherry-picked gotchas. a 2-axis framework that finally lets you compare failure modes across tasks instead of treating each one as a random anecdote

the findings are uncomfortable

338

124K

seaslee retweeted

Gauri Tripathi

@Gauri_the_great

6 months ago

Let's get into the depth of why Let's take Qwen 2.5 (32B parameters) running in BF16 on a single NVIDIA A100 80 GB (SXM) GPU. --> Parameters: 32B --> BF16 storage: 32×2=64 ; 64 GB --> GPU memory: 80 GB --> Free memory: 80−64=16 GB perfect right ? No 1. There are two major bottlenecks in LLM inference: a. Memory capacity & memory bandwidth b. Compute throughput 2. The generation process primarily has two stages: a. Prefill --> It computes single forward pass over the entire prompt and is compute bound. --> Dominated by matrix multiplications and attention Time to first token (TTFT) b. Decoding This is the phase where token by token generation happens. It's memory bandwidth bound and dominated by loading model weights repeatedly. 3. For A100 80 GB SXM: BF16 peak compute: ~312 TFLOPS HBM2e bandwidth: ~2,039 GB/s To fully utilize compute, the GPU must perform: 2,039 (GB/s)/312 TFLOPS ~~ 153 FLOPs per byte If your workload performs fewer than ~153 math operations per byte loaded, the GPU is memory bound and compute units idle. 4. During token by token generation GPU must load almost the entire model for every token, The model cannot stay on chip L2 cache (~40 MB) is far too small for a ~65 GB model. The decoding speed for this model is ~ 31 token/sec. *(This is an upper bound, real systems are usually slower due to kernel inefficiencies and synchronization.) 5. Qwen takes around ~0.7–0.8 ms(1.55GB/2035 GB/s) minimum latency. with GQA we will need kv cache 262 KB/token. 6. Single sequence KV cache: 2K context → 1.34 GB 8K context → 5.37 GB 32K context → 21.5 GB 131K context → 85.9 GB --> At long context, KV cache > model size. --> Parameter count becomes almost irrelevant. You can look at the config : https://t.co/hiXH1Yvnqt *(Because real inference engines upcast and pad the KV cache (FP32 + paging/workspaces), so the actual memory moved per token is ~2–2.5× the theoretical 262 KB/token.) 7. Total A100 80GB HBM: 80 GB Usable (95%): 76 GB Model Weights: 65 GB Remaining for KV Cache: 11 GB Maximum supported: - At 2K context: ~8 concurrent sequences - At 8K context: ~2 concurrent sequences - At 32K context: Unable to serve on single GPU 8. Prefill is compute bound and quadratic attention scaling means longer contexts dramatically increase time to first token. Although Qwen 2.5 32B fits in 80 GB by parameter count (65 GB), decoding each token streams ~66–86 GB from HBM, costing ~46–61 ms while compute takes <0.3 ms simultaneously, the KV cache grows from ~1.34 GB at 2K to ~85.9 GB at 131K context, collapsing batching therefore inference latency and cost are determined by memory bandwidth, KV cache growth, and context length, not parameter count.

Gauri_the_great's tweet photo. Let's get into the depth of why

Let's take Qwen 2.5 (32B parameters) running in BF16 on a single NVIDIA A100 80 GB (SXM) GPU.

--> Parameters: 32B
--> BF16 storage: 32×2=64 ; 64 GB
--> GPU memory: 80 GB
--> Free memory: 80−64=16 GB
perfect right ?
No

1. There are two major bottlenecks in LLM inference:
a. Memory capacity & memory bandwidth
b. Compute throughput

2. The generation process primarily has two stages:
a. Prefill
--> It computes single forward pass over the entire prompt and is compute bound.
--> Dominated by matrix multiplications and attention
Time to first token (TTFT)

b. Decoding
This is the phase where token by token generation happens. It's memory bandwidth bound and dominated by loading model weights repeatedly.

3. For A100 80 GB SXM:
BF16 peak compute: ~312 TFLOPS
HBM2e bandwidth: ~2,039 GB/s
To fully utilize compute, the GPU must perform:
2,039 (GB/s)/312 TFLOPS ~~ 153 FLOPs per byte

If your workload performs fewer than ~153 math operations per byte loaded, the GPU is memory bound and compute units idle.

4. During token by token generation GPU must load almost the entire model for every token, The model cannot stay on chip L2 cache (~40 MB) is far too small for a ~65 GB model. The decoding speed for this model is ~ 31 token/sec. *(This is an upper bound, real systems are usually slower due to kernel inefficiencies and synchronization.)

5. Qwen takes around ~0.7–0.8 ms(1.55GB/2035 GB/s) minimum latency.
with GQA we will need kv cache 262 KB/token.

6. Single sequence KV cache:
2K context → 1.34 GB
8K context → 5.37 GB
32K context → 21.5 GB
131K context → 85.9 GB

--> At long context, KV cache > model size.
--> Parameter count becomes almost irrelevant.

You can look at the config : https://t.co/hiXH1Yvnqt
*(Because real inference engines upcast and pad the KV cache (FP32 + paging/workspaces), so the actual memory moved per token is ~2–2.5× the theoretical 262 KB/token.)

7. Total A100 80GB HBM: 80 GB
Usable (95%): 76 GB
Model Weights: 65 GB
Remaining for KV Cache: 11 GB

Maximum supported:
- At 2K context: ~8 concurrent sequences
- At 8K context: ~2 concurrent sequences
- At 32K context: Unable to serve on single GPU

8. Prefill is compute bound and quadratic attention scaling means longer contexts dramatically increase time to first token.

Although Qwen 2.5 32B fits in 80 GB by parameter count (65 GB), decoding each token streams ~66–86 GB from HBM, costing ~46–61 ms while compute takes <0.3 ms
simultaneously, the KV cache grows from ~1.34 GB at 2K to ~85.9 GB at 131K context, collapsing batching therefore inference latency and cost are determined by memory bandwidth, KV cache growth, and context length, not parameter count.

856

779

88K

seaslee retweeted

Y11

@seclink

6 months ago

推荐一些在Twitter（X）中文圈关注AI领域的优秀账号： @lidangzzz - 立党老师，专注于为年轻人提供人生避坑指南，注重身心健康，长期关注受益匪浅。 @vista8 - 向阳乔木老师，专注LLM技术研究和推广，每天坚持冷水澡的产品经理。博客地址：https://t.co/WjfdJ3CR2T @dotey - 宝玉老师，专注于翻译LLM精品课程、Prompt学习和AI一手资讯。博客地址：https://t.co/o3JvcldAXt @xiaohu - 小互，前微博大V，如今在Twitter上每天更新大量AI新闻和工具资讯。更多内容：https://t.co/i8iQzpWN1f @xicilion - 西祠胡同创始人响马，分享LLM实战干货，但会定期删帖。 @WaytoAGI - 中文AI知识宝库，整理了大量AI相关资讯，帮助开拓眼界。 @hanqing_me - 汗青，AI Talk创始人，AI短视频制作先行者，探索AI技术与艺术的结合。 @jesselaunz - 遁一子，关注AI资讯和实践，分享Prompt探索经验。 @lewangx - 王乐，独立创业者，探索AI与硬件玩具的结合。 @JefferyTatsuya - 旅日华人AI创业者，推出过Glarity、Felo等口碑应用。 @FinanceYF5 - Will，AI资讯分享者，整理了许多AI行业数据信息。 @oran_ge - 橘子，AI行业产品经理，分享坦诚有趣的见解。 @99aico - Youtuber，分享AI资讯，体验各种AI数字人产品。 @fuxiangPro - 自律博主，专注AI与机器人结合的探索。 @mranti - Michael Anti（安替），资深国际事务记者，关注AI驱动的全球化研究。如有遗漏，欢迎大家推荐或自荐！

seclink's tweet photo. 推荐一些在Twitter（X）中文圈关注AI领域的优秀账号：

@lidangzzz
- 立党老师，专注于为年轻人提供人生避坑指南，注重身心健康，长期关注受益匪浅。

@vista8
- 向阳乔木老师，专注LLM技术研究和推广，每天坚持冷水澡的产品经理。博客地址：https://t.co/WjfdJ3CR2T

@dotey
- 宝玉老师，专注于翻译LLM精品课程、Prompt学习和AI一手资讯。博客地址：https://t.co/o3JvcldAXt

@xiaohu
- 小互，前微博大V，如今在Twitter上每天更新大量AI新闻和工具资讯。更多内容：https://t.co/i8iQzpWN1f

@xicilion
- 西祠胡同创始人响马，分享LLM实战干货，但会定期删帖。

@WaytoAGI
- 中文AI知识宝库，整理了大量AI相关资讯，帮助开拓眼界。

@hanqing_me - 汗青，AI Talk创始人，AI短视频制作先行者，探索AI技术与艺术的结合。

@jesselaunz
- 遁一子，关注AI资讯和实践，分享Prompt探索经验。

@lewangx
- 王乐，独立创业者，探索AI与硬件玩具的结合。

@JefferyTatsuya
- 旅日华人AI创业者，推出过Glarity、Felo等口碑应用。

@FinanceYF5
- Will，AI资讯分享者，整理了许多AI行业数据信息。

@oran_ge
- 橘子，AI行业产品经理，分享坦诚有趣的见解。

@99aico
- Youtuber，分享AI资讯，体验各种AI数字人产品。

@fuxiangPro
- 自律博主，专注AI与机器人结合的探索。

@mranti
- Michael Anti（安替），资深国际事务记者，关注AI驱动的全球化研究。

如有遗漏，欢迎大家推荐或自荐！

100

261

279K

seaslee retweeted

奥一AoYi

@Aoyi21

6 months ago

看完Notion创始人的这篇文章，我意识到这是聪明人拉开差距最好的时代了他也提到要给自己的能力 x10 ，要解决两个核心的问题 --- 文章里面有个细节让我停了很久：他的联合创始人Simon，原本是传说中的"10倍工程师" 但现在，Simon很少亲自写代码了他做的事是—— 同时指挥三四个AI编程智能体它们不仅打字更快，它们在思考。这让Simon变成了"30倍甚至40倍"的工程师他在睡觉的时候，AI还在替他干活。 --- 过去二十年，知识工作者的杠杆在哪？在平台进大厂 → 大平台 → 大杠杆 → 高收入你能赚多少，核心不在于你多努力，而在于你背后有没有一个足够大的系统在帮你放大产出。但现在，杠杆正在换手那些会用AI的人，已经拿到了自己的杠杆不是AI取代人，而是会用AI的人取代不会用的人 --- Notion创始人用了一个比喻：乔布斯说「电脑是大脑的自行车」后来我们有了互联网——"信息高速公路" 但直到今天，大多数知识工作依然是人力驱动的。我们正费力地蹬着自行车，行驶在德国无限速高速公路上。 AI智能体的出现，意味着有人已经从骑自行车升级到开汽车了 --- 那普通人怎么拿到这个杠杆？ Notion创始人说，需要解决两个问题。我把它翻译成能用的语言：第一，你得有自己的"上下文" 程序员之所以能这么快用上AI，是因为他们的工具和语境集中在一个地方：代码仓库、IDE、终端。但普通的知识工作分散在几十个工具里。所以，如果你想早一点拿到这个杠杆—— 从今天开始，有意识地把你的知识、经验、工作流程沉淀下来。写给谁看？写给未来的AI助手看我一个不爱复盘的P人也开始每天给自己写流水账了 --- 第二，你得有自己的"判断力" 代码可以被验证——跑一遍就知道对不对但"项目管理得好不好""战略备忘录优不优秀" AI目前判断不了所以你要能判断AI产出的东西好不好这个判断力，才是你真正不可替代的东西 --- 但这里还有更深一层：原文说了一句话：「拥有"人在回路中"并不总是理想的，这就像让人去亲自检查流水线上的每一个螺栓」判断力不是用来"盯着每一个产出"的如果你每次让AI写个东西，都要逐字检查——你就变成了"人肉质检员"，反而拖慢了整个系统判断力的正确用法： 1. 定义清楚"什么是好的" 2. 把这个标准教给AI 3. 只在关键节点做抽查这就是"定标准 + 抽查"，而不是"盯着干" --- 所以，下次你打开ChatGPT/Claude/任何AI工具的时候，问自己一个问题：我现在是在"用它当水车"，还是"用它当蒸汽机" "水车"是什么意思工业革命初期，蒸汽机出现了，但工厂主只是把蒸汽机装在原来水车的位置上——其他一切照旧生产力提升非常有限真正的爆发，发生在他们意识到可以「脱离水」——围绕蒸汽机重新设计工厂我们今天用AI问问题、改文案，这就是"替换水车" 还没有到重新设计工作的阶段。 --- 最后，三个可以现在就做的事： 1. 把你的知识、流程、SOP沉淀成文档，让AI能读懂 2. 建立你对"什么是好产出"的判断力——这是你不可替代的部分 3. 问自己：我是在"盯着干"，还是在"定标准"？如果你一直在盯着干，说明你还在用「人肉质检」的模式如果你在定标准、教AI、抽查迭代——你才是真正拿到了这个杠杆 --- 杠杆已经换手了那些先意识到这件事的人，已经在用汽车跑高速了。你呢？

281

233K

seaslee retweeted

yan5xu

@yan5xu

6 months ago

强烈推荐读一下这篇文章我自己做了些整理作者是北大 Linian Wang。文章讲的是把 Kimi K2 适配到 vLLM 的过程中，遇到一个很反直觉的现象：同一个模型，在官方 API 上 tool calling 几乎不出错，但换到 vLLM 上就一塌糊涂。然后作者一步步定位原因、推动修复。我觉得它最值得看的点，其实不是“Kimi/K2/vLLM”上，而是通过这个过程可以把大模型 API 的底层逻辑理解清楚：大模型 API 的本质：把请求“展开成 Prompt（Token 序列）”，然后做补全（completion）。所谓 chatbot、tool calling / function calling，本质都是在这个过程上做工程封装。一切都可以拆回成：Render → Completion → Parse 现在 Chat Completions（以及 function call / tool calling）看起来是这种“结构化请求”： - messages：system/user/assistant 多轮（也包含 tool_calls 与 tool 的返回） - tools / functions：工具定义 - tool calling 的模式/约束：tool_choice、parallel tool calls 等 - 采样/停止参数：temperature、stop、max_tokens… 但在模型真正开始预测下一个 token 之前，这些东西都会被系统按照下面的过程处理： (A) 展开（render）→ 得到最终 Prompt（文本/Token 序列） (B) 补全（completion）→ 模型续写下一段 Token (C) 解析（parse）→ 把续写还原成 assistant 文本 / tool_calls 等结构化结果所以其实可以这么理解： - Chat Completions ≈ Completions +（A：自动把 messages 渲染成 prompt）+（C：把输出再解释回消息结构） - Chat + tool calling ≈ Chat +（C：把“特定格式的补全”解析成 tool_calls，并做 schema 校验/护栏）重点：Chat / Function Call 不是模型多了一种全新能力，而是服务端把 prompt 构造与输出解析自动化了；模型层面依旧是在做下一段 token 的补全。文章里出现的 bug 基本都发生在 A（render）或 C（parse），而不是“模型本身能力不行”。文章里一个非常实用的排障方法： - 不直接用 /v1/chat/completions - 而是在外部手动 apply_chat_template 得到最终 prompt - 再把这个 prompt 丢给更底层的 /v1/completions 这么做的好处是：你能“看到真相”： - 你能检查最终 Prompt 到底长什么样（当然也可以用 echo 回显出来） - 你还能看到模型最原始的补全文本（协议 token 没被上层 parser 二次加工/丢弃）后面很多结论，都靠这一步才定位出来：问题不在“模型不会调工具”，而在 prompt 展开和输出解析存在不兼容或边界问题。三个问题，用更直白的话讲清楚就是展开和解析上出了问题 1) Prompt 末尾少了“现在轮到 assistant 开始输出”的自动补全后缀本来应该用户问一句 → 模型应该立刻按 tool call 的格式进行补全。但因为一个参数没有传递到位，导致实际喂给模型的 prompt 末尾缺了关键的 assistant 回合起始标记 / generation prompt（可以理解为少了一个重要的协议尾巴，相当于没明确告诉模型“轮到你回答了”）。结果就是模型仍然会补全 token，但完全不知道“接下来该干嘛” - 有时像在续写历史对话（没进入回答态） - 有时输出自然语言闲聊 - 有时输出半截结构化但不成形 1) 空内容被错误渲染成，直接把 prompt 污染成噪声某条历史消息 content: '' 就是“空”，本来在 Prompt 也应该就是🈚️啥也不出现。结果实际渲染链路，框架内部为了统一数据结构，把 '' 标准化成类似 [{type: "text", text: ""}] 这样的 list（多模态/富文本体系里很常见）塞到 Prompt 里面。结果就是模型是在对“被污染的上下文”做补全。导致 tool calling 的效果劣化。 3) 模型其实已经“写出了工具调用”，但解析器太严格，把它当异常丢掉了模型已经生成了“看起来就是工具调用”的片段，但是解析器太严格了，当做异常处理掉了。（这里面还有上下文污染导致模型生成格式不对的原因）读完这篇文章最大的收获 1) 一切要还原到“Prompt 补全”这个本质上来理解。虽然这篇文章，是围绕 tool calling 展开的，但它的结论其实适用于所有大模型 API 场景（chat、completion、structured generation……）。不管你是用 chat 还是 function call，本质上都是在做“Prompt 补全”。所以当遇到问题，第一步都要还原到“最终 prompt 是什么样子？”要拿到实际喂给模型的 prompt，甚至不用像文章中这样，拿到协议层的，只用看到你的 API 请求就能判断对不对。另外很多 API 的报错，也可以从“Prompt 补全”这个角度去分析。 2) Tool calling 本质是“强约束 Schema 输出”（甚至可以当 JSON 限定器/结构化生成器用）。从工程角度看，tool calling 更像：让模型按一个强约束的输出协议（schema）去生成结构化片段，然后由服务端解析并执行。一旦你把它理解其本质是“强 schema 生成”，你会发现 tool calling 还能干一件很实用的事： - 你不一定真的要“调用工具”，也可以把它当作 JSON/DSL 的限定器，让模型稳定地产出符合 schema 的结构化结果，再交给下游系统处理。对“强约束生成 / constrained decoding”这个方向感兴趣的话，也推荐顺手看： - XGrammar：偏“把语法/约束编译成高效的 token 级约束”，让解码阶段就不可能走出非法分支 - LLGuidance：偏“用 guidance/约束驱动生成”，把结构化正确性前置到解码过程，而不是生成完再靠 parser 猜测。

857

210

161K

seaslee retweeted

宝玉

@dotey

6 months ago

唐杰 @jietang 是清华大学教授、智谱（GLM 系列模型出自他们家）AI 首席科学家，也是国内最懂大模型的人之一。他刚发了长微博（见评论），谈 2025 年对大模型的感悟。有意思的是，唐杰和 Andrej Karpathy 的观察有不少共鸣，但也有一些不同的侧重点。两个顶级专家的视角放在一起看，能看出更完整的图景。内容比较长，但有句话我要特别放在前面高亮一下： > AI 模型应用的第一性原理不应该是创造新的 App，它的本质是 AGI 替代人类工作，因此研发替代不同工种的 AI 是应用的关键如果你是在做 AI 应用开发，应该反复思考一下这句话：AI 应用的第一性原理不是创造新产品，而是替代人类工作。想清楚这一点，很多事情的优先级就清楚了。唐杰的核心观点有七层逻辑。 --- 第一层：预训练没死，只是不再是唯一主角预训练仍然是让模型掌握世界知识和基础推理能力的根基。更多的数据、更大的参数、更饱和的计算，依然是提升模型智商最高效的办法。这就像还在长身体的孩子，饭量（算力）和营养（数据）必须管够，这是物理规律，没法绕弯。但光有智商不行，现在的模型有个毛病：容易“偏科”。为了刷榜单（Benchmark），很多模型都在针对性地做题，导致在真实复杂的场景下反而不好用。这好比孩子上完九年义务教育（预训练）后，必须把他扔到真实的职场里去实习，去处理那些书本上没有的烂摊子，这才是真本事。所以接下来的重点是“中后训练”（Mid and Post training）。中后训练这两个阶段负责「激活」模型的能力，尤其是长尾场景的对齐能力。什么是长尾场景？就是那些不常见但真实存在的需求。比如帮律师整理某类特殊合同、帮医生分析某种罕见病的影像。这些场景在通用测试集里占比很小，但在真实应用中至关重要。通用 benchmark 一方面评测了模型效果，但也可能让很多模型过拟合。这和 Karpathy 说的「训练在测试集上是一门新艺术」观点一致。大家都在刷榜，但榜单刷了高分不等于能解决真实问题。 --- 第二层：Agent 是从「学生」到「打工人」的跨越唐杰用了个形象的比喻： > 如果没有 Agent 能力，大模型就是个“理论博士”。一个人书读得再多，读到了博士后，如果不能动手解决问题，那也只是知识的容器，产生不了生产力。这个比喻精准。预训练是上课，强化学习是刷题，但这些都还在「学习阶段」。Agent 是让模型真正「干活」的关键，是进入真实世界、产生实际价值的门槛。不同 Agent 环境的泛化和迁移并不容易。你在一个代码环境里训出来的能力，换到浏览器环境就不一定好使。现在最简单的办法，还是不断堆更多环境的数据，针对不同环境做强化学习。以前我们做 Agent，是给模型外挂各种工具。现在的趋势是，直接把使用工具的数据写进模型的“DNA”里去训练。这听起来有点笨，但确实是当下最有效的路径。 Karpathy 也把 Agent 列为今年最重要的变化之一，他以 Claude Code 为例，强调 Agent 要能「住在你电脑里」，调用工具、循环执行、解决复杂问题。 --- 第三层：记忆是刚需，但怎么做还没想清楚唐杰花了不少篇幅讲记忆。他认为，模型要在真实环境中落地，记忆能力是必须的。他把人类记忆分成四层： - 短期记忆，对应前额叶 - 中期记忆，对应海马体 - 长期记忆，分布在大脑皮层 - 人类历史记忆，对应维基百科和史书 AI 也要模仿这个机制，大模型对应的可能是： - Context 窗口 → 短期记忆 - RAG 检索 → 中期记忆 - 模型参数 → 长期记忆一个思路是「压缩记忆」，把重要信息精简后存在 context 里。目前的“超长上下文”只是解决了短期记忆，相当于把它能用的“便签纸”变长了。如果未来 context 窗口足够长，短中长期记忆都有可能实现。但有个更难的问题：怎么更新模型自身的知识？怎么改参数？这还是个未解难题。 --- 第四层：在线学习和自我评估，可能是下一个 Scaling 范式这一段是唐杰观点里最前瞻的部分。现在的模型是“离线”的，训练好就不变了。这有几个问题：模型不能真正自我迭代，重新训练浪费资源，还会丢掉很多交互数据。理想情况是什么？模型能在线学习，边用边学，越用越聪明。但要实现这一点，有个前置条件：模型要知道自己对不对。这就是「自我评估」。如果模型能判断自己的输出质量，哪怕是概率性地判断，它就知道了优化目标，就能自我改进。唐杰认为，构建模型的自我评价机制是个难题，但也可能是下一个 scaling 范式的方向。他用了几个词：continual learning、real time learning、online learning。这和 Karpathy 提到的 RLVR 有一定呼应。RLVR 之所以有效，正是因为有「可验证的奖励」，模型能知道自己对不对。如果这个机制能泛化到更多场景，在线学习就有可能实现。 --- 第五层：AI 应用的第一性原理是「替代工种」这是对我启发最大的一句话： > AI 模型应用的第一性原理不应该是创造新的 App，它的本质是 AGI 替代人类工作，因此研发替代不同工种的 AI 是应用的关键 AI 的本质不是创造新的 App，而是替代人类工作。两条路： 1. 把以前需要人参与的软件 AI 化。 2. 创造对齐人类某个工种的 AI 软件，直接替代人类工作。 Chat 已经部分替代了搜索，同时还融合了情感交互，下一步就是替代客服、替代初级程序员、替代数据分析师。所以，明年 2026 年的爆发点在于“AI 替代不同工种”。创业者要思考的不是“我要开发个什么软件给用户用”，而是“我要造一个什么样的 AI 员工，去帮老板把某个岗位的人力成本砍掉”。换句话说，别老想着做一个「AI+X」的新产品，先想想哪些人类工作可以被替代，再倒推产品形态。这和 Karpathy 关于「Cursor for X」的观察遥相呼应。Cursor 本质上是「程序员这个工种的 AI 化」，那么各行各业都会出现类似的东西。 --- 第六层：领域大模型是个「伪命题」这个观点可能会让一些人不舒服，但唐杰说得很直接：领域大模型就是个伪命题。都 AGI 了，哪有什么“领域专用（domain-specific）AGI”？之所以有领域大模型存在，是因为应用企业不愿意在 AI 模型公司面前认输，希望用领域 know-how 构建护城河，把 AI 驯化为工具。但 AI 的本质是「海啸」，走到哪里都会把一切卷进去。一定会有领域公司主动走出护城河，被卷进 AGI 的世界。领域的数据、流程、Agent 数据，慢慢都会进入主模型。当然 AGI 还没实现之前，领域模型会长时间存在。但这个时间窗口有多长？不好说，AI 发展实在太快了。 --- 第七层：多模态和具身智能，前景光明但道路艰难多模态肯定是未来。但当下的问题是：它对提升 AGI 的智能上限帮助有限。文本、多模态、多模态生成，可能还是分开发展更高效。当然，探索三者结合需要勇气和钱。具身智能（机器人）更难。难点和 Agent 一样：通用性。你教会机器人在 A 场景干活，换个场景又不行了。怎么办？采数据、合成数据，都不容易，还贵。怎么办？采数据，或者合成数据。都不容易，都贵。但反过来，一旦数据规模上去了，通用能力出来了，自然就形成门槛。还有个问题往往被忽略：机器人本身也是个问题。不稳定、故障频繁，这些硬件问题也在限制具身智能的发展。唐杰预判 2026 年这些都将取得长足进步。 --- 把唐杰这篇文章串起来，其实是一张相当清晰的路线图：当下，预训练 scaling 依然有效，但要更重视对齐和长尾能力。近期，Agent 是关键突破口，让模型从"会说"进化到"会做"。中期，记忆系统和在线学习是必修课，模型要学会自我评估和迭代。长期，工种替代是应用的本质，领域护城河会被 AGI 冲垮。远景，多模态和具身各自发展，等待技术和数据的成熟。 --- 把唐杰和 Karpathy 的观点放在一起看，能看出几个共识：第一，2025 年的核心变化是训练范式的升级，从「预训练为主」变成「多阶段协同」。第二，Agent 是里程碑，是模型从学习走向干活的关键跨越。第三，benchmark 刷分和真实能力之间有鸿沟，这个问题越来越被重视。第四，AI 应用的本质是替代或增强人类工种，不是为了做 App 而做 App。不同的侧重点也有意思。Karpathy 更关注「AI 是什么形状的智能」这个哲学问题，唐杰更关注「怎么让模型在真实场景落地」的工程问题。一个偏「理解」，一个偏「实现」。两个视角都需要。理解清楚了，才知道方向对不对；工程跟上了，才能把想法变成现实。 2026 年，会很精彩。

dotey's tweet photo. 唐杰 @jietang 是清华大学教授、智谱（GLM 系列模型出自他们家）AI 首席科学家，也是国内最懂大模型的人之一。他刚发了长微博（见评论），谈 2025 年对大模型的感悟。

有意思的是，唐杰和 Andrej Karpathy 的观察有不少共鸣，但也有一些不同的侧重点。两个顶级专家的视角放在一起看，能看出更完整的图景。

内容比较长，但有句话我要特别放在前面高亮一下：
> AI 模型应用的第一性原理不应该是创造新的 App，它的本质是 AGI 替代人类工作，因此研发替代不同工种的 AI 是应用的关键

如果你是在做 AI 应用开发，应该反复思考一下这句话：AI 应用的第一性原理不是创造新产品，而是替代人类工作。想清楚这一点，很多事情的优先级就清楚了。

唐杰的核心观点有七层逻辑。

---

第一层：预训练没死，只是不再是唯一主角

预训练仍然是让模型掌握世界知识和基础推理能力的根基。

更多的数据、更大的参数、更饱和的计算，依然是提升模型智商最高效的办法。这就像还在长身体的孩子，饭量（算力）和营养（数据）必须管够，这是物理规律，没法绕弯。

但光有智商不行，现在的模型有个毛病：容易“偏科”。为了刷榜单（Benchmark），很多模型都在针对性地做题，导致在真实复杂的场景下反而不好用。这好比孩子上完九年义务教育（预训练）后，必须把他扔到真实的职场里去实习，去处理那些书本上没有的烂摊子，这才是真本事。

所以接下来的重点是“中后训练”（Mid and Post training）。中后训练这两个阶段负责「激活」模型的能力，尤其是长尾场景的对齐能力。

什么是长尾场景？就是那些不常见但真实存在的需求。比如帮律师整理某类特殊合同、帮医生分析某种罕见病的影像。这些场景在通用测试集里占比很小，但在真实应用中至关重要。

通用 benchmark 一方面评测了模型效果，但也可能让很多模型过拟合。这和 Karpathy 说的「训练在测试集上是一门新艺术」观点一致。大家都在刷榜，但榜单刷了高分不等于能解决真实问题。

---

第二层：Agent 是从「学生」到「打工人」的跨越

唐杰用了个形象的比喻：
> 如果没有 Agent 能力，大模型就是个“理论博士”。一个人书读得再多，读到了博士后，如果不能动手解决问题，那也只是知识的容器，产生不了生产力。

这个比喻精准。预训练是上课，强化学习是刷题，但这些都还在「学习阶段」。Agent 是让模型真正「干活」的关键，是进入真实世界、产生实际价值的门槛。

不同 Agent 环境的泛化和迁移并不容易。你在一个代码环境里训出来的能力，换到浏览器环境就不一定好使。现在最简单的办法，还是不断堆更多环境的数据，针对不同环境做强化学习。

以前我们做 Agent，是给模型外挂各种工具。现在的趋势是，直接把使用工具的数据写进模型的“DNA”里去训练。

这听起来有点笨，但确实是当下最有效的路径。

Karpathy 也把 Agent 列为今年最重要的变化之一，他以 Claude Code 为例，强调 Agent 要能「住在你电脑里」，调用工具、循环执行、解决复杂问题。

---

第三层：记忆是刚需，但怎么做还没想清楚

唐杰花了不少篇幅讲记忆。他认为，模型要在真实环境中落地，记忆能力是必须的。

他把人类记忆分成四层：
- 短期记忆，对应前额叶
- 中期记忆，对应海马体
- 长期记忆，分布在大脑皮层
- 人类历史记忆，对应维基百科和史书

AI 也要模仿这个机制，大模型对应的可能是：
- Context 窗口 → 短期记忆
- RAG 检索 → 中期记忆
- 模型参数 → 长期记忆

一个思路是「压缩记忆」，把重要信息精简后存在 context 里。目前的“超长上下文”只是解决了短期记忆，相当于把它能用的“便签纸”变长了。如果未来 context 窗口足够长，短中长期记忆都有可能实现。

但有个更难的问题：怎么更新模型自身的知识？怎么改参数？这还是个未解难题。

---

第四层：在线学习和自我评估，可能是下一个 Scaling 范式

这一段是唐杰观点里最前瞻的部分。

现在的模型是“离线”的，训练好就不变了。这有几个问题：模型不能真正自我迭代，重新训练浪费资源，还会丢掉很多交互数据。

理想情况是什么？模型能在线学习，边用边学，越用越聪明。

但要实现这一点，有个前置条件：模型要知道自己对不对。这就是「自我评估」。如果模型能判断自己的输出质量，哪怕是概率性地判断，它就知道了优化目标，就能自我改进。

唐杰认为，构建模型的自我评价机制是个难题，但也可能是下一个 scaling 范式的方向。他用了几个词：continual learning、real time learning、online learning。

这和 Karpathy 提到的 RLVR 有一定呼应。RLVR 之所以有效，正是因为有「可验证的奖励」，模型能知道自己对不对。如果这个机制能泛化到更多场景，在线学习就有可能实现。

---

第五层：AI 应用的第一性原理是「替代工种」

这是对我启发最大的一句话：
> AI 模型应用的第一性原理不应该是创造新的 App，它的本质是 AGI 替代人类工作，因此研发替代不同工种的 AI 是应用的关键

AI 的本质不是创造新的 App，而是替代人类工作。

两条路：
1. 把以前需要人参与的软件 AI 化。
2. 创造对齐人类某个工种的 AI 软件，直接替代人类工作。

Chat 已经部分替代了搜索，同时还融合了情感交互，下一步就是替代客服、替代初级程序员、替代数据分析师。

所以，明年 2026 年的爆发点在于“AI 替代不同工种”。

创业者要思考的不是“我要开发个什么软件给用户用”，而是“我要造一个什么样的 AI 员工，去帮老板把某个岗位的人力成本砍掉”。

换句话说，别老想着做一个「AI+X」的新产品，先想想哪些人类工作可以被替代，再倒推产品形态。

这和 Karpathy 关于「Cursor for X」的观察遥相呼应。Cursor 本质上是「程序员这个工种的 AI 化」，那么各行各业都会出现类似的东西。

---

第六层：领域大模型是个「伪命题」

这个观点可能会让一些人不舒服，但唐杰说得很直接：领域大模型就是个伪命题。都 AGI 了，哪有什么“领域专用（domain-specific）AGI”？

之所以有领域大模型存在，是因为应用企业不愿意在 AI 模型公司面前认输，希望用领域 know-how 构建护城河，把 AI 驯化为工具。

但 AI 的本质是「海啸」，走到哪里都会把一切卷进去。一定会有领域公司主动走出护城河，被卷进 AGI 的世界。领域的数据、流程、Agent 数据，慢慢都会进入主模型。

当然 AGI 还没实现之前，领域模型会长时间存在。但这个时间窗口有多长？不好说，AI 发展实在太快了。

---

第七层：多模态和具身智能，前景光明但道路艰难

多模态肯定是未来。但当下的问题是：它对提升 AGI 的智能上限帮助有限。

文本、多模态、多模态生成，可能还是分开发展更高效。当然，探索三者结合需要勇气和钱。

具身智能（机器人）更难。难点和 Agent 一样：通用性。你教会机器人在 A 场景干活，换个场景又不行了。怎么办？采数据、合成数据，都不容易，还贵。

怎么办？采数据，或者合成数据。都不容易，都贵。但反过来，一旦数据规模上去了，通用能力出来了，自然就形成门槛。

还有个问题往往被忽略：机器人本身也是个问题。不稳定、故障频繁，这些硬件问题也在限制具身智能的发展。

唐杰预判 2026 年这些都将取得长足进步。

---

把唐杰这篇文章串起来，其实是一张相当清晰的路线图：
当下，预训练 scaling 依然有效，但要更重视对齐和长尾能力。
近期，Agent 是关键突破口，让模型从"会说"进化到"会做"。
中期，记忆系统和在线学习是必修课，模型要学会自我评估和迭代。
长期，工种替代是应用的本质，领域护城河会被 AGI 冲垮。
远景，多模态和具身各自发展，等待技术和数据的成熟。

---

把唐杰和 Karpathy 的观点放在一起看，能看出几个共识：

第一，2025 年的核心变化是训练范式的升级，从「预训练为主」变成「多阶段协同」。

第二，Agent 是里程碑，是模型从学习走向干活的关键跨越。

第三，benchmark 刷分和真实能力之间有鸿沟，这个问题越来越被重视。

第四，AI 应用的本质是替代或增强人类工种，不是为了做 App 而做 App。

不同的侧重点也有意思。Karpathy 更关注「AI 是什么形状的智能」这个哲学问题，唐杰更关注「怎么让模型在真实场景落地」的工程问题。一个偏「理解」，一个偏「实现」。

两个视角都需要。理解清楚了，才知道方向对不对；工程跟上了，才能把想法变成现实。

2026 年，会很精彩。

461

349K

seaslee retweeted

Logan Kilpatrick

@OfficialLoganK

6 months ago

Recapping an incredibly year of Gemini progress with @OriolVinyalsML @JeffDean and @NoamShazeer live, join us : ) https://t.co/JdMpKvFOeM

322

169

81K

seaslee retweeted

西里森森

@sirisensen

6 months ago

如果给正准备辞职创业的朋友推荐一个视频，你会推荐哪个？我一定会推荐哈佛大学两年前发布的这场研讨会。这绝对是一期你在踏上创业之路前，必须看完的内容。主讲人 Michael Michael，波士顿风投公司 Underscore VC 的创始合伙人。十几岁创办第一家软件公司，做了 21 年创业者，又做了 18 年投资人，经手的公司创造了数十亿美元价值。不管你是正在琢磨创业想法，还是产品已经上线，又或者只是好奇为什么有些产品能卖爆，这场一个半小时的研讨会都值得你收藏起来反复品味。 Michael在开头就指出了一个非常残酷的现象：创业公司失败的原因有很多，资金断裂、团队内讧、市场变化…… 但排名第一的死因，不是钱不够，不是人不行，而是你压根没在解决一个真问题。说白了，你做的东西，根本没人想买。他有一句话非常关键：如果你觉得你的客户是所有人，那你基本上已经注定失败了。 Michael在这期研讨会里提出了一套非常完整的框架，从怎么定义你的客户，到怎么评估你的方案，再到怎么让用户觉得非买不可。如果你真的能够完全吃透这期内容，那么你在创业这条路上一定可以比其他人走得更远。 1️⃣搞清楚你的产品到底是做给谁的？绝大多数创业者都会犯同一个错误，就是在去找投资人或者导师的时候，上来第一句话就是：我有一个绝妙的idea。在Michael看来，想法这东西，是最廉价的。因为想法遍地都是，它本身是免费的，不值钱。想法，只有在能够「解决某个具体问题」的时候，才有意义。所以这个研讨会做的第一件事，不是教你怎么把产品做得多吸引人或者多牛逼，而是让你回答一个看起来特别简单的问题—— 你的产品到底是做给谁的？真正能答好这个问题的人，少之又少。研讨会上有个来自哈萨克斯坦的创业者分享了她的项目，是一个帮助贫困儿童获得数字设备的非营利组织。 Michael问她：你的目标用户是谁？她给出了非常具体地描述：是哈萨克斯坦偏远地区和边缘化社区的儿童，他们缺乏基本的数字素养，也没有电脑和设备。 Michael说，这就对了。「想要把产品卖给全世界，这个目标对任何公司来说都太大了，即便是世界上最大的那些公司，也会把目标客户切得非常细。」另一个团队在提交自己的商业计划时就犯了这个错误。他们做的是一个信贷比价平台，帮助用户找到利率更低的贷款产品。产品逻辑很清楚，但问题在于，他们压根没说这个产品是给谁用的。是给刚毕业的年轻人？还是给有房贷压力的中年家庭？还是给小微企业主？每一类人群的需求完全不同，你触达他们的渠道也不一样，你跟他们说话的方式更不一样。不知道客户是谁，就不知道怎么找到他们，就不知道怎么打动他们。而这，是创业最基本的生存法则。 2️⃣区分用户和客户这里有一个很多人会搞混的概念，就是用户和客户。用户是实际使用你产品的人，客户是为你产品付钱的人。有时候这两者是同一个人，有时候不是。比如，很多SaaS软件的用户可能是一线员工，但客户是IT部门的负责人或者公司老板。当用户和客户不是同一个人的时候，你需要的是，同时满足两种价值主张。用户需要感受到产品确实好用、有价值，愿意持续使用；客户需要看到投资回报，愿意持续付费。 Michael用了一个词叫pull，就是拉力。你需要用户产生拉力，主动要求使用你的产品。只有用户在用，客户才会愿意买单。但光有用户用还不够，你还得让客户看到付费是值得的。你必须保证两边都得照顾到，少了哪边都不行。 3️⃣理解需求的层次 Michael把需求分成两个维度：一个维度是显性还是隐性，另一个维度是关键还是愿望性的。最理想的需求是blatant and critical，就是显性且关键的。用户自己很清楚有这个问题，而且这个问题不解决会严重影响他们的工作或生活。比如，你的牙疼得睡不着觉，这就是显性且关键的需求，你不需要有人来说服你去看牙医。最难做的需求是latent and aspirational，就是隐性且愿望性的。用户自己没意识到有这个问题，或者意识到了但觉得不紧急、不重要。比如，你告诉一个中年人他应该开始理财了。他可能心里知道这事重要，但总觉得以后再说也行。这种需求要转化成购买行为，难度是很大的。所以如果你的产品解决的是一个显性且关键的痛点，用户的购买动力天然就强。如果你的产品解决的是一个隐性且愿望性的需求，你就得花大量精力去教育市场、唤醒需求。 4️⃣计算收益痛苦比这个概念非常重要，但很多人做产品的时候，其实完全没考虑过。「收益痛苦比」的意思是，你的产品给用户带来的好处，必须远远超过他们为此付出的代价。很多人做产品的时候只想着自己的东西多好多好，却忘了用户要使用你的产品需要经历什么：他要找到你，他要试用你，他要学习怎么用你，他要把数据迁移过来，他要说服他的同事和老板接受这个改变…… 所有这些，都是痛苦。而且不光是显性的痛苦，还有一种东西叫惰性。人天生就不喜欢改变，哪怕现有的方案不够好，他也会想，将就着用呗，反正也没那么糟。所以Michael说，如果你想让用户真的动起来，你的产品带来的好处不能只是稍微好一点，而是要好十倍。对，十倍。因为只有十倍的提升，才能抵消那些看得见和看不见的转换成本，才能让用户觉得这件事值得折腾。 5️⃣找到你的差异化最后一个问题：凭什么是你？市场上可能有很多方案在解决类似的问题，用户为什么要选你而不是别人？这就需要你想清楚自己的独特价值是什么，你提供了什么别人给不了的东西，或者你在某个维度上做到了别人做不到的程度。说了这么多，其实价值主张核心就是一个词：清晰。你要清晰地知道自己在服务谁，你要清晰地理解他们的痛点是什么，你要清晰地说明你的方案为什么能解决这个痛点，你要清晰地展示这个方案能带来多大的好处。 Michael在最后说了一句话：如果你自己都不能清楚地解释你在解决什么问题，那你为什么要做这件事？想清楚你到底要做什么，比做什么都重要。

sirisensen's tweet photo. 如果给正准备辞职创业的朋友推荐一个视频，你会推荐哪个？

我一定会推荐哈佛大学两年前发布的这场研讨会。这绝对是一期你在踏上创业之路前，必须看完的内容。

主讲人 Michael Michael，波士顿风投公司 Underscore VC 的创始合伙人。
十几岁创办第一家软件公司，做了 21 年创业者，又做了 18 年投资人，经手的公司创造了数十亿美元价值。

不管你是正在琢磨创业想法，还是产品已经上线，又或者只是好奇为什么有些产品能卖爆，这场一个半小时的研讨会都值得你收藏起来反复品味。

Michael在开头就指出了一个非常残酷的现象：创业公司失败的原因有很多，资金断裂、团队内讧、市场变化……
但排名第一的死因，不是钱不够，不是人不行，而是你压根没在解决一个真问题。

说白了，你做的东西，根本没人想买。

他有一句话非常关键：如果你觉得你的客户是所有人，那你基本上已经注定失败了。

Michael在这期研讨会里提出了一套非常完整的框架，从怎么定义你的客户，到怎么评估你的方案，再到怎么让用户觉得非买不可。

如果你真的能够完全吃透这期内容，那么你在创业这条路上一定可以比其他人走得更远。

1️⃣搞清楚你的产品到底是做给谁的？

绝大多数创业者都会犯同一个错误，就是在去找投资人或者导师的时候，上来第一句话就是：我有一个绝妙的idea。

在Michael看来，想法这东西，是最廉价的。
因为想法遍地都是，它本身是免费的，不值钱。

想法，只有在能够「解决某个具体问题」的时候，才有意义。

所以这个研讨会做的第一件事，不是教你怎么把产品做得多吸引人或者多牛逼，而是让你回答一个看起来特别简单的问题——
你的产品到底是做给谁的？

真正能答好这个问题的人，少之又少。

研讨会上有个来自哈萨克斯坦的创业者分享了她的项目，是一个帮助贫困儿童获得数字设备的非营利组织。

Michael问她：你的目标用户是谁？
她给出了非常具体地描述：是哈萨克斯坦偏远地区和边缘化社区的儿童，他们缺乏基本的数字素养，也没有电脑和设备。

Michael说，这就对了。

「想要把产品卖给全世界，这个目标对任何公司来说都太大了，即便是世界上最大的那些公司，也会把目标客户切得非常细。」

另一个团队在提交自己的商业计划时就犯了这个错误。
他们做的是一个信贷比价平台，帮助用户找到利率更低的贷款产品。

产品逻辑很清楚，但问题在于，他们压根没说这个产品是给谁用的。
是给刚毕业的年轻人？还是给有房贷压力的中年家庭？还是给小微企业主？

每一类人群的需求完全不同，你触达他们的渠道也不一样，你跟他们说话的方式更不一样。

不知道客户是谁，就不知道怎么找到他们，就不知道怎么打动他们。
而这，是创业最基本的生存法则。

2️⃣区分用户和客户

这里有一个很多人会搞混的概念，就是用户和客户。

用户是实际使用你产品的人，客户是为你产品付钱的人。有时候这两者是同一个人，有时候不是。

比如，很多SaaS软件的用户可能是一线员工，但客户是IT部门的负责人或者公司老板。

当用户和客户不是同一个人的时候，你需要的是，同时满足两种价值主张。
用户需要感受到产品确实好用、有价值，愿意持续使用；客户需要看到投资回报，愿意持续付费。

Michael用了一个词叫pull，就是拉力。
你需要用户产生拉力，主动要求使用你的产品。只有用户在用，客户才会愿意买单。

但光有用户用还不够，你还得让客户看到付费是值得的。

你必须保证两边都得照顾到，少了哪边都不行。

3️⃣理解需求的层次

Michael把需求分成两个维度：一个维度是显性还是隐性，另一个维度是关键还是愿望性的。

最理想的需求是blatant and critical，就是显性且关键的。
用户自己很清楚有这个问题，而且这个问题不解决会严重影响他们的工作或生活。

比如，你的牙疼得睡不着觉，这就是显性且关键的需求，你不需要有人来说服你去看牙医。

最难做的需求是latent and aspirational，就是隐性且愿望性的。
用户自己没意识到有这个问题，或者意识到了但觉得不紧急、不重要。

比如，你告诉一个中年人他应该开始理财了。
他可能心里知道这事重要，但总觉得以后再说也行。这种需求要转化成购买行为，难度是很大的。

所以如果你的产品解决的是一个显性且关键的痛点，用户的购买动力天然就强。
如果你的产品解决的是一个隐性且愿望性的需求，你就得花大量精力去教育市场、唤醒需求。

4️⃣计算收益痛苦比

这个概念非常重要，但很多人做产品的时候，其实完全没考虑过。

「收益痛苦比」的意思是，你的产品给用户带来的好处，必须远远超过他们为此付出的代价。

很多人做产品的时候只想着自己的东西多好多好，却忘了用户要使用你的产品需要经历什么：他要找到你，他要试用你，他要学习怎么用你，他要把数据迁移过来，他要说服他的同事和老板接受这个改变……

所有这些，都是痛苦。

而且不光是显性的痛苦，还有一种东西叫惰性。
人天生就不喜欢改变，哪怕现有的方案不够好，他也会想，将就着用呗，反正也没那么糟。

所以Michael说，如果你想让用户真的动起来，你的产品带来的好处不能只是稍微好一点，而是要好十倍。
对，十倍。
因为只有十倍的提升，才能抵消那些看得见和看不见的转换成本，才能让用户觉得这件事值得折腾。

5️⃣找到你的差异化

最后一个问题：凭什么是你？
市场上可能有很多方案在解决类似的问题，用户为什么要选你而不是别人？

这就需要你想清楚自己的独特价值是什么，你提供了什么别人给不了的东西，或者你在某个维度上做到了别人做不到的程度。

说了这么多，其实价值主张核心就是一个词：清晰。

你要清晰地知道自己在服务谁，你要清晰地理解他们的痛点是什么，你要清晰地说明你的方案为什么能解决这个痛点，你要清晰地展示这个方案能带来多大的好处。

Michael在最后说了一句话：如果你自己都不能清楚地解释你在解决什么问题，那你为什么要做这件事？

想清楚你到底要做什么，比做什么都重要。

462

119

528

36K

seaslee retweeted

宝玉

@dotey

7 months ago

转：NotebookLM 里面生成PPT的提示词模板作者：黄建同学来源： https://t.co/YeTa9eyBPI 提示词：目标受众：{受众，例如：公司高管 / 技术团队 / 产品经理 / 普通用户} 演示目的：{目的，例如：技术分享 / 项目汇报 / 产品介绍 / 教学使用} 整体篇幅：{页数，例如：10 页以内 / 15～20 页} 风格要求：{风格} 视觉效果：{视觉效果} 风格： 1. 专业，内容呈现以准确、逻辑、严谨为主，强调框架化表达（适合企业汇报、战略沟通、技术述职） 2. 简洁，尽量减少装饰性内容，保留一级标题/二级标题，无其他内容，结构干净利落（适合快速阅读、高管场景） 3. 具象比喻，通过贴近生活的例子、比喻、类比，让复杂内容变得容易理解（适合面向小朋友、非专业受众群体） 4. 故事化，内容以叙事链条组织，用“背景—冲突—解决—结果”模型推动（适合产品发布、经验分享） 5. 数据驱动，强调数据、指标、趋势、对比分析，以数据结论作为核心逻辑（适合商业分析、调研报告） 6. 教学，结构更加循序渐进，以解释概念、举例说明、对比差异、步骤演示为主（适合教学、培训类） 7. 激励，采用鼓舞语气和积极愿景，强调“为什么重要”“我们要做什么” （适合团队动员、年度启动会、愿景介绍） 8. 产品展示，突出场景镜头、用户价值、功能亮点、体验流程，强调“好处和使用方式”（适用于新品发布、方案宣讲） 9. 思维导图，以概念之间的关联为主线，用层次化结构展开知识网络（适合复杂主题）视觉效果： 1. 极简留白，以大量留白、弱化装饰、突出内容主体为核心，整体视觉干净现代（适合专业场景、高管简报） 2. 强调色块，通过大色块和模块化布局强化层级关系，使重点更醒目（适合方案展示、运营复盘） 3. 卡片式布局，以卡片、分区、分栏组织内容，让阅读更轻松清晰（适合内容较多、结构化信息） 4. 图标驱动，以统一风格的图标、符号表达概念，降低文字密度、增强可读性（适合流程讲解、结构说明） 5. 插画或手绘感，采用柔和插画或轻松手绘笔触，增强亲和力与友好度（适合科普、教学、文化主题） 6. 科技质感，以线条、渐变、光效构建轻科技氛围，视觉更现代（适合 AI、数据、互联网主题） 7. 深色主题，以暗色背景配亮色文字形成强对比，强调稳重与冲击力（适合正式场景、数据展示） 8. 信息可视化，以图表、趋势图、结构图作为主视觉，减少大段文字（适合分析汇报、研究报告） 9. 分镜叙事，以类似电影分镜的结构呈现画面连续性，使内容更具故事流动感（适合产品发布、战略叙述） 10. 品牌一致，严格遵循品牌色、字体体系与风格规范，整体一致性强（适合外部宣讲、品牌官方材料）

dotey's tweet photo. 转：NotebookLM 里面生成PPT的提示词模板
作者：黄建同学
来源：
https://t.co/YeTa9eyBPI

提示词：

目标受众：{受众，例如：公司高管 / 技术团队 / 产品经理 / 普通用户}
演示目的：{目的，例如：技术分享 / 项目汇报 / 产品介绍 / 教学使用}
整体篇幅：{页数，例如：10 页以内 / 15～20 页}
风格要求：{风格}
视觉效果：{视觉效果}

风格：
1. 专业，内容呈现以准确、逻辑、严谨为主，强调框架化表达（适合企业汇报、战略沟通、技术述职）
2. 简洁，尽量减少装饰性内容，保留一级标题/二级标题，无其他内容，结构干净利落（适合快速阅读、高管场景）
3. 具象比喻，通过贴近生活的例子、比喻、类比，让复杂内容变得容易理解（适合面向小朋友、非专业受众群体）
4. 故事化，内容以叙事链条组织，用“背景—冲突—解决—结果”模型推动（适合产品发布、经验分享）
5. 数据驱动，强调数据、指标、趋势、对比分析，以数据结论作为核心逻辑（适合商业分析、调研报告）
6. 教学，结构更加循序渐进，以解释概念、举例说明、对比差异、步骤演示为主（适合教学、培训类）
7. 激励，采用鼓舞语气和积极愿景，强调“为什么重要”“我们要做什么” （适合团队动员、年度启动会、愿景介绍）
8. 产品展示，突出场景镜头、用户价值、功能亮点、体验流程，强调“好处和使用方式”（适用于新品发布、方案宣讲）
9. 思维导图，以概念之间的关联为主线，用层次化结构展开知识网络（适合复杂主题）

视觉效果：
1. 极简留白，以大量留白、弱化装饰、突出内容主体为核心，整体视觉干净现代（适合专业场景、高管简报）
2. 强调色块，通过大色块和模块化布局强化层级关系，使重点更醒目（适合方案展示、运营复盘）
3. 卡片式布局，以卡片、分区、分栏组织内容，让阅读更轻松清晰（适合内容较多、结构化信息）
4. 图标驱动，以统一风格的图标、符号表达概念，降低文字密度、增强可读性（适合流程讲解、结构说明）
5. 插画或手绘感，采用柔和插画或轻松手绘笔触，增强亲和力与友好度（适合科普、教学、文化主题）
6. 科技质感，以线条、渐变、光效构建轻科技氛围，视觉更现代（适合 AI、数据、互联网主题）
7. 深色主题，以暗色背景配亮色文字形成强对比，强调稳重与冲击力（适合正式场景、数据展示）
8. 信息可视化，以图表、趋势图、结构图作为主视觉，减少大段文字（适合分析汇报、研究报告）
9. 分镜叙事，以类似电影分镜的结构呈现画面连续性，使内容更具故事流动感（适合产品发布、战略叙述）
10. 品牌一致，严格遵循品牌色、字体体系与风格规范，整体一致性强（适合外部宣讲、品牌官方材料）

587

320K

seaslee retweeted

开发者Hailey

@IndieDevHailey

7 months ago

2025年，独立开发最强员工阵列： CTO：Cursor (Agent模式 + Claude 3.7) 原型：Lovable (一句话生成 SaaS) 设计：https://t.co/6QsqaKWITZ (草图转 UI) 基建：Supabase (自带向量检索) 财务：Lemon Squeezy (全球合规) 营销：Screen Studio (大片级演示) 现在的核心竞争力，不再是写代码的速度，而是指挥 AI 的能力。 👇

IndieDevHailey's tweet photo. 2025年，独立开发最强员工阵列：

CTO：Cursor (Agent模式 + Claude 3.7)
原型：Lovable (一句话生成 SaaS)
设计：https://t.co/6QsqaKWITZ (草图转 UI)
基建：Supabase (自带向量检索)
财务：Lemon Squeezy (全球合规)
营销：Screen Studio (大片级演示)

现在的核心竞争力，不再是写代码的速度，而是指挥 AI 的能力。 👇

618

167

715

53K

seaslee retweeted

Robert Youssef

@rryssf

8 months ago

🚨 Microsoft Research just launched something that might define the next era of AI systems. They call it 'Agentic Organization' and it’s not just a new model. It’s a new way for intelligence itself to organize. Here’s what’s wild: Most large language models still “think” like a single brain. Step-by-step. Linear. Slow. Even “parallel thinking” just runs the same process twice and merges answers later. Agentic Organization changes the entire game. They built a new reasoning protocol called AsyncThink, where a model plays both roles an Organizer that breaks a complex problem into sub-queries, and Workers that solve those sub-parts at the same time. Think of it like this: Instead of one mind grinding through steps, AsyncThink forms a mini civilization of minds delegating, merging, adapting in real time. And it learns this behavior through reinforcement learning literally learning how to organize its own thoughts. The results are insane: → 28% lower inference latency than parallel thinking → Higher accuracy on math reasoning tasks → Zero-shot generalization to unseen problems like Sudoku → Learned organizational policies that evolve dynamically during reasoning It’s like scaling from “an intelligent agent” → to “an intelligent organization.” AsyncThink models don’t just reason faster they reason like teams do. Fork. Think. Join. Verify. Iterate. This is a glimpse of post-LLM intelligence systems that don’t just think, they coordinate thought. And if that holds, the future of AI might look less like a single brain… and more like a company of minds. Paper: The Era of Agentic Organization: Learning to Organize with Language Models