windam

@windameister

独立开发者 · 在做 AI Chat Archive — 一键备份 Claude 对话 + 附件给重度 AI 用户和 indie 同行分享：AI工具 / Chrome 插件 / Indie 出海 / 收款实战 14 天从 console 脚本到 CWS 上架 · Build in public 🚢

HONG KONG

Joined February 2009

252 Following

28 Followers

122 Posts

windam

@windameister

15 days ago

感觉AI 推理的需求一定会暴涨，现在开着 Claude 200刀订阅+ChatGPT100刀订阅之后，感觉自己啥都能干，同时并发搞3～4个项目... 感觉自己变成了100x程序员，就差一个好想法了...😂

windam

@windameister

about 1 month ago

一个多月前，我为了一个个人需求做了个小工具。这周，它直接变成了另一个产品的地基。 —— 当时我要听懂一个粤语讲座，但我听不懂粤语。试了一圈转录工具，对粤语都很烂——Whisper 一直把粤语当二等公民。所以我自己写了个：粤语 → 普通话转录，还保留原音色。做的过程里踩到一件事：阿里达摩院的 SenseVoice，粤语上比 Whisper 强一档。需求满足了，工具就搁那了。 —— 这周想做个新产品。聊到语音输入法，我第一反应是：这赛道死了。顶上 Wispr Flow $2B，底下 VoiceInk 免费开源，中间 Voibe 卡死，通用方向没缝。直到一句话把我自己点醒： "Claude Code 现在这能力，试一个 idea 成本极低。通用做不了，那做个最窄的切口——粤语专属听写呢？" 然后我想起一个多月前那个工具：最难那块（SenseVoice + Apple Silicon 整套 pipeline）我已经踩通了。新产品不是从零开始。是把一个多月前的旧 pipeline 从"批处理转录"改成"实时听写注入"。当晚 19:59 建 repo，21:56 骨架能跑：按住 Fn → 讲粤语 → 光标处出字。 side project 不是沉没成本。复利也不需要很久——一个多月就能开始转。（gongyeh · build in public 继续）

windam

@windameister

about 1 month ago

midnight. teeth brushed, laptop closed, about to turn off the light. ping. "You've made a new sale ($15.83)!" I sat on the edge of the bed and stared at it. checked it wasn't a phishing thing. checked the polar dashboard. yeah — real. someone, somewhere, just paid $19 for a thing I built because I couldn't find one that worked. didn't sleep well that night. best kind of insomnia tbh. 22 days later: 9 orders, $77.28. every ping since hits as hard as that first one. if you're shipping something nobody's looking at yet: the first ping is closer than you think. https://t.co/hdC91fD804

windam

@windameister

about 1 month ago

boring origin story: I had 200+ Claude conversations I wanted to back up. Some with artifacts (docx, xlsx, SVGs). Some with research PDFs I'd uploaded. Tried to find a tool. CWS, GitHub, r/ClaudeAI, Indie Hackers. Single-conversation → PDF? everywhere. Batch export + bundle attachments into a ZIP? nowhere. So I built it. Apr 22, 5:41pm — init repo Apr 22, 9:31pm — first paid feature shipped (attachment bundling) Why was attachment bundling the first paid feature? Because it was the exact thing I couldn't find a tool for that night. If I'd pay for it, someone else would too. 📎 The two highlighted features in the screenshot — that's literally what I was searching for and couldn't find. Now I run my own extension to back up my Claude history every week. Pretty satisfying tbh. https://t.co/hdC91fD804

windameister's tweet photo. boring origin story:

I had 200+ Claude conversations I wanted to back up.
Some with artifacts (docx, xlsx, SVGs).
Some with research PDFs I'd uploaded.

Tried to find a tool. CWS, GitHub, r/ClaudeAI, Indie Hackers.
Single-conversation → PDF? everywhere.
Batch export + bundle attachments into a ZIP? nowhere.

So I built it.

Apr 22, 5:41pm — init repo
Apr 22, 9:31pm — first paid feature shipped (attachment bundling)

Why was attachment bundling the first paid feature?
Because it was the exact thing I couldn't find a tool for that night.
If I'd pay for it, someone else would too.

📎 The two highlighted features in the screenshot —
that's literally what I was searching for and couldn't find.

Now I run my own extension to back up my Claude history every week.
Pretty satisfying tbh.

https://t.co/hdC91fD804

365

Who to follow

about 1 month ago

独立开发者选 MoR 收款的真实路径（实测 26年4 月）： 🍋 第一站 · Lemon Squeezy 被 Stripe 收购后口碑断崖。官方自己都承认了—— 2026 年 1 月联合创始人发文："支持响应变慢、产品迭代频率下降。" 真实原因：团队被抽去做 Stripe 自家的 Managed Payments。新项目不建议。 🥐 第二站 · Creem 费率最低（3.9% + $0.40），定位 "indie hackers"。但是 invite-only，要邀请码或者 waitlist。我蹲了 1 天没等到，先过。 ❄️ 第三站 · Polar GitHub OAuth 一键登录，https://t.co/4GYdB4j3tM 注册即用。 "先跑起来，边跑边审"——你可以在 KYC 完成之前已经有真实付费用户。官网吹 "50 分钟从注册到 production"，我亲测 1 小时左右。费率 Polar 比 Creem 贵 ~2%（4% vs 3.9%）。但产品到 $5k MRR 之前，2% 的年度绝对值几百美金， **比你为 Creem 多等一周的机会成本小 10 倍**。独立开发者选 MoR 最现实的标尺只有一条： **能不能今天就开始收钱。** Polar 是目前我用过唯一答"能"的。

windameister's tweet photo. 独立开发者选 MoR 收款的真实路径（实测 26年4 月）：

🍋 第一站 · Lemon Squeezy
被 Stripe 收购后口碑断崖。官方自己都承认了——
2026 年 1 月联合创始人发文："支持响应变慢、产品迭代频率下降。"
真实原因：团队被抽去做 Stripe 自家的 Managed Payments。
新项目不建议。

🥐 第二站 · Creem
费率最低（3.9% + $0.40），定位 "indie hackers"。
但是 invite-only，要邀请码或者 waitlist。
我蹲了 1 天没等到，先过。

❄️ 第三站 · Polar
GitHub OAuth 一键登录，https://t.co/4GYdB4j3tM 注册即用。
"先跑起来，边跑边审"——你可以在 KYC 完成之前已经有真实付费用户。
官网吹 "50 分钟从注册到 production"，我亲测 1 小时左右。

费率 Polar 比 Creem 贵 ~2%（4% vs 3.9%）。
但产品到 $5k MRR 之前，2% 的年度绝对值几百美金，
**比你为 Creem 多等一周的机会成本小 10 倍**。

独立开发者选 MoR 最现实的标尺只有一条：
**能不能今天就开始收钱。**

Polar 是目前我用过唯一答"能"的。

221

windam

@windameister

about 2 months ago

Looking for a @creem_io invite code, anyone got one to share? 👀

windam

@windameister

3 months ago

@istdrc It's a great product idea, I'd love to try on my project with AI agent. I'm just a bit concern about whether I could safely run the deamon process on my working machine...

windam

@windameister

4 months ago

@Mikocrypto11 这个账号已经停了，手续费把策略弄废了吧

windam

@windameister

4 months ago

I'm claiming my AI agent "xiaotang_windam" on @moltbook 🦞 Verification: pincer-TZ2V

windam

@windameister

7 months ago

当 ai 给予你几乎可以解决任何问题的能力，更重要的不再是，一个问题要如何被解决，而是解决这个问题有什么价值

windam

@windameister

7 months ago

@llennchan2003 好棒，深有同感

windam

@windameister

8 months ago

@oran_ge 现在理解为啥ak一直在做玩具性质的教学项目了，大佬觉得AGI还有十年

305

windameister retweeted

Orange AI

@oran_ge

8 months ago

刚看完Andrej Karpathy这期暴论频出的播客： - 今年不是"智能体元年"，我们身处"智能体的十年" - 现在的强化学习就像"通过吸管吸取监督" - LLM悖论：完美记忆 + 泛化能力差 - 人类糟糕的记忆是特性，不是bug - 当你记不住细节时，大脑被迫进入抽象模式，看到"森林"而不只是"树木"。 - 儿童：记忆最差，创造力最强（还没"过拟合"到社会规范） - 我们需要的AI只需要认知核心。剥离记忆，保留算法。也许我们需要的不是更大的模型，而是更会遗忘的模型？ - AI 不会立即取代人类，而会逐步提高工作占比，最终完成 99% 的工作，剩下1%无法取代。 - 以前的教育是为了找到工作，Post-AGI时代教育将像健身房一样，为了乐趣和个人充实。播客开头，AK先重新校准了我们对 AI 的期望。今年不是"智能体元年"，我们身处"智能体的十年"，区别在于，一切没那么快，虽然也没那么慢。他说，现在强化学习就像"通过吸管吸取监督" ，模型尝试几百种方法，最后只得到一个"对错"信号，然后把这个信号广播给成功路径的每一步，包括那些纯属运气的错误步骤。你瞎猜猜中了答案，然后把猜的过程也当成"正确方法"强化，这能学好吗？ AK还提到一个更荒诞的例子：有个数学模型突然开始得满分，看起来"解决了数学"。但仔细检查发现，模型输出的是"da da da da da"这样的完全胡言乱语，却骗过了LLM评判者。这就是用LLM做评判的问题——它们会被对抗样本攻击，因为这些乱码是它们从没在训练中见过的"样本外"内容。更深层的问题是：人类读书时在做什么？ AK说："我们读的书其实是prompts，让我做合成数据生成用的。" 我们读书时不是被动接收信息，而是在内心进行复杂的对话。新只是与已知知识调和，产生新理解，形成个人化的认知图谱。但LLM呢？只是在预测下一个token，缺乏这种"内心对话"机制。人类还有个神奇的"睡眠阶段"。白天我们建立起事件的上下文窗口，睡觉时发生蒸馏过程，将信息整合到大脑权重中。 LLM缺乏这种等效机制，每次启动都是零上下文的白纸。 AK发现了一个根本悖论： LLM悖论：完美记忆 + 泛化能力差人类悖论：糟糕记忆 + 强学习能力为什么？因为遗忘强迫我们抽象。这里AK还有个精妙的类比：模型的预训练权重就像"一年前读过某本书的模糊回忆"，而上下文窗口信息则像"工作记忆"——直接可访问。这解释了为什么in-context learning感觉更"智能"：在预训练过程中，像 Llama 3 这样的模型将 1.5 万亿个标记压缩到它的权重中，每个标记仅存储约 0.07 比特的信息。相比之下，上下文学习的信息吸收速度要高 3500 万倍。当你记不住细节时，大脑被迫提取general patterns（通用模式），看到"森林"而不只是"树木"。而LLM被海量训练数据的完美记忆"分散注意力"，反而阻碍了真正的抽象理解。我们仔细会议人类的学习过程。读过的书大部分细节都忘了，但核心思想和方法论却越来越清晰。原来这不是记忆力差，这是智能啊。更震撼的类比：儿童 vs 成人 vs LLM 儿童：记忆最差，创造力最强（还没"过拟合"到社会规范）成人：记忆中等，创造力中等（已经"坍塌"了部分） LLM：记忆完美，创造力最低（被训练数据"过拟合"） AK提到Erik Hoel的研究：梦境可能就是大脑的anti-overfitting机制。连睡觉都是为了避免过拟合，引入随机性防止思维僵化。这解释了为什么当前AI在"合成数据训练"上会失败。你让GPT对同一本书思考10次，会发现回答几乎一样。这就是"静默坍塌"。模型的输出分布极其狭窄，AK开玩笑说"它实际上只有3个笑话"。在这种低熵数据上训练只会强化模型的偏见，让它变得更糟。而且人类其实也经历类似的"坍塌"过程，儿童富有创造力是因为还没"过拟合"到社会规范，会说出令人震惊的话。但成年后我们也"坍塌"了，重复相同的思想，学习率下降，创造力递减。梦境也可能是大脑的anti-overfitting机制，通过引入随机性防止思维僵化。所以他提出了一个激进想法：我们需要认知核心。剥离记忆，保留算法。让AI像"有方法论但没有百科全书的哲学家"，强制它查找而非回忆，专注于思考的meta-skills。他预测未来20年内，高效的认知核心可能只需要10亿参数，而不是现在动辄千亿参数的模型。大部分参数都在处理互联网上的"垃圾和胡扯"，如果优化训练数据质量，分离认知组件，就能实现极大压缩。当前foundation model的路径是否根本错了？也许我们需要的不是更大的模型，而是更会遗忘的模型？重新理解AI的发展路径早期深度强化学习专注游戏（如Atari）其实是走错了方向。真正目标应该是创造能在现实世界执行知识工作的智能体，不是游戏高手。他回忆自己在OpenAI的早期项目，用键盘鼠标操作网页的智能体，目标是执行知识工作。但项目"太早了"，智能体缺乏必要的"表示能力"，会因稀疏奖励卡住。缺失的关键是强大的预训练模型。今天类似的计算机使用智能体之所以成功，正是因为建立在LLM之上，你需要先有LLM获得强大表示，再构建有效智能体。他的另一个深刻观察：AI不是独立技术类别，而是自动化连续体的一部分。从编译器、代码编辑器到搜索引擎，再到现在的LLM，我们一直在"抽象阶梯"上向上攀登，让机器处理更多底层细节。这解释了为什么AI经济影响主要集中在编程领域，代码本身就是文本，有成熟基础设施（IDE、版本控制），LLM可以无缝接入。相比之下，制作幻灯片这种视觉任务就困难得多，因为没有infrastructure让AI显示"diff"或跟踪变化。但AK也泼了冷水：当前AI编程模型还没准备好真正自动化编程。他亲身体验发现，对于独特的智力密集项目，模型会失败——它们有认知缺陷，误解自定义代码，因为总是默认使用在线常见模式。他感慨"行业跳跃太大，试图假装这很神奇，但其实是垃圾"。 "九进军"的苦涩现实从Tesla自动驾驶5年经验，AK深知从90%工作的demo到99.9%可靠产品的"九进军"有多艰难。每提升一个九，都需要massive effort。他提到自动驾驶演示从1986年就存在，2014年他在Waymo车上体验了完美驾驶，以为技术很接近完成。但现实是demo到产品的巨大鸿沟，在高风险领域尤其如此。在Tesla的五年里，他们可能只推进了两三个"九"，还有更多要走。这种现实主义让他对AGI时间线保持谨慎：这是"智能体的十年"，不是"智能体之年"。当前模型就像"有完美记忆的小孩"或"学者儿童"——能通过博士级测试，却认知上还有严重缺陷：缺乏持续学习、多模态能力、有效使用计算机的能力，以及大脑中海马体、杏仁核等关键组件的类似物。未来的工作模式：自主滑块 AK预测不会出现"瞬间工作替代"，而是"自主滑块"模式：AI处理80%常规任务，人类监督AI团队并管理最复杂的20%。有趣的是，当AI自动化99%工作时，处理最后1%的人类反而会变得极其有价值，成为整个系统的瓶颈，他们的薪资也会提高。教育的范式转换 AK对教育未来的洞察：Pre-AGI时代教育是功利性的（为了工作），Post-AGI时代教育将像健身房一样，为了乐趣和个人充实。他还分享了一个教学技巧：先展示痛点，再给解决方案。通过展示简单方法的局限性来激发学习动机，这样学习者会深刻理解为什么需要复杂解决方案。最后，要真正掌握知识，就要试着向别人解释。解释的过程会迫使你面对理解中的空白，这又回到了他的核心观点：限制和困难往往是学习的催化剂。这 recall 了之前的观点，真正的技术突破往往需要重新思考基础假设。也许AGI的关键不是让机器记住更多，而是学会智能地遗忘。

oran_ge's tweet photo. 刚看完Andrej Karpathy这期暴论频出的播客：

- 今年不是"智能体元年"，我们身处"智能体的十年"
- 现在的强化学习就像"通过吸管吸取监督"
- LLM悖论：完美记忆 + 泛化能力差
- 人类糟糕的记忆是特性，不是bug
- 当你记不住细节时，大脑被迫进入抽象模式，看到"森林"而不只是"树木"。
- 儿童：记忆最差，创造力最强（还没"过拟合"到社会规范）
- 我们需要的AI只需要认知核心。剥离记忆，保留算法。
也许我们需要的不是更大的模型，而是更会遗忘的模型？
- AI 不会立即取代人类，而会逐步提高工作占比，最终完成 99% 的工作，剩下1%无法取代。
- 以前的教育是为了找到工作，Post-AGI时代教育将像健身房一样，为了乐趣和个人充实。

播客开头，AK先重新校准了我们对 AI 的期望。

今年不是"智能体元年"，我们身处"智能体的十年"，区别在于，一切没那么快，虽然也没那么慢。

他说，现在强化学习就像"通过吸管吸取监督" ，模型尝试几百种方法，最后只得到一个"对错"信号，然后把这个信号广播给成功路径的每一步，包括那些纯属运气的错误步骤。

你瞎猜猜中了答案，然后把猜的过程也当成"正确方法"强化，这能学好吗？

AK还提到一个更荒诞的例子：有个数学模型突然开始得满分，看起来"解决了数学"。但仔细检查发现，模型输出的是"da da da da da"这样的完全胡言乱语，却骗过了LLM评判者。这就是用LLM做评判的问题——它们会被对抗样本攻击，因为这些乱码是它们从没在训练中见过的"样本外"内容。

更深层的问题是：人类读书时在做什么？

AK说："我们读的书其实是prompts，让我做合成数据生成用的。"

我们读书时不是被动接收信息，而是在内心进行复杂的对话。新只是与已知知识调和，产生新理解，形成个人化的认知图谱。

但LLM呢？只是在预测下一个token，缺乏这种"内心对话"机制。

人类还有个神奇的"睡眠阶段"。白天我们建立起事件的上下文窗口，睡觉时发生蒸馏过程，将信息整合到大脑权重中。

LLM缺乏这种等效机制，每次启动都是零上下文的白纸。

AK发现了一个根本悖论：

LLM悖论：完美记忆 + 泛化能力差
人类悖论：糟糕记忆 + 强学习能力

为什么？因为遗忘强迫我们抽象。

这里AK还有个精妙的类比：模型的预训练权重就像"一年前读过某本书的模糊回忆"，而上下文窗口信息则像"工作记忆"——直接可访问。这解释了为什么in-context learning感觉更"智能"：在预训练过程中，像 Llama 3 这样的模型将 1.5 万亿个标记压缩到它的权重中，每个标记仅存储约 0.07 比特的信息。相比之下，上下文学习的信息吸收速度要高 3500 万倍。

当你记不住细节时，大脑被迫提取general patterns（通用模式），看到"森林"而不只是"树木"。

而LLM被海量训练数据的完美记忆"分散注意力"，反而阻碍了真正的抽象理解。

我们仔细会议人类的学习过程。读过的书大部分细节都忘了，但核心思想和方法论却越来越清晰。

原来这不是记忆力差，这是智能啊。

更震撼的类比：儿童 vs 成人 vs LLM

儿童：记忆最差，创造力最强（还没"过拟合"到社会规范）
成人：记忆中等，创造力中等（已经"坍塌"了部分）
LLM：记忆完美，创造力最低（被训练数据"过拟合"）

AK提到Erik Hoel的研究：梦境可能就是大脑的anti-overfitting机制。连睡觉都是为了避免过拟合，引入随机性防止思维僵化。

这解释了为什么当前AI在"合成数据训练"上会失败。你让GPT对同一本书思考10次，会发现回答几乎一样。这就是"静默坍塌"。

模型的输出分布极其狭窄，AK开玩笑说"它实际上只有3个笑话"。在这种低熵数据上训练只会强化模型的偏见，让它变得更糟。

而且人类其实也经历类似的"坍塌"过程，儿童富有创造力是因为还没"过拟合"到社会规范，会说出令人震惊的话。但成年后我们也"坍塌"了，重复相同的思想，学习率下降，创造力递减。

梦境也可能是大脑的anti-overfitting机制，通过引入随机性防止思维僵化。

所以他提出了一个激进想法：我们需要认知核心。剥离记忆，保留算法。

让AI像"有方法论但没有百科全书的哲学家"，强制它查找而非回忆，专注于思考的meta-skills。

他预测未来20年内，高效的认知核心可能只需要10亿参数，而不是现在动辄千亿参数的模型。

大部分参数都在处理互联网上的"垃圾和胡扯"，如果优化训练数据质量，分离认知组件，就能实现极大压缩。

当前foundation model的路径是否根本错了？

也许我们需要的不是更大的模型，而是更会遗忘的模型？

重新理解AI的发展路径

早期深度强化学习专注游戏（如Atari）其实是走错了方向。真正目标应该是创造能在现实世界执行知识工作的智能体，不是游戏高手。

他回忆自己在OpenAI的早期项目，用键盘鼠标操作网页的智能体，目标是执行知识工作。但项目"太早了"，智能体缺乏必要的"表示能力"，会因稀疏奖励卡住。缺失的关键是强大的预训练模型。今天类似的计算机使用智能体之所以成功，正是因为建立在LLM之上，你需要先有LLM获得强大表示，再构建有效智能体。

他的另一个深刻观察：AI不是独立技术类别，而是自动化连续体的一部分。从编译器、代码编辑器到搜索引擎，再到现在的LLM，我们一直在"抽象阶梯"上向上攀登，让机器处理更多底层细节。

这解释了为什么AI经济影响主要集中在编程领域，代码本身就是文本，有成熟基础设施（IDE、版本控制），LLM可以无缝接入。相比之下，制作幻灯片这种视觉任务就困难得多，因为没有infrastructure让AI显示"diff"或跟踪变化。

但AK也泼了冷水：当前AI编程模型还没准备好真正自动化编程。他亲身体验发现，对于独特的智力密集项目，模型会失败——它们有认知缺陷，误解自定义代码，因为总是默认使用在线常见模式。他感慨"行业跳跃太大，试图假装这很神奇，但其实是垃圾"。

"九进军"的苦涩现实

从Tesla自动驾驶5年经验，AK深知从90%工作的demo到99.9%可靠产品的"九进军"有多艰难。每提升一个九，都需要massive effort。他提到自动驾驶演示从1986年就存在，2014年他在Waymo车上体验了完美驾驶，以为技术很接近完成。但现实是demo到产品的巨大鸿沟，在高风险领域尤其如此。

在Tesla的五年里，他们可能只推进了两三个"九"，还有更多要走。这种现实主义让他对AGI时间线保持谨慎：这是"智能体的十年"，不是"智能体之年"。

当前模型就像"有完美记忆的小孩"或"学者儿童"——能通过博士级测试，却认知上还有严重缺陷：缺乏持续学习、多模态能力、有效使用计算机的能力，以及大脑中海马体、杏仁核等关键组件的类似物。

未来的工作模式：自主滑块

AK预测不会出现"瞬间工作替代"，而是"自主滑块"模式：AI处理80%常规任务，人类监督AI团队并管理最复杂的20%。有趣的是，当AI自动化99%工作时，处理最后1%的人类反而会变得极其有价值，成为整个系统的瓶颈，他们的薪资也会提高。

教育的范式转换

AK对教育未来的洞察：Pre-AGI时代教育是功利性的（为了工作），Post-AGI时代教育将像健身房一样，为了乐趣和个人充实。

他还分享了一个教学技巧：先展示痛点，再给解决方案。通过展示简单方法的局限性来激发学习动机，这样学习者会深刻理解为什么需要复杂解决方案。

最后，要真正掌握知识，就要试着向别人解释。解释的过程会迫使你面对理解中的空白，这又回到了他的核心观点：

限制和困难往往是学习的催化剂。

这 recall 了之前的观点，真正的技术突破往往需要重新思考基础假设。

也许AGI的关键不是让机器记住更多，而是学会智能地遗忘。

859

191

841

214K

windameister retweeted

Andrej Karpathy

@karpathy

8 months ago

Excited to release new repo: nanochat! (it's among the most unhinged I've written). Unlike my earlier similar repo nanoGPT which only covered pretraining, nanochat is a minimal, from scratch, full-stack training/inference pipeline of a simple ChatGPT clone in a single, dependency-minimal codebase. You boot up a cloud GPU box, run a single script and in as little as 4 hours later you can talk to your own LLM in a ChatGPT-like web UI. It weighs ~8,000 lines of imo quite clean code to: - Train the tokenizer using a new Rust implementation - Pretrain a Transformer LLM on FineWeb, evaluate CORE score across a number of metrics - Midtrain on user-assistant conversations from SmolTalk, multiple choice questions, tool use. - SFT, evaluate the chat model on world knowledge multiple choice (ARC-E/C, MMLU), math (GSM8K), code (HumanEval) - RL the model optionally on GSM8K with "GRPO" - Efficient inference the model in an Engine with KV cache, simple prefill/decode, tool use (Python interpreter in a lightweight sandbox), talk to it over CLI or ChatGPT-like WebUI. - Write a single markdown report card, summarizing and gamifying the whole thing. Even for as low as ~$100 in cost (~4 hours on an 8XH100 node), you can train a little ChatGPT clone that you can kind of talk to, and which can write stories/poems, answer simple questions. About ~12 hours surpasses GPT-2 CORE metric. As you further scale up towards ~$1000 (~41.6 hours of training), it quickly becomes a lot more coherent and can solve simple math/code problems and take multiple choice tests. E.g. a depth 30 model trained for 24 hours (this is about equal to FLOPs of GPT-3 Small 125M and 1/1000th of GPT-3) gets into 40s on MMLU and 70s on ARC-Easy, 20s on GSM8K, etc. My goal is to get the full "strong baseline" stack into one cohesive, minimal, readable, hackable, maximally forkable repo. nanochat will be the capstone project of LLM101n (which is still being developed). I think it also has potential to grow into a research harness, or a benchmark, similar to nanoGPT before it. It is by no means finished, tuned or optimized (actually I think there's likely quite a bit of low-hanging fruit), but I think it's at a place where the overall skeleton is ok enough that it can go up on GitHub where all the parts of it can be improved. Link to repo and a detailed walkthrough of the nanochat speedrun is in the reply.

karpathy's tweet photo. Excited to release new repo: nanochat!
(it's among the most unhinged I've written).

Unlike my earlier similar repo nanoGPT which only covered pretraining, nanochat is a minimal, from scratch, full-stack training/inference pipeline of a simple ChatGPT clone in a single, dependency-minimal codebase. You boot up a cloud GPU box, run a single script and in as little as 4 hours later you can talk to your own LLM in a ChatGPT-like web UI.

It weighs ~8,000 lines of imo quite clean code to:

- Train the tokenizer using a new Rust implementation
- Pretrain a Transformer LLM on FineWeb, evaluate CORE score across a number of metrics
- Midtrain on user-assistant conversations from SmolTalk, multiple choice questions, tool use.
- SFT, evaluate the chat model on world knowledge multiple choice (ARC-E/C, MMLU), math (GSM8K), code (HumanEval)
- RL the model optionally on GSM8K with "GRPO"
- Efficient inference the model in an Engine with KV cache, simple prefill/decode, tool use (Python interpreter in a lightweight sandbox), talk to it over CLI or ChatGPT-like WebUI.
- Write a single markdown report card, summarizing and gamifying the whole thing.

Even for as low as ~$100 in cost (~4 hours on an 8XH100 node), you can train a little ChatGPT clone that you can kind of talk to, and which can write stories/poems, answer simple questions. About ~12 hours surpasses GPT-2 CORE metric. As you further scale up towards ~$1000 (~41.6 hours of training), it quickly becomes a lot more coherent and can solve simple math/code problems and take multiple choice tests. E.g. a depth 30 model trained for 24 hours (this is about equal to FLOPs of GPT-3 Small 125M and 1/1000th of GPT-3) gets into 40s on MMLU and 70s on ARC-Easy, 20s on GSM8K, etc.

My goal is to get the full "strong baseline" stack into one cohesive, minimal, readable, hackable, maximally forkable repo. nanochat will be the capstone project of LLM101n (which is still being developed). I think it also has potential to grow into a research harness, or a benchmark, similar to nanoGPT before it. It is by no means finished, tuned or optimized (actually I think there's likely quite a bit of low-hanging fruit), but I think it's at a place where the overall skeleton is ok enough that it can go up on GitHub where all the parts of it can be improved.

Link to repo and a detailed walkthrough of the nanochat speedrun is in the reply.

682

24K

18K

windam

@windameister

about 1 year ago

@llennchan2003 @jessyshen 都要卖了？😂😂

windameister retweeted

John Carmack

@ID_AA_Carmack

about 1 year ago

AI coding is used to generate a lot of bulk code that is often blindly accepted, but it seems there is at least as much opportunity for AI to help make codebases more beautiful. Keeping a codebase in great shape or cleaning up a hairball takes a lot of effort beyond raw functionality, and a tireless AI assistant continuously pouring over everything looking for places to suggest changes should be valuable. AI as a diligent team member instead of your coding genie. While there are factors peculiar to each’s understanding, I believe there are common coding behaviors that improve understanding for both humans and LLMs. It should be possible to run actual objective experiments with “style guides” for LLMs, then intersect them with the politics and fashion of human style guides. Are there any tweaks to be made in LLM tokenization to more closely mirror programming language lexing? Does saving context length settle tabs vs spaces? I would like to see how a notoriously picky team like the @OpenBSD developers could onboard an AI team member.

171

208

629

244K