revlekt

@revlekt

Joined February 2009

302 Following

21 Followers

195 Posts

revlekt retweeted

Garry Tan

@garrytan

about 2 months ago

Knowing what to build, for who, and how to get them to use it is actually harder

220

591

123K

revlekt retweeted

花叔

@AlchainHust

about 2 months ago

读了Anthropic2025年至今的一系列论文和技术文档。然后我从里面看到了一个隐秘的似乎正在被创造过程中的学科：AI心理学

111

30K

revlekt retweeted

陈成

@chenchengpro

2 months ago

看了 @Khazix0918 那条关于横纵分析法的帖子，又把他开源的 khazix-skills 仓库从头到尾翻了一遍，聊聊我的观察。先说背景。作者三年前在金融行业做公司和行业研究，当时就搞了一套方法论。后来 AI 来了，他把这套东西迭代了一下，封装成了 Prompt 和 Skill 两个版本，开源在 GitHub 上。自己说用了两年，是手头最顺手的工具之一。这套方法叫横纵分析法，底层逻辑来自两个学术传统。一个是语言学里索绪尔的历时分析和共时分析，一个是社会科学里的纵向研究和横截面研究。他把这些研究视角抽出来，结合商业竞争战略分析的思路，做成了一个 AI 可执行的通用研究框架。具体操作就两条轴。纵轴沿时间线还原一个事物的完整故事，从诞生到现在，谁做的，经历了什么，为什么在某个节点爆发或掉头。横轴在当下时间点做竞品对比，它跟同赛道的东西有什么不同，用户为什么选它，它在整个赛道里是什么位置。最后把两条轴交叉起来看，能发现单独看任何一条轴都看不到的东西，比如今天的某个优势其实是三年前一个不起眼的决策慢慢积累出来的。他用 Claude 深度研究模式演示了一下，研究对象是 Harness。13 分钟出了一份大概一万字的报告，纵向把历史节点拉得很清楚，横向对比了 Prompt Engineering、Context Engineering 和 Agent Engineering。翻仓库能看到更多细节。整个仓库只有 9 个文件，但信息密度极高。 hv-analysis 这个 Skill 的执行流程是这样的：先拉起并行子 Agent 分三路收集信息（纵向历史、横向竞品、补充资料），还接了 arXiv API 查论文。然后按框架生成报告，纵向分析 6000 到 15000 字，横向分析 3000 到 10000 字，交汇洞察 1500 到 3000 字，最后用 WeasyPrint 生成带封面的 A4 PDF。它还会根据研究对象的类型自动调整侧重，研究产品就重点看版本迭代和功能对比，研究公司就重点看融资历程和商业模式，研究人物就重点看职业轨迹和同领域对比。但真正让我觉得这个仓库被低估的是第二个 Skill，khazix-writer。这是一个微信公众号长文写作 Skill，SKILL.md 有 29.5 KB，几乎是一本完整的写作方法论手册。核心定位一句话：「有见识的普通人在认真聊一件打动他的事」。它定义了五种文章原型：调查实验型（「我替你做了这件事」）、产品体验型（「跟我一起体验」）、现象解读型（「你注意到了吗？背后是什么？」）、工具分享型（「我发现了一个好东西」）、方法论分享型（系统化分享积累经验）。每种原型有不同的叙事结构和节奏。写作技法拆得非常细：长短句混合的节奏感、口语化的故意打断、知识「顺嘴带出」而不是「我来科普」、私人视角连接公共议题、敢于判断有明确好恶、理解对立面后再表达不同观点、文化升维（从具体事件连接到更大的哲学参照）、回环呼应（契诃夫之枪，第一幕挂在墙上的东西第三幕必须响）。还有一套四层自检体系。L1 硬规则扫描，L2 风格一致性检查，L3 内容质量审查，L4 人味终审，最后一层的核心问题就一个：「这是有见识的普通人在聊天，还是 AI 信息输出？」最让我觉得有意思的是它的反向约束设计。大部分人写 Prompt 是告诉 AI 你要怎么写，这个 Skill 花了同样多甚至更多的篇幅告诉 AI 你绝对不能怎么写。禁用冒号和破折号，禁用直引号，禁用「说白了」「本质上」「综上所述」「值得注意的是」这些 AI 死亡标记词，禁止编造案例，禁止用「AI 工具」「某个模型」这种模糊称呼，必须写具体名字。甚至画了一条清晰的人机分工线：AI 负责找证据、扩写、提供背景知识；人类负责一手观察、核心创意、真实情感。AI 绝对不能代替人类生成的是：编造的场景、核心原创洞察、文字里的温度。两个 Skill 可以串联使用，先用 hv-analysis 做深度研究，再用 khazix-writer 把研究结果写成文章。支持 Claude Code、Codex、OpenClaw 直接安装。如果只想用横纵分析法做快速研究，仓库 prompts 目录下有独立 Prompt 版本，复制到任何有深度研究功能的 AI 里就能跑。仓库地址：https://t.co/o8sxfv5plx 原帖最后有一句话我觉得是整件事的核心：这个时代做研究，真正稀缺的不再是信息，而是你对这个世界有多好奇。方法和工具都是后面的事，好奇心在前面。没有好奇心，有再好的方法论也是摆设。

549

113

839

75K

revlekt retweeted

池建强

@sagacity

about 2 months ago

上个月 Claude Code 源代码不是泄漏了吗？很多人根据源代码让 AI 提取了很多相关内容学习，其中最全面的可能是Zhang Alex 同学这本开源书（我做了份 pdf）： https://t.co/fzoWUDchgO 作者认为，Claude Code 源码最佳的“食用”方式应该是转化为一本书，供自己系统学习。显然，看书学习比直接看源码更舒服，也更容易形成完整的认知框架。这本开源书就是作者从 Claude Code 泄漏出来的 TypeScript 源码里提取出来的内容，内容涉及 Claude Code 的每一个子系统——工具注册、Agent Loop、系统提示词、上下文压缩、提示词缓存、权限安全、技能系统。我最近在看这本书，不过这个项目里没有提供 pdf，我做了一个，带目录和索引的，大家可以自取阅读。

459

115

705

51K

Who to follow

山本"Denske"泰照

@torinos

Musician. https://t.co/YnzcfLohuq TuneCore : https://t.co/uYTye4el1n Hobbies: Photography, Go/制作音源ご利用の方はAudiostock→ https://t.co/r0Wi5AxqJn

Markyño

@mtornasol

Creativo Multimodal Alquimista de Sonidos Precolombinos & Electrónica / Wicholly Broders / Curador Musical en Rxh Radio Huarache 105.9 Puebla FM & Babylon Radio

l001oo

@ddk1802

01001110 01100101 01110101 01110010 01101111 01101101 01100001 01101110 01100011 01100101 01110010

revlekt retweeted

Jason Zuo

@xxxjzuo

3 months ago

https://t.co/8xMao1HRcf

741

138

166K

revlekt retweeted

宝玉

@dotey

2 months ago

今天刷到这篇文章几次，说点不一样的。与其说 AI First，不如说软件工程 First。这篇文章看着在讲 AI，底下全是软件工程。抛开后面讲组织和人的部分，原文前半段的重点简单总结一下： AI 时代，人成了瓶颈。PM 花几周做需求，AI 两小时就能实现，PM 成了瓶颈。QA 测三天，AI 写代码只要两小时，QA 成了瓶颈。团队 25 个人，对手几百人，人力也是瓶颈。怎么办？把人从链条里拿掉。AI 写代码、AI 审查代码、AI 跑测试、AI 部署上线、AI 监控线上状态，出了问题自动回滚。每天定时扫描日志，自动发现问题、分配任务、跟踪修复。整条流水线跑起来，人只需要在关键节点做判断。至于文中提到的统一代码库，锦上添花，和 AI First 关系不大。有当然更好，没有也有很多替代方案。整套方案听下来，逻辑自洽，效果也漂亮：一天部署好几次，功能当天上当天撤，数据说了算。但先别急着照搬，先对照自己的情况想几件事：第一，自动化测试。AI 改完代码，你得有办法确认它没搞崩别的功能。测试覆盖不够的话，每次 AI 提交代码你都得人工回归一遍，那速度根本快不起来。第二，CI/CD 流程。从提交代码到部署上线，中间的测试、审查、发布、回滚，是不是全自动跑通了？这条流水线不通，AI 写得再快，代码也堆在那儿等人手动处理。第三，A/B 测试和线上监控。新功能上线之后效果好不好，得有数据说话，效果不好得能随时关掉。没有这套机制，AI 一天产出五个功能，你都不知道哪个该留哪个该砍。第四，任务管理。任务得拆到合适的粒度，生命周期得跟踪得住。一个大而模糊的任务丢给 AI，现在的能力还啃不动。多个 Agent 同时干活的时候，谁做哪个、哪个优先、做到什么程度，这些都得有地方管。第五，系统架构。架构太乱或者压根没有架构的代码，AI 维护起来跟人一样头疼。上下文塞满了还是搞不清边界在哪，改一处崩三处。这几条里如果有做不到的，就得靠人去补。补不上，AI First 就只是一句口号。但假设你全做到了，就能 AI First 了？还是不行。这套玩法只适合一部分场景。什么场景适合？后端逻辑为主、界面不复杂的产品，比如 API 服务、数据处理平台、内部工具。功能好不好，跑一下数据就知道，不需要人去盯着每个像素。原文里的就是个 Agent 平台，本质上是后端驱动的产品，可以用这套打法。再比如早期产品快速试错，功能上了不行就撤，用户预期本来就没那么高，AI 的速度优势能充分发挥。但很多场景玩不转。比如 UI 密集的产品。自媒体天天喊前端已死，但你让 AI 做个复杂界面试试，各种易用性问题、交互细节、视觉还原，它搞不定的。否则马斯克靠 AI 早就改了不知道改版 X 多少次了。比如对功能质量敏感的产品。Anthropic 和 OpenAI 不知道 AI First 吗？他们敢在 Claude Code 和 Codex 上这么搞吗？让 AI 全自动迭代自家的核心产品，用户不骂死才怪。再比如安全性要求高的场景，银行系统、在线交易平台，AI 代码出个差错，那可不是回滚能解决的。 AI First 的方向没有错，它代表的是一种意识的转变：每做一个决策的时候，想一想这件事能不能让 AI 来做，如果不能，缺什么条件，怎么把条件补上。但这种意识要落地，靠的不仅是买几个 AI 工具的订阅，还需要把基础搭好。测试、CI/CD、监控、架构、任务管理，这些做扎实了，AI 的能力自然能释放出来。做不好，加再多 AI 也是在沙子上盖楼。从这个角度看，AI First 的终点未必是让 AI 干所有的活，而是借着这股力量，把你一直想做但没动力做的工程改进，真正推动起来。仰望星空是好的，但也还要脚踏实地。

885

155

995

208K

revlekt retweeted

DAN KOE

@thedankoe

2 months ago

A pattern I've noticed in stuck people: They're always busy. They never stop moving. They have 47 tabs open and a notebook-sized to-do list. But if you ask them what they accomplished this week that actually matters, their mind goes blank. Busyness isn't a badge of honor.

529

13K

439K

revlekt retweeted

Niko

@guishou_56

2 months ago

本来以为前端类的 Skill 已经过剩了，出不了什么新鲜的活了昨天刷到一个叫 Awesome Design 的仓库，将近20K的star 把全球 55 个大厂的设计语言，全塞进了一个 DESIGN.md 里苹果、Spotify、IBM 这些有极好品位的品牌常用的配色、字体、组件，一次全有了用法很简单：把仓库链接发给 Claude Code，让它自己安装配置装好之后让它参考这份设计规范去跑你的项目就行随便跑了几个 case 因为有了这套规范，设计下限直接被拉高了几乎很难再出 AI 味的前端了 https://t.co/DjmPrfoOwF

906

426K

revlekt retweeted

Andrej Karpathy

@karpathy

2 months ago

Judging by my tl there is a growing gap in understanding of AI capability. The first issue I think is around recency and tier of use. I think a lot of people tried the free tier of ChatGPT somewhere last year and allowed it to inform their views on AI a little too much. This is a group of reactions laughing at various quirks of the models, hallucinations, etc. Yes I also saw the viral videos of OpenAI's Advanced Voice mode fumbling simple queries like "should I drive or walk to the carwash". The thing is that these free and old/deprecated models don't reflect the capability in the latest round of state of the art agentic models of this year, especially OpenAI Codex and Claude Code. But that brings me to the second issue. Even if people paid $200/month to use the state of the art models, a lot of the capabilities are relatively "peaky" in highly technical areas. Typical queries around search, writing, advice, etc. are *not* the domain that has made the most noticeable and dramatic strides in capability. Partly, this is due to the technical details of reinforcement learning and its use of verifiable rewards. But partly, it's also because these use cases are not sufficiently prioritized by the companies in their hillclimbing because they don't lead to as much $$$ value. The goldmines are elsewhere, and the focus comes along. So that brings me to the second group of people, who *both* 1) pay for and use the state of the art frontier agentic models (OpenAI Codex / Claude Code) and 2) do so professionally in technical domains like programming, math and research. This group of people is subject to the highest amount of "AI Psychosis" because the recent improvements in these domains as of this year have been nothing short of staggering. When you hand a computer terminal to one of these models, you can now watch them melt programming problems that you'd normally expect to take days/weeks of work. It's this second group of people that assigns a much greater gravity to the capabilities, their slope, and various cyber-related repercussions. TLDR the people in these two groups are speaking past each other. It really is simultaneously the case that OpenAI's free and I think slightly orphaned (?) "Advanced Voice Mode" will fumble the dumbest questions in your Instagram's reels and *at the same time*, OpenAI's highest-tier and paid Codex model will go off for 1 hour to coherently restructure an entire code base, or find and exploit vulnerabilities in computer systems. This part really works and has made dramatic strides because 2 properties: 1) these domains offer explicit reward functions that are verifiable meaning they are easily amenable to reinforcement learning training (e.g. unit tests passed yes or no, in contrast to writing, which is much harder to explicitly judge), but also 2) they are a lot more valuable in b2b settings, meaning that the biggest fraction of the team is focused on improving them. So here we are.

21K

12K

revlekt retweeted

池建强

@sagacity

2 months ago

推荐两本 harness 的公开 pdf 书：《Harness Engineering：Claude Code 设计指南》和《Claude Code 和 Codex 的 Harness 设计哲学》，顺便聊聊 harness，Agent 在去年就人尽皆知了，与之相伴的 harness 为啥现在才冒出来？我看 harness：https://t.co/G0NhOMv2Pr pdf 图书的原推：https://t.co/POv7ZdU5kT

345

160K

revlekt retweeted

AYi

@AYi_AInotes

2 months ago

说实话，今天看到这个，我直接把手里所有其他AI记忆方案全停了🤩🤩🤩 YC总裁Garry Tan，把自己天天在用的生产级AI Agent记忆系统，完整开源了这是他自己跑了很久的真实配置，管着10000+Markdown文件，3000+人物档案，13年的日历数据，5800条苹果笔记，还有所有的会议记录、原创想法现在他把这套东西打包成了GBrain，MIT协议，所有人都可以免费抄作业 github 地址老规矩评论区自取👇

AYi_AInotes's tweet photo. 说实话，今天看到这个，我直接把手里所有其他AI记忆方案全停了🤩🤩🤩

YC总裁Garry Tan，把自己天天在用的生产级AI Agent记忆系统，完整开源了

这是他自己跑了很久的真实配置，管着10000+Markdown文件，3000+人物档案，13年的日历数据，5800条苹果笔记，还有所有的会议记录、原创想法

现在他把这套东西打包成了GBrain，MIT协议，所有人都可以免费抄作业

github 地址老规矩评论区自取👇

551

395K

revlekt retweeted

宝玉

@dotey

2 months ago

Hermes Agent 势头很猛，这几天推荐的人很多，可以关注一下。我自己安装试用了还可以。 Hermes Agent 是由 Nous Research 在今年 2 月底开源的 AI 智能体框架，上线不到两个月，GitHub 星标已经接近三万。这个项目被社区认为是 OpenClaw（龙虾）上线以来，第一个真正意义上的竞争对手。两者都是自托管的开源智能体，都能接入 Telegram、Discord、Slack、WhatsApp 等聊天平台，都支持多模型切换，都走 MIT 协议。但设计哲学完全不同。【1】龙虾是网关，Hermes 是引擎 OpenClaw 的核心是一个 Gateway（网关守护进程），负责统一管理会话、路由和渠道连接，像一个调度中心，把你的各种聊天应用连接到 AI agent。你可以理解为它是一个“多渠道个人助理操作系统”。 Hermes Agent 的核心则是 agent 自身的执行循环。它不是围绕“怎么把消息送到 agent”来设计的，而是围绕“agent 怎么变得越来越强”来设计的。官方管这叫 closed learning loop（闭环学习循环）。【2】会自己写技能的 agent 这是 Hermes 最有意思的地方。当它完成一个复杂任务（通常涉及五次以上工具调用）后，会把整个过程沉淀成一份结构化的技能文档，存成 Markdown 文件。下次遇到类似任务，直接加载这份技能，不用从头解决。更关键的是，这些技能在使用过程中会自我迭代。如果 agent 在执行技能时发现了更好的方法，它会自动更新技能文档。有 Reddit 用户反馈，agent 在两小时内自动生成了三份技能文档后，重复性研究任务的速度提升了 40%。 OpenClaw 也有技能系统，但主要依赖人工编写和社区贡献的技能市场 ClawHub。Hermes 这边等于把“写技能”这件事也交给了 agent 自己。【3】记忆体系的差异两者都声称有跨会话记忆能力，但实现方式不同。 Hermes 用 SQLite 数据库配合全文检索，把所有历史对话存下来，需要时通过搜索加摘要召回。它把记忆分成两层：一层是常驻的关键信息（写在 MEMORY.md 里，每次对话都带上），另一层是全量历史检索（容量无限，按需调用）。 OpenClaw 的记忆则是工作区里的 Markdown 文件，走的是“文件即记忆”的路线，通过语义检索工具来查找。在上下文压缩前会执行一次静默记忆写入，防止压缩丢信息。简单说，Hermes 更像是给 agent 装了一个搜索引擎式的大脑，OpenClaw 更像是给它一个笔记本。【4】安全思路也不一样 Hermes 搞了一套五层纵深防御：用户授权、危险命令审批、容器隔离、凭据过滤、上下文注入扫描。默认对高风险操作（比如执行终端命令、写文件）要人工审批，超时未批准就自动拒绝。 OpenClaw 这边则更强调信任模型和配置审计。它提供了 openclaw security audit 命令，可以一键扫描网关配置的安全隐患。但 OpenClaw 在安全方面的历史记录不太好看，今年 2 月被曝出多个高危漏洞，13.5 万个实例暴露在公网上，技能市场也有超过 300 个恶意技能被发现。【5】要不要换或者选哪一个如果你日常用的 Agent 已经顺手，没必要。如果你之前的龙虾主要是 claude code 的授权现在用不了可以试试这个，但不能保证继续用多久。如果喜欢折腾想试试不同的选择，也可以试试。如果你想要一个“多渠道助理平台”，接入各种聊天工具，用社区现成的技能市场，OpenClaw 的生态更成熟，34.6 万星标不是白来的。如果你更关心 agent 的长期进化能力，想让它用得越久越聪明，或者你是做 AI 研究的，需要生成训练轨迹、跑强化学习实验，Hermes 的架构更对口。它还内建了一个兼容 OpenAI API 的服务端，可以直接作为后端接入 Open WebUI 等第三方界面。 Hermes 跑在 5 美元一个月的 VPS 上就够用，也支持 Docker、SSH 远程、Modal 等 serverless 方案。安装只需要一行 curl 命令。安装不复杂，参考官方文档即可：https://t.co/LeLSL0czFD 爱马仕的英文也是 Hermes。

397

356K

revlekt retweeted

DAN KOE

@thedankoe

2 months ago

You need to write more. Without AI. Without templates. Without knowing what you're writing about. Just you, an idea, and enough time to do the difficult cognitive work necessary to reach true understanding. If you don't, your ability to think will drastically decline.

649

10K

376K

revlekt retweeted

范凯说 AI | Kai on AI

@fankaishuoai

2 months ago

Karpathy 的 LLM Wiki 方案全网刷屏，我拿来跑了一遍。方案很漂亮，但对内容创作者来说有三个硬伤。改了三个地方之后，900 多篇笔记现在全部自动管理。完整方案和实操演示👇

108

214

28K

revlekt retweeted

Andrej Karpathy

@karpathy

2 months ago

Wow, this tweet went very viral! I wanted share a possibly slightly improved version of the tweet in an "idea file". The idea of the idea file is that in this era of LLM agents, there is less of a point/need of sharing the specific code/app, you just share the idea, then the other person's agent customizes & builds it for your specific needs. So here's the idea in a gist format: https://t.co/NlAfEJjtJV You can give this to your agent and it can build you your own LLM wiki and guide you on how to use it etc. It's intentionally kept a little bit abstract/vague because there are so many directions to take this in. And ofc, people can adjust the idea or contribute their own in the Discussion which is cool.

27K

47K

revlekt retweeted

Dovey "Rug The CNY" Wan🪐

@DoveyWanCN

2 months ago

总结一下未来还有用的脑力工作者 (手工工作者, 劳动力工作者还是比较抗ai的) 需要什么特质. 实验了一个月用agent team和human team协作完成任务, 差异巨大 - code familiarity and cs fluency > 要有一定的和“程序交互”的能力, 知道ai能做好和做不好的边界在哪里; 如果没有这个是不可能用好agent - rapid tinker > 就是要会琢磨, 反复上手试, 然后小步迭代, 知道忍住每一步都想要最终答案的那种思维惰性 (因为AI是绝对服从导向, 绝对action bias, 你要答案他总会给你一个答案, 但是这个逻辑链可能是有问题的) 过去的组织是把这个拆成了小块每个人负责一块, 但是现在需要每个人都可以变成mini pm, 去和agent tinker自己手上的事情 - problem selection and execution agency > 选择比努力重要的含金量还在继续增加, 会定义问题/目标, 知道什么事情应该优先自己去pursue, 什么事情可以delegate给agent - ownership in decision, not process > 可以own一个决策, 而不是机械完成一个任务和流程, 就是阶段性做完一个事情给的不是“output” 而是一个decision 暂时想到这么多, 以后想到继续加

revlekt retweeted

kepano

@kepano

2 months ago

I like @karpathy's Obsidian setup as a way to mitigate contamination risks. Keep your personal vault clean and create a messy vault for your agents. I prefer my personal Obsidian vault to be high signal:noise, and for all the content to have known origins. Keeping a separation between your personally-created artifacts and agent-created artifacts prevents contaminating your primary vault with ideas you can't source. If you let the two mix too much it will likely make Obsidian harder to use as a representation of *your* thoughts. Search, bases, quick switcher, backlinks, graph, etc, will no longer be scoped to your knowledge. Only once your agent-facing workflow produces useful artifacts would I bring those into the primary vault.

167

497K

revlekt retweeted

kepano

@kepano

2 months ago

More and more people are using Obsidian as a local wiki to read things your agents are researching and writing. It works best with a separate Obsidian vault that you can fill it with content, e.g. via Obsidian Web Clipper.