Zealen.Lu

@zelianglu

Joined June 2010

521 Following

30 Followers

179 Posts

Zealen.Lu @zelianglu

14 days ago

@xiaohu 西方企业搞事情，都这么没底线的？真的挺无语。

zelianglu retweeted

jietang

@jietang

23 days ago

Recent thoughts: The Shift to Long-Horizon Tasks The most likely breakthrough this year will be in long-horizon tasks. We are moving toward a stage where Large Language Models (LLMs) learn to complete extended, complex missions by interacting with Agent environments. This is perhaps where the true value of LLMs lies. Take cybersecurity as an example: imagine a model that continuously hunts for software bugs and vulnerabilities. While it sounds like a search process, it’s actually the model learning the high-level intuition and methodology of a professional hacker. Unlike humans, AI can run 24/7 without fatigue. It could potentially find exploits at a much higher frequwill ency and claim bounties on platforms like HackerOne or BugCrowd. It sounds fun, but fundamentally, it's a revolution that displaces the hacker. If even hackers are being "disrupted," one can only imagine the impact on general programmers. From One-Person to None-Person Companies Building on long-horizon capabilities, Autonomous Agent Systems (AAS) will inevitably become the next frontier. Last year, we were discussing the rise of the "One Person Company" (OPC). I didn't expect us to move so quickly toward the "None Person Company" (NPC). It’s an ironic twist—we might all end up as NPCs in this new ecosystem. Engineering the Impossible: Memory and Learning To realize the vision above, we must solve three technical pillars: Memory, Continual Learning, and Self-Judging. I used to think these would require massive paradigm shifts and years of research. However, the pressure from both the technical and application sides is so intense that we are seeing these capabilities emerge through ingenious engineering "tricks": Memory: Long context windows (1M+) and RAG have significantly bridged the gap. Continual Learning: While true continual learning remains difficult, the release cycles are shrinking. Global models are updated monthly; domestic models are catching up. If we reach weekly updates by next year, it will effectively function as continual learning. Self-Judging: This remains the most elusive, yet models like Opus 4.7 are already demonstrating early self-correction and judgment capabilities. The Self-Evolving Endgame The most difficult—and most promising—path is Self-Evolution. The current wave is incredibly fierce. I suspect that models like Claude may have already achieved a baseline for self-training: writing their own code, cleaning their own data, generating synthetic data, and then training on it. It might "waste" some compute, but it saves the most precious resources: human labor and time. In the LLM era, speed is everything. Rapid iteration is what creates the cognitive gap between leaders and followers. Claude’s rumored 2-million-chip cluster for next year is likely dedicated to exactly this: autonomous model self-training. Technical Summary: 1M Context: Necessary baseline. Memory & Continual Learning: Prerequisites, likely solved first via "tricky" engineering. Harnessing Environments: The breakthrough point. Self-Judging: The tipping point. Full Self-Training: The endgame. Redefining AGI and the Industry If this is the road to AGI, then AGI’s definition should be the sum of all human collective intelligence, not just an individual’s intelligence. It must possess the creative capacity to produce something as profound as the "Theory of Relativity"—meeting the bar set by Hassabis. During this transition, every APP will need to be reconstructed as AI-native. In fact, we might move past the concept of APPs entirely. The most significant challenge will be the reconstruction of the operating system itself. In the future, you won’t see a traditional desktop; you will see an LLM OS, where applications are "generated on demand." This challenges the 80-year-old Von Neumann architecture and represents a total upheaval of the computer science industry. The Irreversible Wave From completing long-horizon tasks to fully autonomous operations, every sector—Security, Finance, Law, E-commerce—will be reshaped. Many friends have reached out lately, asking how to transform their enterprises to keep pace with AI. But few truly realize that this irreversible process has already begun. As this massive technical wave hits, we must be prepared to act, but we must also start thinking seriously about how to regulate it.

724

148

522

188K

zelianglu retweeted

Berryxia.AI

@berryxia

24 days ago

Codex 现在直接把自己变成了能自己造 AI 产品的工厂。 OpenAI 今天官宣：Codex 新增「OpenAI Developers」插件，能在终端里直接创建 API Key、调用 OpenAI 所有 API。自动把想法变成完整可运行的 AI app 和 agent，完全不用手动配环境、写 boilerplate。

457

509

91K

zelianglu retweeted

Frank Wang 玉伯

@lifesinger

27 days ago

memory 的范围很广，包括但不限于： 1. 和 ChatGPT 等产品聊天时，产品通过对话记录捕获的偏好、事件等信息。 2. 用户主动通过笔记、语音等记录的信息。 3. 用户的阅读、浏览、剪藏、操作等行为产生的信息。包括刷内容时的赞转评等信息。 4. 用户工作场景下的各种信息，比如邮件阅读习惯、工作流审批喜好等各种信息。 5. 用户随身携带的传感器捕获的信息，比如录音卡、摄像卡、手表、戒指、挂件等各种传感器捕获的信息。等等。然而有意思的是，仔细观照自己，会发现上面所有手段能捕获的上下文、记忆等信息，都不如： 6. 用户脑袋发呆时的信息。这里往往藏着灵魂。是最关键的。所以基于记忆的 agent 确实很难有壁垒。无论是大厂还是小厂去做，用户迁移起来，都是一咬牙，就可以直接换用的。真正的壁垒，可能在于通过只言片语，就能猜出用户发呆时会怎么想的 agent 产品。这类产品已经有了一些优秀的雏形，比如 FateTell（强烈推荐大家可试用，只需输入八字，就可捕获你的各种深层的带有部分灵魂的记忆）。再往前一步怎么做。非常值得探索。

15K

Who to follow

廿九

@29n

定投人生：阅读、写作、基金、锻炼。未来的日子，开开心心。

大象

@xmelephant

桃李春风一杯酒，江湖夜雨十年灯。弹唱打鼓不务正业，乐得读书不求甚解，贪财好色游戏人间。互联网从业人员，现在是个出海营销服务公司的合伙人。

zelianglu retweeted

27 days ago

Anthropic 的 Thariq 昨天那篇 HTML 的文章爆了，1.5M 阅读。看上去在讲格式审美，其实他在讲一套全新的工作流。挑几个最有技术含量的点。第一，HTML 不是文档，是 throwaway editor。他举的例子很经典。30 个 Linear ticket 要重排优先级，让 Claude 生成一个 HTML，每个 ticket 做成可拖拽卡片，分 Now / Next / Later / Cut 四列。结尾加一个「copy as markdown」按钮，把最终顺序导出来贴回 Claude Code。这个模式可以套到所有「用文字很难描述」的场景。调动画缓动曲线，调颜色，调 cron，调 regex，全都比纯文本表达高效一个量级。第二，用 HTML 网做 spec，不再用单个 Markdown plan。他的流程是：先让 Claude 生成 6 个不同方向的方案，平铺在一个 HTML 里横向对比。挑一个深入做 mockup 和数据流图。最后写实施计划。开新 session 的时候把整个 HTML 网络当 context 喂回去。 verification agent 也读这堆 HTML。这意味着 spec 不再是给人看的过渡产物，而是 multi agent 协作的共享内存。第三，SVG 是被严重低估的输出格式。让 Claude 把 token bucket 限流逻辑画成 SVG 流程图，关键代码片段做内联注释，加一个 gotchas 段落。一张图比 200 行 Markdown 解释清楚一个数量级。第四，他诚实承认了代价。 HTML 比 Markdown 生成慢 2 到 4 倍，diff 也更难 review。但是在 Opus 4.7 的 1MM context window 下，多出来的 token 在 context 里几乎不可见。这是他做出取舍的关键。讲到底就一句话： Markdown 的隐含假设是「人会从头读到尾」。HTML 的隐含假设是「人只想扫重点和动手改」。后者才符合 AI 时代人和机器协作的真实形态。

186

538K

zelianglu retweeted

Jove. 💚 💧

@0xJoveXu

29 days ago

外面AI已经发展成这样了，还有很多人用着豆包。这种视频流畅度和美观性已经能吊打大多数半吊子剪辑师、插画师了。我想不明白这个世界还有谁能不接触AI

753

183

197K

zelianglu retweeted

得否

@wangdefou

28 days ago

最近也在考虑切换到codex了，刚好可以看一下逸尘大佬的教程，很适合我这种文科生

272

357K

zelianglu retweeted

百年 AI×出海

@yidabuilds

about 1 month ago

AI时代就是这么快啊不用 Seedance, 纯凭借 image 2也能做出牛逼的视频了不过这个思路很显然完全可以再搭配一个seedance 那我们能做出多牛逼的东西呢？😆😆😆

291

470

67K

zelianglu retweeted

Yangyi

@yangyi

about 1 month ago

https://t.co/KXR0QAH2UD

145

302

58K

zelianglu retweeted

松果先森

@songguoxiansen

6 months ago

兄弟们，这种效果的Nano banana pro提示词给你们提取出来了请叫我一声欧巴原作者提示词只贴了图 Nano banana pro提示词（需上传一张参考图）： <instruction> (指令) 分析输入图像的整个构图。识别所有存在的关键主体（无论是单人、群体/情侣、车辆还是特定物体）及其空间关系/互动。生成一个连贯的 3x3 网格“电影印样（Contact Sheet）”，展示在同一环境中完全是这些主体的 9 个不同镜头。你必须调整标准的电影镜头类型以适应内容（例如，如果是群体，保持群体在一起；如果是物体，构图包含整个物体）：第 1 行（建立背景）： ��远景 (ELS)：主体在广阔的环境中显得很小。全景 (LS)：完整的主体或群体从上到下可见（从头到脚 / 从车轮到车顶）。中远景 (美式镜头/四分之三)：构图从膝盖以上（针对人物）或 3/4 视角（针对物体）。第 2 行（核心覆盖）： 4. 中景 (MS)：构图从腰部以上（或物体的中心核心）。聚焦于互动/动作。 5. 中特写 (MCU)：构图从胸部以上。主要主体的亲密构图。 6. 特写 (CU)：紧凑构图于脸部或物体的“正面”。第 3 行（细节与角度）： 7. 大特写 (ECU)：强烈聚焦于关键特征（眼睛、手、标志、纹理）的微距细节。 8. 低角度镜头 (仰视/虫眼)：从地面仰望主体（壮观/英雄感）。 9. 高角度镜头 (俯视/鸟瞰)：从上方俯瞰主体。确保严格的一致性：所有 9 个面板中是相同的人物/物体、相同的衣服和相同的光照。景深应逼真地变化（特写镜头中的背景虚化）。 </instruction> 一个包含 9 个面板的专业 3x3 电影故事板网格。该网格以全面的焦距范围展示输入图像中的特定主体/场景。顶行：宽广环境镜头，全视图，3/4 剪辑（膝上景）。中间行：腰部以上视图，胸部以上视图，脸部/正面特写。底行：微距细节，低角度，高角度。所有帧均具有照片般逼真的纹理，一致的电影级调色，以及针对所分析的主体或物体特定数量的正确构图。

songguoxiansen's tweet photo. 兄弟们，这种效果的Nano banana pro提示词给你们提取出来了

请叫我一声欧巴

原作者提示词只贴了图

Nano banana pro提示词（需上传一张参考图）：

<instruction> (指令)
分析输入图像的整个构图。识别所有存在的关键主体（无论是单人、群体/情侣、车辆还是特定物体）及其空间关系/互动。
生成一个连贯的 3x3 网格“电影印样（Contact Sheet）”，展示在同一环境中完全是这些主体的 9 个不同镜头。
你必须调整标准的电影镜头类型以适应内容（例如，如果是群体，保持群体在一起；如果是物体，构图包含整个物体）：
第 1 行（建立背景）：
��远景 (ELS)：主体在广阔的环境中显得很小。
全景 (LS)：完整的主体或群体从上到下可见（从头到脚 / 从车轮到车顶）。
中远景 (美式镜头/四分之三)：构图从膝盖以上（针对人物）或 3/4 视角（针对物体）。
第 2 行（核心覆盖）：
4. 中景 (MS)：构图从腰部以上（或物体的中心核心）。聚焦于互动/动作。
5. 中特写 (MCU)：构图从胸部以上。主要主体的亲密构图。
6. 特写 (CU)：紧凑构图于脸部或物体的“正面”。
第 3 行（细节与角度）：
7. 大特写 (ECU)：强烈聚焦于关键特征（眼睛、手、标志、纹理）的微距细节。
8. 低角度镜头 (仰视/虫眼)：从地面仰望主体（壮观/英雄感）。
9. 高角度镜头 (俯视/鸟瞰)：从上方俯瞰主体。
确保严格的一致性：所有 9 个面板中是相同的人物/物体、相同的衣服和相同的光照。景深应逼真地变化（特写镜头中的背景虚化）。
</instruction>
一个包含 9 个面板的专业 3x3 电影故事板网格。
该网格以全面的焦距范围展示输入图像中的特定主体/场景。
顶行：宽广环境镜头，全视图，3/4 剪辑（膝上景）。
中间行：腰部以上视图，胸部以上视图，脸部/正面特写。
底行：微距细节，低角度，高角度。
所有帧均具有照片般逼真的纹理，一致的电影级调色，以及针对所分析的主体或物体特定数量的正确构图。

576

zelianglu retweeted

Bear Liu

@bearliu

about 1 month ago

60年来首次范式转移，AI改变的不只是能力你有没有想过，从命令行到图形界面，计算机和人的交互方式其实60年没有本质变化？点点点、输入输入，本质上还是在告诉机器"做什么"。 Nielsen的这篇文章戳中了一个关键点：AI代表的第三个UI范式，根本上反转了控制权。你不再需要拆解步骤去命令机器执行，而是直接告诉它你想要什么结果。从"how"到"what"，看似简单的转变，其实是交互设计60年来最大的转折。但这里有个现实的问题。Nielsen观察到大约50%的人其实说不清自己真正需要什么。所以AI系统的竞争力，逐渐演变成了能否"猜对"用户的隐性意图——不仅仅听你说了什么，还要理解你想要什么。这也解释了为什么目前的混合式界面（既保留点击交互，又加入意图识别）成了现阶段的最优方案。我在做设计时，越来越觉得这个洞察很实用。��的AI产品设计，要在两个范式之间找到平衡：让意图表达更自然，但不放弃用户对过程的可见性和掌控感。这可能是未来AI界面设计的核心竞争力所在。原文链接：https://t.co/2Uh2lFfvzK

114

160

40K

zelianglu retweeted

Yanhua

@yanhua1010

about 2 months ago

卧槽，这个厉害了啊，真是万物皆可HTML HeyGen开源了HyperFrames框架，可以通过Claude Code 构建视频。开源、代理原生框架。HTML 到 MP4。如何安装👇 npx skills add heygen-com/hyperframes

186

157K

zelianglu retweeted

Claude

@claudeai

about 2 months ago

Introducing Claude Design by Anthropic Labs: make prototypes, slides, and one-pagers by talking to Claude. Powered by Claude Opus 4.7, our most capable vision model. Available in research preview on the Pro, Max, Team, and Enterprise plans, rolling out throughout the day.

148K

15K

81K

64M

zelianglu retweeted

歸藏(guizang.ai)

@op7418

about 2 months ago

我靠，HeyGen 发布这个 hyperframes CLI 很强啊跟我之前的一个想法类似，就是它把用纯 HTML 写的那个动效变成��频。然后再接一个（比如 Seedance 2.0 这样的）模型。这样你就可以纯零人工介入，实现人脸出镜的那种科普视频了。比如我发布一个小东西，想讲一下这些功能，我就可以一张照片扔上去，剩下的全交给 Claude Code 搞完。而且它支持 GSAP、Lottie、CSS、Three.js 这种框架去生成视频的效果。理论上你可以拿这套东西构建出任何主流的 AE 特效模板。它支持完整的视频渲染管线，包括获取、编码、音频混合，还有一个编辑器的 UI 界面，你可以手动在这个界面里编辑。这个比原来的 Remotion 完整和强大了非常多，推荐你如果用原来 Remotion 做视频，可以换到这个框架了

354

492

61K

zelianglu retweeted

lidang 立党（劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人）

@lidangzzz

about 2 months ago

总有人说，“有了AI就能做所有的软件，SaaS必然会死掉，可以彻底替代程序员”，结果一看产出的内容，全是小表单、小前端、贪吃蛇、小App、小助手，我问，Zoom挣这么多钱，你怎么不做一个Zoom出来？你知道Zoom的架构吗？Zoom如何做到encoder和decoder在不同架构、不同CPU/GPU、不同设备上适配？如何做到streaming流畅？如何做到滤镜、抠图、背景、美颜和设置同步？如何做全球分布式处理streaming？如何降低延迟？如何做卡顿的处理？这王八蛋彻底不说话了。我反复讲，99%的人，如果不长期深入从事某个行业，他连提出问题、定义问题的能力都没有。当你不是从业者，没有提出问题、定义问题的能力，哪怕你有LLM Agent帮你完成coding工作，你大脑空空，经验空白，认知空缺，只看见个壳子，整个system design到所有模块所有细节一问三不知，你什么也做不出来，你只能撇着大嘴， “给我写个zoom出来” “给我写个搜索引擎出来” “给我写个meta出来” “快给我从头设计规划实现一个Windows操作系统” 无视天量复杂模块和设计细节，觉得“有了AI Agent=可以替代所有程序员”，这种就是纯种大傻逼。（未完待续）

669

311

118K

zelianglu retweeted

AYi

@AYi_AInotes

about 2 months ago

Shopify刚放了个大招，绝大多数人估计半年后才会反应过来。手握3780亿美元年交易额，560万个店铺，Shopify把整个后台的读写权限，全开放给了所有AI Agent，产品、订单、库存、SEO、图片，想改什么改什么。他们片子里有个商家只说了一句帮我优化所有产品的SEO，Claude自动更新了32条商品，重写图片描述，设置元数据，还逐一核对了所有改动。一条指令搞定所有，不用找外包，不用月付200刀买插件，也不用雇人，卧槽真��太吊了(#ﾟДﾟ) 以前一个小Shopify店，每月光插件就要200-500刀，一次SEO审计至少2000刀，雇助理每小时50刀，现在这些全部坍缩成一行指令。 480万个活跃商家，大多管着10到200个商品，以前只能一个个手动改，现在有了Claude Code和MCP协议，每个独立创业者，都相当于拥有了一个五人运营团队。最狠的是，Shopify自己不做 Agent，他们搭了一套协议，让所有智能体都能变成Shopify Agent，这才是真正的平台级布��啊，真的牛逼

458

834K

zelianglu retweeted

小互

@xiaohu

2 months ago

国际版剪影CapCut 上了两个重磅功能： Video Studio：无时间线的画布式 AI 制片工作台抛弃了传统的时间线剪辑模式，内置 AI 编剧 Agent + 分镜板 + Seedance 2.0 视频生成从想法到成片全部再一个画布内搞定 AI Video：嵌在编辑器里的生成能力，剪辑时随时调用 Seedance 2.0 补一段素材，告别到处找素材的烦恼传统剪辑软件的核心是时间线，所有素材按时间顺序排列，你一帧一帧往前推。 Video Studio 换了个思路，用画布取代时间线。你可以把它理解成一个 AI 版的 Miro（在线白板工具），但专门用来做视频。打开 Video Studio，你能选三种项目类型：画布项目、故事板项目、自动生成。你在一块无限大的画布上铺开所有素材，AI Agent 帮你构思剧情、写脚本、搭故事结构。故事板功能把剧本拆成一个个镜头卡片，每张卡片可以单独生成画面。你觉得哪个镜头不满意，直接在卡片上通过AI Video改，不用像传统剪辑那样在时间线上来回拖。

448

110

474

59K

zelianglu retweeted

Berryxia.AI

@berryxia

2 months ago

🔥兄弟们，太离谱了…… Rork Max Publishing 直接把 App Store 发布全自动化了！ AI 帮你写描述、生成美图、做 iPad 截图、模拟评论避坑、最后还帮你提交。以前最烦的截图和审核准备，现在零触摸完成。

504

106

812

47K

zelianglu retweeted

Bear Liu

@bearliu

2 months ago

Figma 允许 Agent 直接操作画布了，喜大普奔啊，设计师朋友们。缺的那个环节，现在可以补上了。从 Code 到 Design，从 Design 到 Code，在画布里用 Agent 来 design。Yeah！

188

171

34K

zelianglu retweeted

AYi

@AYi_AInotes

2 months ago

Architects are going to hate this🥹 喵个咪太快了，AI杀到建筑业了，直接干碎了每年5000美元的软件授权费😂 有大神刚开源了一整套完整的3D建筑编辑器，全程在浏览器里就能跑，不用AutoCAD。不用Revit，不用每年掏5000美元的软件授权费，它叫Pascal Editor。基于React Three Fiber和WebGPU开发，直接调用本地显卡，��出接近原生桌面软件的渲染速度。它的能力完全不输付费工具： → 完整的建筑/楼层/墙体/区域层级体系，支持实时3D编辑 → ECS架构，所有对象通过GPU驱动的更新系统渲染 → 内置Zustand状态管理，完整支持撤销/重做操作 → 基于Next.js开发，部署成网页就能用，完全不用安装桌面软件 → 脏节点追踪技术，只重渲染改动部分，不用每次刷新整个场景最狠的是，你可以堆叠、拆解、单独查看任意楼层，选中区域拖墙体、改楼板形状，全程3D可视化操作，全程都在浏览器里完成，建筑事务所为了这套工作流，单套BIM软件每年要付5万美元以上，而这个工具，完全免费，100%开源，你觉得它会颠覆现在的设计软件市场吗？ github 地址放评论区了��

498

330K

Zealen.Lu

@zelianglu

Who to follow

Last Seen Users on Sotwe

Trends for you

Most Popular Users