MemeInformation 🔔｜AI First

@MemeInformation

AI = story + impact, not just scores. Let’s walk out of this foggy forest together. mail：[email protected]

Joined May 2025

404 Following

5K Followers

760 Posts

MemeInformation 🔔｜AI First @MemeInformation

about 15 hours ago

@dotey 笑死我了

197

MemeInformation 🔔｜AI First @MemeInformation

3 days ago

@ong_kil 闹呢

547

MemeInformation 🔔｜AI First @MemeInformation

26 days ago

时代少年团大概也没想到，自己有一天会以这种方式进入中国 AI 行业史。事情最开始很像一个饭圈小插曲。有人测试自家爱豆马嘉祺，发现模型明明知道他是谁，能说出团体身份、经历和相关背景，可一到要输出马嘉祺这三个字，就开始绕路、回避、卡壳。这件事发到社媒后，很快从粉丝吐槽变成技术圈围观。大家一边觉得好笑，一边又忍不住好奇：一个大模型既然知道马嘉祺是谁，为什么偏偏说不出他的名字？后来 MiniMax 的小哥回应了这个问题，并且把内部排查过程整理成了一篇技术 Blog。我看完之后最大的感受是，最严苛的 AI QA，有时候真的藏在饭圈里。很多人看到这个案例，第一反应会是：模型都知道他是时代少年团成员了，怎么会说不出名字？但这恰好是大模型最容易被误解的地方。对模型来说，知道一个人是谁，和把这个人的名字准确生成出来，并不是同一件事。大模型内部大致有两条链路。输入侧的 embedding，负责把文字变成模型能处理的向量。输出侧的 lm_head，负责把模型内部的向量再变回具体文字。也就是说，模型可能还保留着马嘉祺这个人的语义位置，知道他和时代少年团、队长、综艺这些信息有关。但到了最后一步生成文字时，它未必还能稳定把马嘉祺这几个字拿出来。这有点像我们平时遇到的人名卡壳。你知道这个人长什么样，知道他做过什么，甚至知道他和谁有关，可就是一瞬间想不起来他的名字。当然，大模型的卡壳不是人类记忆问题，背后是更底层的 token 机制。这里最关键的角色，叫 tokenizer。它会先把文字切成一个个 token，模型最终也只能在自己的词表里选择 token 输出。马嘉祺这个名字里，马被切成一个 token，嘉祺被切成另一个 token。问题就出在嘉祺这个 token 上。 MiniMax小哥排查后发现，嘉祺这个 token 在预训练阶段其实学得不错。它的 embedding 正常，语义近邻也很合理，附近有亚轩、千玺、耀文、肖战这类明星或人名 token。换句话说，模型早期确实知道嘉祺这个词应该待在什么语义区域里。真正的问题出现在后训练阶段。后训练数据里，嘉祺这个 token 出现不足 5 条。它在预训练时被学过，进入后训练后却几乎没再被当作生成目标训练。时间一长，输入侧的 embedding 还比较稳定，输出侧的 lm_head 却开始漂移。这就解释了那个现象：模型还认识这个词，但不太会生成这个词了。另外MiniMax 在排查马嘉祺问题时，还顺手串起了另一个看起来完全不相关的 bug：日语对话里偶尔混入俄语。一个是中文明星名字说不出，一个是日语输出冒出俄语，乍一看八竿子打不着。但从底层看，它们指向的是同一个问题：后训练数据对部分 token 覆盖不足，导致这些 token 的 lm_head 表征发生漂移，最后在生成时被错误召回。 Blog 里有一个数字很刺眼。在 baseline 模型里，29.7% 的日语 token，SFT 前后的 lm_head cosine similarity 跌破了 0.95。相比之下，韩语是 3.3%，俄语是 3.7%，中文是 3.9%，英文和 Latin 是 3.5%。这个差距说明，后训练数据的质量评估，不能只看任务有没有覆盖、领域有没有覆盖、指令能力有没有提升，还要看一个更底层的问题：词表里的每个 token，有没有在后训练里被好好照顾到。如果某些 token 在预训练阶段进了词表，后训练阶段又几乎消失，它们就可能成为模型里的冷门住户。平时没人找它们，真到需要它们出场的时候，它们已经站错位置了。这个问题放到更大范围看，还挺像一次互联网语料考古。 MiniMax 小哥排查变化最大的 token 时，发现里面不只有马嘉祺，还有大量预训练语料里残留的旧互联网痕迹，比如传奇私服、外墙涂装等。这些词之所以能进入词表，很多时候只是因为早期爬虫语料里出现得太频繁。这也很有讽刺感。我们以为大模型学习的是人类文明知识，结果它的词表深处，还住着一批古早 SEO 垃圾。它们平时不会出现在正常对话里，却依然是模型历史的一部分。修复思路也很朴素。 MiniMax 做了一个实验：把全量 20 万左右的词表随机拆分，用请重复以上内容这样的任务，构造约 500 条对话数据，让每个 token 至少作为 target 出现 20 次。听上去像让模型做抄写作业。但效果很明显。日语到俄文的混淆率，从 baseline 的 47% 降到 1%。马嘉祺 case 也能正常输出了。这说明有些大模型问题，其实只要找到真正的断点，用足够克制的工程方式补上，效果就会很直接。这里也能顺手理解最近行业里关于 tokenizer 的讨论。有些路线会选择加法，保住更完整的词表，通过数据覆盖和训练策略来维护它。有些路线会选择减法，把覆盖不到、维护成本高的 token 从词表里裁掉。前者更重，后者更省，但代价不同。词表越完整，模型对长尾名词、专有名词的兼容性可能更好。词表越精简，训练和推理可能更高效，但用户有时候也需要花更多 token 去表达同样的内容。我觉得这篇 Blog 真正有价值的地方，也在这里。它没有把问题轻轻带过。它把一个很好笑的 bug，拆成 tokenizer、embedding、lm_head、后训练数据分布、词表覆盖度几个层次，再用实验把修复路径跑了一遍。它暴露的是一个更长期的问题：当模型从预训练走向后训练，哪些能力被增强了，哪些冷门 token 被遗忘了，哪些语种因为覆盖不足开始漂移，这些都需要被看见。这也是这次回应比较加分的地方。大多数公司遇到这种 bug，可能会选择降低声量。因为从传播学角度看，大模型不认识马嘉祺这个说法太容易变成玩梗素材。但 MiniMax 这次把它讲清楚了。马嘉祺也意外成为一个入口，让更多人看见，大模型不是神奇魔法，也不是万能百科。它有自己的结构、路径和盲区。很多看起来玄学的问题，拆到底，往往都是工程问题。 AI 行业有时候总喜欢聊宏大的东西，AGI、智能涌现、下一代入口。但我越来越觉得，很多真正推动行业变好的问题，往往就藏在这种很小、很具体、甚至有点好笑的 case 里。

MemeInformation's tweet photo. 时代少年团大概也没想到，自己有一天会以这种方式进入中国 AI 行业史。

事情最开始很像一个饭圈小插曲。

有人测试自家爱豆马嘉祺，发现模型明明知道他是谁，能说出团体身份、经历和相关背景，可一到要输出马嘉祺这三个字，就开始绕路、回避、卡壳。

这件事发到社媒后，很快从粉丝吐槽变成技术圈围观。

大家一边觉得好笑，一边又忍不住好奇：一个大模型既然知道马嘉祺是谁，为什么偏偏说不出他的名字？

后来 MiniMax 的小哥回应了这个问题，并且把内部排查过程整理成了一篇技术 Blog。

我看完之后最大的感受是，最严苛的 AI QA，有时候真的藏在饭圈里。

很多人看到这个案例，第一反应会是：模型都知道他是时代少年团成员了，怎么会说不出名字？

但这恰好是大模型最容易被误解的地方。

对模型来说，知道一个人是谁，和把这个人的名字准确生成出来，并不是同一件事。

大模型内部大致有两条链路。

输入侧的 embedding，负责把文字变成模型能处理的向量。

输出侧的 lm_head，负责把模型内部的向量再变回具体文字。

也就是说，模型可能还保留着马嘉祺这个人的语义位置，知道他和时代少年团、队长、综艺这些信息有关。

但到了最后一步生成文字时，它未必还能稳定把马嘉祺这几个字拿出来。

这有点像我们平时遇到的人名卡壳。

你知道这个人长什么样，知道他做过什么，甚至知道他和谁有关，可就是一瞬间想不起来他的名字。

当然，大模型的卡壳不是人类记忆问题，背后是更底层的 token 机制。

这里最关键的角色，叫 tokenizer。

它会先把文字切成一个个 token，模型最终也只能在自己的词表里选择 token 输出。

马嘉祺这个名字里，马被切成一个 token，嘉祺被切成另一个 token。

问题就出在嘉祺这个 token 上。

MiniMax小哥排查后发现，嘉祺这个 token 在预训练阶段其实学得不错。

它的 embedding 正常，语义近邻也很合理，附近有亚轩、千玺、耀文、肖战这类明星或人名 token。

换句话说，模型早期确实知道嘉祺这个词应该待在什么语义区域里。

真正的问题出现在后训练阶段。

后训练数据里，嘉祺这个 token 出现不足 5 条。

它在预训练时被学过，进入后训练后却几乎没再被当作生成目标训练。

时间一长，输入侧的 embedding 还比较稳定，输出侧的 lm_head 却开始漂移。

这就解释了那个现象：模型还认识这个词，但不太会生成这个词了。

另外MiniMax 在排查马嘉祺问题时，还顺手串起了另一个看起来完全不相关的 bug：日语对话里偶尔混入俄语。

一个是中文明星名字说不出，一个是日语输出冒出俄语，乍一看八竿子打不着。

但从底层看，它们指向的是同一个问题：后训练数据对部分 token 覆盖不足，导致这些 token 的 lm_head 表征发生漂移，最后在生成时被错误召回。

Blog 里有一个数字很刺眼。

在 baseline 模型里，29.7% 的日语 token，SFT 前后的 lm_head cosine similarity 跌破了 0.95。

相比之下，韩语是 3.3%，俄语是 3.7%，中文是 3.9%，英文和 Latin 是 3.5%。

这个差距说明，后训练数据的质量评估，不能只看任务有没有覆盖、领域有没有覆盖、指令能力有没有提升，还要看一个更底层的问题：词表里的每个 token，有没有在后训练里被好好照顾到。

如果某些 token 在预训练阶段进了词表，后训练阶段又几乎消失，它们就可能成为模型里的冷门住户。

平时没人找它们，真到需要它们出场的时候，它们已经站错位置了。

这个问题放到更大范围看，还挺像一次互联网语料考古。

MiniMax 小哥排查变化最大的 token 时，发现里面不只有马嘉祺，还有大量预训练语料里残留的旧互联网痕迹，比如传奇私服、外墙涂装等。

这些词之所以能进入词表，很多时候只是因为早期爬虫语料里出现得太频繁。

这也很有讽刺感。

我们以为大模型学习的是人类文明知识，结果它的词表深处，还住着一批古早 SEO 垃圾。

它们平时不会出现在正常对话里，却依然是模型历史的一部分。

修复思路也很朴素。

MiniMax 做了一个实验：把全量 20 万左右的词表随机拆分，用请重复以上内容这样的任务，构造约 500 条对话数据，让每个 token 至少作为 target 出现 20 次。

听上去像让模型做抄写作业。

但效果很明显。

日语到俄文的混淆率，从 baseline 的 47% 降到 1%。

马嘉祺 case 也能正常输出了。

这说明有些大模型问题，其实只要找到真正的断点，用足够克制的工程方式补上，效果就会很直接。

这里也能顺手理解最近行业里关于 tokenizer 的讨论。

有些路线会选择加法，保住更完整的词表，通过数据覆盖和训练策略来维护它。

有些路线会选择减法，把覆盖不到、维护成本高的 token 从词表里裁掉。

前者更重，后者更省，但代价不同。

词表越完整，模型对长尾名词、专有名词的兼容性可能更好。

词表越精简，训练和推理可能更高效，但用户有时候也需要花更多 token 去表达同样的内容。

我觉得这篇 Blog 真正有价值的地方，也在这里。

它没有把问题轻轻带过。

它把一个很好笑的 bug，拆成 tokenizer、embedding、lm_head、后训练数据分布、词表覆盖度几个层次，再用实验把修复路径跑了一遍。

它暴露的是一个更长期的问题：当模型从预训练走向后训练，哪些能力被增强了，哪些冷门 token 被遗忘了，哪些语种因为覆盖不足开始漂移，这些都需要被看见。

这也是这次回应比较加分的地方。

大多数公司遇到这种 bug，可能会选择降低声量。

因为从传播学角度看，大模型不认识马嘉祺这个说法太容易变成玩梗素材。

但 MiniMax 这次把它讲清楚了。

马嘉祺也意外成为一个入口，让更多人看见，大模型不是神奇魔法，也不是万能百科。

它有自己的结构、路径和盲区。

很多看起来玄学的问题，拆到底，往往都是工程问题。

AI 行业有时候总喜欢聊宏大的东西，AGI、智能涌现、下一代入口。

但我越来越觉得，很多真正推动行业变好的问题，往往就藏在这种很小、很具体、甚至有点好笑的 case 里。

895

MemeInformation 🔔｜AI First @MemeInformation

about 1 month ago

@CuiMao 约饭吗cuimao姐姐

MemeInformation 🔔｜AI First @MemeInformation

about 2 months ago

有一种创作的挫败感，几乎每个人都经历过，你脑子里明明有一个完整的画面，眼前却只剩空白。你开始打字，AI 给你渲染出一段视频，你看了十秒，意识到不对，就差那么一点，却不知道下一步该怎么办。退出，重来，等待，得到另一个差那么一点。因为整个交互的逻辑错了。 4月16日，阿里ATH事业群发布了世界模型产品HappyOyster（快乐生蚝）。这是同一个孵化出HappyHorse的团队，带来的一次更具野心的尝试，他们想解决的，是一个根本性的问题：当AI构建的世界出现在你面前，为什么你只能是个旁观者？过去两年，文生视频的技术进步有目共睹，生成质量飞速提升，但交互范式几乎没有变过：输入提示词，等待渲染，收到成片。这是一条单向的传送带，用户站在终点等货。 HappyOyster要打破的，正是这个链条。它提供四个核心能力。漫游模式（Wander）让用户从一张图或一句话出发，生成具备物理一致性的完整空间，场景持续存在，光照随视角变化，还可以自由拖拽镜头、延伸探索，目前支持1分钟连续实时位移和多样风格切换。导演模式（Direct）则允许用户在视频任意节点通过文字、语音或图像介入世界演化，改写剧情、调度角色、切换镜头，目前支持连续生成3分钟以上的480p或720p实时画面。创造让用户持续补充设定、角色、场景和规则。分享则让数字世界可以被保存、被他人继续体验和二次创作。漫游和导演两种模式之间存在微妙的区别：漫游更接近身临其境，导演更接近掌控叙事。而创造与分享，则让这种交互进一步从一次性的体验延伸为持续搭建、持续流转的内容过程。它们代表着几种不同的创作欲望，也指向了AI内容交互的几个尚未被充分挖掘的维度。 HappyOyster所属的技术流派，世界模拟器，在AI领域仍是相对小众的前沿赛道，与谷歌的Genie3同属一个方向。要理解它和文生视频的区别，不妨做一个类比：文生视频模型更像是一位摄影师，接到委托，拍好交付。而世界模型更像是一位物理引擎，持续运行着一个包含空间、重力、因果规律的虚拟宇宙，摄影机只是进入这个宇宙的其中一种方式。技术层面的差异是本质性的。传统文生视频模型的建模目标是生成一段合理的画面序列，而世界模型的建模目标是预测一个世界的演化方式。前者完成后即告一段落，后者在整个过程中持续推演。这意味着模型需要真正理解空间位置关系、物体的物理属性、角色动作的因果逻辑，而不只是让画面看起来顺滑。相较于谷歌Genie3，HappyOyster在技术路径上做出了几个有趣的选择。它采用了时间跨度更长的世界演化建模方式，让模型在更宏观的时序框架下保持场景的高保真度。同时，它在建模之初就引入了多样的控制信号，文本、动作指令、图像参考，使得生成质量、长时序与实时可控性能够在同一个框架内协同优化，而不是相互取舍。产品层面的差异则体现在独家的实时导演功能，以及漫游模式更强的风格泛化能力和动态表现力。再往前一步看，创造与分享能力的补充，也让HappyOyster呈现出一个更完整的产品闭环：从进入世界、干预世界，到搭建世界、传播世界。世界模型现阶段的技术成熟度仍在早期，但它已经开始改变某些行业的工作流。在游戏原型设计领域，开发者不再需要搭建完整的关卡就能验证玩法感受，他们可以用HappyOyster快速生成一个可玩的空间原型，在其中测试叙事节奏、光照氛围和空间体验。在影视创作中，分镜验证的成本被极大压缩。导演可以在正式开机之前，用自然语言描述想象中的场景，实时获得可修改的视觉参考，并在任意节点调整镜头语言和角色调度，让创意验证从等待渲染变成实时对话。我个人认为更长远的方向，是与穿戴设备等智能硬件结合，根据用户的位置、动作和语言，实时生成响应性的沉浸内容，让数字世界和现实空间真正产生共振。而当这些内容能够被保存、分享，再被其他人继续接力创造时，HappyOyster想做的就变成了一个可以不断生长的数字世界入口。必须承认，世界模型距离大规模商业落地还有相当的距离。漫游与导演两大模式目前尚未完全打通，真正意义上的边探索边创造还停留在路线图阶段。画面质量、物理一致性、生成稳定性，都还有肉眼可见的提升空间。但这恰恰是这个方向最有意思的地方：它的技术可能性还远未被触及天花板，而它描绘的那个愿景，每个人都拥有一个可以随时进入、随时修改、实时反馈的数字世界，足够清晰，足够令人心动。

MemeInformation's tweet photo. 有一种创作的挫败感，几乎每个人都经历过，你脑子里明明有一个完整的画面，眼前却只剩空白。

你开始打字，AI 给你渲染出一段视频，你看了十秒，意识到不对，就差那么一点，却不知道下一步该怎么办。

退出，重来，等待，得到另一个差那么一点。

因为整个交互的逻辑错了。

4月16日，阿里ATH事业群发布了世界模型产品HappyOyster（快乐生蚝）。

这是同一个孵化出HappyHorse的团队，带来的一次更具野心的尝试，他们想解决的，是一个根本性的问题：当AI构建的世界出现在你面前，为什么你只能是个旁观者？

过去两年，文生视频的技术进步有目共睹，生成质量飞速提升，但交互范式几乎没有变过：输入提示词，等待渲染，收到成片。

这是一条单向的传送带，用户站在终点等货。

HappyOyster要打破的，正是这个链条。

它提供四个核心能力。

漫游模式（Wander）让用户从一张图或一句话出发，生成具备物理一致性的完整空间，场景持续存在，光照随视角变化，还可以自由拖拽镜头、延伸探索，目前支持1分钟连续实时位移和多样风格切换。

导演模式（Direct）则允许用户在视频任意节点通过文字、语音或图像介入世界演化，改写剧情、调度角色、切换镜头，目前支持连续生成3分钟以上的480p或720p实时画面。

创造让用户持续补充设定、角色、场景和规则。

分享则让数字世界可以被保存、被他人继续体验和二次创作。

漫游和导演两种模式之间存在微妙的区别：漫游更接近身临其境，导演更接近掌控叙事。

而创造与分享，则让这种交互进一步从一次性的体验延伸为持续搭建、持续流转的内容过程。

它们代表着几种不同的创作欲望，也指向了AI内容交互的几个尚未被充分挖掘的维度。

HappyOyster所属的技术流派，世界模拟器，在AI领域仍是相对小众的前沿赛道，与谷歌的Genie3同属一个方向。

要理解它和文生视频的区别，不妨做一个类比：文生视频模型更像是一位摄影师，接到委托，拍好交付。

而世界模型更像是一位物理引擎，持续运行着一个包含空间、重力、因果规律的虚拟宇宙，摄影机只是进入这个宇宙的其中一种方式。

技术层面的差异是本质性的。

传统文生视频模型的建模目标是生成一段合理的画面序列，而世界模型的建模目标是预测一个世界的演化方式。

前者完成后即告一段落，后者在整个过程中持续推演。

这意味着模型需要真正理解空间位置关系、物体的物理属性、角色动作的因果逻辑，而不只是让画面看起来顺滑。

相较于谷歌Genie3，HappyOyster在技术路径上做出了几个有趣的选择。

它采用了时间跨度更长的世界演化建模方式，让模型在更宏观的时序框架下保持场景的高保真度。

同时，它在建模之初就引入了多样的控制信号，文本、动作指令、图像参考，使得生成质量、长时序与实时可控性能够在同一个框架内协同优化，而不是相互取舍。

产品层面的差异则体现在独家的实时导演功能，以及漫游模式更强的风格泛化能力和动态表现力。

再往前一步看，创造与分享能力的补充，也让HappyOyster呈现出一个更完整的产品闭环：从进入世界、干预世界，到搭建世界、传播世界。

世界模型现阶段的技术成熟度仍在早期，但它已经开始改变某些行业的工作流。

在游戏原型设计领域，开发者不再需要搭建完整的关卡就能验证玩法感受，他们可以用HappyOyster快速生成一个可玩的空间原型，在其中测试叙事节奏、光照氛围和空间体验。

在影视创作中，分镜验证的成本被极大压缩。

导演可以在正式开机之前，用自然语言描述想象中的场景，实时获得可修改的视觉参考，并在任意节点调整镜头语言和角色调度，让创意验证从等待渲染变成实时对话。

我个人认为更长远的方向，是与穿戴设备等智能硬件结合，根据用户的位置、动作和语言，实时生成响应性的沉浸内容，让数字世界和现实空间真正产生共振。

而当这些内容能够被保存、分享，再被其他人继续接力创造时，HappyOyster想做的就变成了一个可以不断生长的数字世界入口。

必须承认，世界模型距离大规模商业落地还有相当的距离。

漫游与导演两大模式目前尚未完全打通，真正意义上的边探索边创造还停留在路线图阶段。

画面质量、物理一致性、生成稳定性，都还有肉眼可见的提升空间。

但这恰恰是这个方向最有意思的地方：它的技术可能性还远未被触及天花板，而它描绘的那个愿景，每个人都拥有一个可以随时进入、随时修改、实时反馈的数字世界，足够清晰，足够令人心动。

710

MemeInformation 🔔｜AI First @MemeInformation

about 2 months ago

@la_dj92847 @biantaichuzi 你长得像我下一个女朋友

109

MemeInformation 🔔｜AI First @MemeInformation

about 2 months ago

@CuiMao cuimao失恋了

148

MemeInformation 🔔｜AI First @MemeInformation

about 2 months ago

@jjgfscbd 马工还是太先进了

215

MemeInformation 🔔｜AI First @MemeInformation

about 2 months ago

上周我去参加一场只有20个早期创始人的闭门会，散场的时候我等滴滴，站在路边吹了十分钟风。那十分钟里，我脑子里反复冒出来一个判断：创始人的角色，可能真的在变。以前大家默认，创始人首先是人员管理者。要招人，要盯执行，要管流程，还要不断处理团队磨合、效率波动和人员流失。公司想做大，第一反应往往也是继续招人，把组织铺开，把岗位补齐。但我现在越来越强烈地感觉到，创始人的角色，正在从人员管理者，变成Agent管理者。你不用天天蹲在工位盯执行，不用一轮一轮招人。你更需要做的，是把需求提清楚，把流程拆明白，把关键节点定义好，然后指挥不同分工的Agent，把销售获客、内容生产、用户客服这些全链路的活跑起来。我在闭门会上见了个做ToB业务的创始人，整个公司明面挂着的人类员工只有三个，剩下二十多个岗位全是Agent。每个Agent都有固定分工和沟通风格，对接客户的销售Agent说话永远干脆，处理售后的客服Agent永远耐心。客户跟他们合作了大半年，根本没察觉对面不是真人。现在这种Agent团队，已经越来越像一种新的组织形态，7*24小时待命，随时开工。并且这不只是公司变轻了，这是公司的成本结构和交付方式都在变。我身边就有个做垂直行业知识库的朋友，就他一个人，养了十几个Agent做内容更新、用户答疑、续费提醒，现在有120个付费客户，每个月每人付399，一个月流水接近五万，扣掉服务器和API调用成本，纯利还有四万多。放在以前，这点收入未必养得起一个十人团队。光是内容、运营、客服这些人力成本，就已经把利润吃掉不少。很多原本需要多人协作完成的标准化工作，现在都能被拆成流程，再交给不同Agent并行执行。谁更新内容，谁回答问题，谁做续费提醒，谁整理客户反馈，都可以被设计进一套持续运转的系统里。这样一来，公司的瓶颈也变了。过去的核心问题，是怎么招更多人、怎么把人管好。现在越来越多小公司的核心问题，正在变成你能不能把任务拆清楚，能不能把流程搭起来，能不能把Agent协作跑顺。这也是我最近反复在想的一件事。过去大家信奉人海战术，觉得多招人、多铺团队、多设岗位，组织就更稳，交付就更快。这个逻辑在过去当然成立，因为很多事情确实只能靠人堆出来。但现在，这个逻辑开始松动了。因为人一多，沟通成本、协作成本、管理成本都会迅速上升。很多团队表面上很热闹，实际上大量时间都消耗在对齐、返工、等待和内耗上。岗位越多，链条越长，响应速度反而越慢。很多公司最后输的，不是能力不够，是组织太重，动作太慢。 Agent带来的变化就在这里。它不一定会立刻替掉所有人，但会优先吞掉那些重复的、标准化的、可拆解的工作环节。一旦这些环节被系统接管，传统靠堆人维持效率的方式，就会越来越不划算。你招十个人才能跑起来的业务，别人三个人加几十个Agent就能做。你还在为招聘、培训、考核和流失头疼，别人已经把主要精力放在定义需求、优化流程和提升结果上了。所以我越来越觉得，未来几年，拼的不会是谁团队更大，拼的是谁更早把公司改造成一个人类指挥、一群Agent执行的新系统。先跑通的人，会把小赛道的利润先吃掉。人海战术不会一下子消失，但它最风光的阶段，可能真的快过去了。

301

MemeInformation 🔔｜AI First @MemeInformation

about 2 months ago

招聘Agent开发工程师（实习）薪资待遇 200-400元/天岗位职责 - 参与公司Agent产品的设计与开发工作，协助完成前后端全栈开发任务，包括管理后台、用户交互界面、工作流编排系统、任务调度系统及相关服务接口的开发与优化。 - 基于大语言模型（LLM），协助构建高可用的Agent生产能力，参与Prompt优化、上下文管理、记忆机制、工具调用、长文本生成及多轮迭代策略的设计与落地。 - 协助完成RAG检索增强系统的设计与优化，打通知识库、案例库等内容资产，提升Agent对业务需求的理解与响应能力。 - 参与Agent的多Agent协作、工作流协同能力建设，协助解决任务拆解、流程编排、记忆管理等关键问题。 - 与业务团队深度协作，深入理解真实业务场景的需求与痛点，协助优化Agent的可用性、交付质量及生产效率。 - 跟踪自然语言处理、大模型应用、Agent框架的前沿技术，协助推动新技术在业务中的验证与落地。 - 协助完成相关系统的部署、监控、性能优化与稳定性维护，保障Agent平台的持续可用与高效迭代。必备要求 - 本科及以上学历，计算机、软件工程、人工智能、自然语言处理等相关专业，在校学生（可保证稳定实习时长优先）。 - 具备扎实的工程基础，熟练掌握Java或GO编程语言，具备良好的编码规范与逻辑思维。 - 了解Web开发基础，熟悉前后端分离架构，能够协助完成管理后台、内容工作台等简单功能的开发与调试。 - 对LLM应用开发有一定了解，熟悉Prompt Engineering、上下文工程、工具调用等基础概念，有相关实践经验者优先。 - 了解RAG相关技术原理，能够协助完成知识切片、向量检索等基础工作。 - 具备较强的学习能力、问题分析能力与执行力，能够快速适应业务节奏，主动推进任务落地。 - 具备良好的沟通协作能力，能够配合团队完成协作任务，乐于分享与交流技术。加分项 - 有完整的Web产品开发实习经验，能够独立完成简单功能模块的开发。 - 熟悉LangChain、LangGraph、LlamaIndex、AutoGen、CrewAI等Agent主流框架，有实际项目落地经验。 - 具备RAG检索增强系统相关开发经验，能够独立完成召回优化、重排序、知识库更新等功能设计与实现。 - 了解HTTP、WebSocket、消息队列、缓存、数据库等基础设施，具备基础的服务端开发与系统集成能力。 - 关注Agent领域技术动态，有相关技术博客、开源项目或竞赛经历者优先。工作地点上海/深圳简历投递邮箱:[email protected]

535

MemeInformation 🔔｜AI First @MemeInformation

about 2 months ago

@XianyuLi @CuiMao 那个小姑娘我认识，我觉得人没什么问题

209

MemeInformation 🔔｜AI First @MemeInformation

about 2 months ago

中国有大量的方言内容没有被好好存档。地方戏曲、地区性的口述历史、农村的广播录音，还有那些只在特定城市流传的民谣、市井里的叫卖声、老人讲了一辈子却从未被记录下来的故事。这些东西有语言学价值，也有文化价值。但因为方言转写的成本极高，它们大多没有文字，没有索引，没有办法被检索和传播。慢慢地，随着会说那门方言的人越来越少，这些内容就这样消失了。不过，严格来说，真正更容易消失的，往往也不是大家最熟悉、最常见的那些方言。像粤语、四川话、东北话这样仍然拥有大量使用者、内容生产也很活跃的方言，当然不会轻易消失。更脆弱的，反而是那些传播范围更窄、记录更少、代际传承更弱的长尾方言和地方口音。也正因为这样，方言识别能力真正有价值的地方，从来不只是能不能听懂常见方言，更在于能不能覆盖那些不那么常见、却更需要被保存下来的语言样本。从公开信息看，Qwen3.5-Omni 已将语音识别能力扩展到 39 种方言。除了普通话、粤语这些大家熟悉的类型，也已经支持像广东普通话、南京话这样的更细分表达，以及吴语、闽南语等具有鲜明地域特征的方言体系。对很多原本更难被记录、也更容易在代际更替中变弱的语言内容来说，这种能力本身就有现实意义。消失不是一个突然的事件。它是一个漫长的、安静的过程。某个地方的录音磁带氧化了，某位老人去世了，某种腔调再也没有年轻人开口说了。没有人宣布它结束，它只是不再出现。我有时候会想，语言是文化最后的容器。当一门方言消失，装在里面的那些东西，也跟着一起走了。这件事让我开始认真想一个问题：大模型对语言的理解，究竟算不算真正的理解？标准的评测指标，比如 MMLU、GPQA，还有各种 Benchmark，已经越来越难以让人产生直觉上的认同。数字在涨，但你不清楚那意味着什么，也不清楚模型会在什么时候悄悄失效。真正能让我产生判断的，是那种文化嵌入的、需要真正理解才能完成的具体任务。我最近看到阿里云 Qwen 团队发布了 Qwen3.5-Omni，其中有个 demo 让我比较感兴趣。他们输入了一段多方言说唱混剪，让模型识别每一位歌手来自哪里、用了什么方言、情绪状态怎样，并转写出完整歌词。我觉得这个任务比背英语选择题难多了。因为说唱本身已经是语音识别的噩梦。语速快、背景音强、韵脚压迫着发音变形，说唱歌手为了押韵，会刻意拉长或切断某些音节。方言说唱更难。粤语九声六调，一个字的声调错了，意思就完全不同。重庆话的入声字短促爆破，标准普通话的 ASR 系统常常直接跳过。东北话的儿化音密度和北京话不同，有自己的节律逻辑。维吾尔语混入汉字时，两套音系的边界本身就是一道难题。而这个 demo 里有 12 位来自不同地区的歌手，粤语、普通话北京口音、杭州话吴语、河南话、天津话、武汉话、维吾尔语、山西话、云南话、河北话、四川话、东北话，轮番出场。每个人说唱的时间只有十几到三十几秒，没有任何提示告诉模型现在换人了。模型要做的事是，听出换人，判断来自哪里，分析声音质感和情绪状态，转写歌词，还要给出歌词里的文化语境解释。我把输出仔细看了一遍，最让我留意的是模型在描述每个歌手时的粒度。对粤语歌手，它写道，声线属于中音区，听起来自信且充满活力，有一种街头巷尾的亲切感。对北京普通话女歌手，它写的是，声音中透着一股京味儿的飒爽和利落。对天津歌手，它的描述是，声音极具辨识度，带有天津话特有的哏儿和幽默感，语调夸张，节奏明快，像是在说相声一样。这些描述没有说错。天津话里确实有相声的基因，那种语调的弹性和包袱感是真实存在的东西，不是凭空生成的形容词。歌词转写的部分也让我有些意外。粤语部分出现了“哼住歌”“麻将馆等自摸”，四川话部分有“别去装憨厚”，东北话里大碴子味的节奏也基本完整保留。方言说唱的歌词本来就不容易在文字上对齐，模型在这里没有回避，而是给出了明确的转写结果。为什么我觉得这个 case 有意思呢。因为这个任务需要的不只是听清楚，还需要某种关于中国各地城市文化和语言历史的背景知识，才能把声音和来源对上。天津话和东北话听起来都爽朗，但节奏感截然不同。河南话和山西话同属北方官话，但声调走向和词汇选择完全是两回事。武汉话里的码头气，杭州话里的吴侬软语，这些都不是从频谱分析里能直接读出来的东西，它们是文化积淀在语音里的印记。模型把这些大部分接住了。这意味着它在某种程度上把语音、语义、文化背景整合到了一起。语言是文化最后的容器。一个模型效果究竟怎么样，我不会去看 Benchmark，我会观察它在这种任务上的表现。具体的、文化嵌入的、需要真正理解才能完成的。因为只有到了这种时候，你才比较容易判断，它到底是在机械匹配，还是已经开始摸到理解这件事的边。而 Qwen3.5-Omni，确实交出了一份还不错的答卷。

451

MemeInformation 🔔｜AI First @MemeInformation

2 months ago

最近AI行业有个现象挺有意思：大厂们好像突然一起踩了油门。谷歌把Gemini从“大模型”重新定位成“全栈AI系统”，Android、Chrome全线往Agent化改；英伟达不满足于卖显卡，开始做Agent开发平台；OpenAI在收缩应用线，集中资源押注基础能力。方向出奇一致，都在从“做一个聪明的模型”转向“做一套能干活的系统”。国内这边，最近动静最大的是阿里。 Qwen3.6-Plus发布两天，直接冲上了OpenRouter日榜第一，更夸张的是，单日调用量达到1.4万亿Token，把OpenRouter单日单模型的全球纪录给破了。 OpenRouter是真实的使用场景，开发者在这里用真实的项目来投票，性能、速度、成本，一个都不能糊弄。。而且三天发了三款模型：全模态的Qwen3.5-Omni、图像生成的Wan2.7-Image、编程和Agent方向的Qwen3.6-Plus。这个速度本身不是新闻。真正罕见的，是一家体量这么大的公司，能在半个月内完成从组织重构到产品集中兑现的完整动作。这让我想起一个不那么常被讨论的话题，为什么大公司的AI进展总是忽快忽慢？往往是因为组织结构没有跟上。资源在不同事业部之间摩擦，决策链条拉长，能力没办法形成合力。阿里之前也经历过这个阶段，通义实验室能力毋庸置疑，但从实验室到产业化的路走得并不顺畅。 ATH的成立，某种程度上是在修复这个问题。今年还有一个趋势越来越清晰：AI的竞争正在从“谁更聪明”转向“谁更能干活”。龙虾这种个人桌面agent的走红，是因为它真的能替人完成一系列连续的操作，打开应用、搜索信息、执行任务，像一个有手有脚的数字员工。这种能力，需要的是多模态理解、工具调用、任务规划的综合协同。而Agent的兴起，也让AI的Token消耗进入指数级增长。一个Agent完成一次复杂任务，调用的Token数量可能是普通对话的几百倍。这意味着，谁能高效地创造Token（模型端）、输送Token（云和算力端）、应用Token（产品和场景端），谁就占据了这一轮AI产业化的核心位置。黄仁勋说Agentic AI是继大模型之后的下一个万亿美元机会。这个判断大概率没错，但问题是，要把Agent能力真正落进企业工作流，光有一个好模型是不够的。你还需要理解企业场景，需要安全可控的私有化部署能力，需要跟现有软件生态打通。钉钉背后的2000多万企业组织，是悟空真正有意思的地方，它的分发渠道和场景密度，是大多数AI创业公司没有办法复制的。但这里有一个更值得深思的问题：可持续的技术创新体系，到底依赖什么？很多公司会在某一轮押对，用一款产品出圈，然后逐渐掉队。而真正能在多个技术代际保持前沿的，往往是那些把创新做成体系化能力的。这件事说起来容易，做起来极难，它需要组织耐心、资本持续性和判断力同时在线。黄仁勋说Agentic AI是下一个万亿美元机会。但机会这个词本身是中性的，它向所有人敞开，又对大多数人关闭。真正的问题或许是，当AI开始真正干活的那一天，你的工作流里，还剩下多少事情是只有人能做的？

379

MemeInformation 🔔｜AI First @MemeInformation

2 months ago

@lifesinger 笑死我了🤣

419

MemeInformation 🔔｜AI First @MemeInformation

2 months ago

@CuiMao cuimao老师为何如此美丽🤔

107

MemeInformation 🔔｜AI First @MemeInformation

2 months ago

我们一般把聊不下去还硬聊的情况称之为爱情

一格

@YigeKing

2 months ago

🤣登机前下了罗永浩和崔健的访谈，于是听两个聊不到一块的人硬聊几个小时…

16K

274

MemeInformation 🔔｜AI First @MemeInformation

2 months ago

我天生喜欢那些可以复制、可以放大、可以规模化的东西。

112

MemeInformation 🔔｜AI First @MemeInformation

2 months ago

人生要学会多做减法。拿不到结果的事，或者做到一半已经看清跑不通的业务，就该果断砍掉。

131

MemeInformation 🔔｜AI First @MemeInformation

2 months ago

@CuiMao cuimao老师，没合作能加个微信吗。

205

MemeInformation 🔔｜AI First @MemeInformation

2 months ago

AI生图用了两年，我终于等到一个肯认真填坑的模型过去几年，用AI生图的人都有一段相似的心路历程。刚接触的时候觉得什么都能做，满脑子是这东西要改变设计行业了。用了三个月开始发现不对劲，用了半年开始认命，用了一年之后，已经学会了在心里给它划一道边界：这类需求别指望它，绕开走。那道边界后面，堆着四个没人打算修的问题。 AI生图过去最大的困境，是关键细节一直不可控。人物差异、文字精度、局部修改，这些看起来像小问题，实际上决定了一张图能不能真正进入专业工作流。 1. 所有人长同一张脸。你在提示词里写鹅蛋脸、丹凤眼、高颧骨，它给你生一张脸。你换成方脸、圆眼、低眉骨，它给你生出相似的脸换了个表情。不同提示词，不同性格设定，出来的人物放在一起，像是同一个人的换装游戏。角色控制做不到，意味着AI生图很难进入短剧、游戏设定、多角色广告这些需要角色体系的生产流程。 2. 颜色是开盲盒。你脑子里有一个配色方案，提示词里写的很具体，但生图工具不认这个。每次生成都是随机抽卡。颜色控制决定的是AI生图能不能进入品牌和商业场景。在专业设计里，颜色是规范变量。只要颜色还在开盲盒，AI生成图就很难真正进入交付链条。 3. 薛定谔的文字。短文本还好。但只要图上的字数一多，就会开始模糊、变形、漏字、出现乱码。文字渲染一直是AI生图最容易暴露玩具属性的地方。因为论文配图、信息图表、密排版的商业海报，这些日常真实存在的需求一直没有被满足。 4. 改一处，动全部。这是最让人崩溃的。你有一张九成满意的图，嘴角弧度不对，或者背景有个元素位置偏了。改完之后，那个局部确实变了，但整张图整体可能也都变了。局部编辑之所以重要，是因为真实创作流程里，大部分修改都是局部的。只要局部改动还会牵连全图，AI生图就永远无法进入真实生产端。不过，今天，Wan2.7-image发布。它把这四个门槛挨个认真过了一遍。 1.千人千面 Wan2.7-image做了可深度自定义的面部控制系统，提示词可以细化到脸型类别（鹅蛋脸/方脸/长方脸）、眼形（杏仁眼/丹凤眼/深邃眼窝）、肤色、发型和五官比例的逐项指定。不需要全部写清楚。提示词可以就是“四个刚入学的大一新生在寝室合影”，它会生成有差异的四张脸。 2.规范色彩颜色控制的解法更直接：一键提取或输入参考图中的颜色和占比，模型就能按这个配比生成色彩构成。颜色不再是开盲盒，它可以作为规范变量输入。 3.超超超长文本渲染它用长上下文文本编码器（Long Context Text Encoder）处理文字输入，支持最高3K token，覆盖12种语言，复杂公式和表格在处理范围内，渲染精度达到印刷级。这意味着AI生图开始能承载信息，而不只是承载氛围。论文配图、信息图表、密排版的商业海报，这些之前只能绕开的场景，开始有了进入的可能。 4.局部修改原生支持交互式编辑，框选区域内可以进行添加、移动、替换、对齐操作，框外图片理论上不受影响。这意味着AI生图不再只是玩具。它开始尝试进入更细的制作环节。 AI生图这几年最尴尬的地方，是太多关键环节一直停留在偶尔能用。 Wan2.7-image这次真正值得看的，是它开始把这些长期影响专业使用的细节，当成正经问题来解决。这件事的意义可能比某一次跑分领先更大。因为AI生图真正的分水岭，一直都是那些最容易让人返工的细节，能不能终于开始变得可控。

MemeInformation's tweet photo. AI生图用了两年，我终于等到一个肯认真填坑的模型

过去几年，用AI生图的人都有一段相似的心路历程。

刚接触的时候觉得什么都能做，满脑子是这东西要改变设计行业了。

用了三个月开始发现不对劲，用了半年开始认命，用了一年之后，已经学会了在心里给它划一道边界：这类需求别指望它，绕开走。

那道边界后面，堆着四个没人打算修的问题。

AI生图过去最大的困境，是关键细节一直不可控。

人物差异、文字精度、局部修改，这些看起来像小问题，实际上决定了一张图能不能真正进入专业工作流。

1. 所有人长同一张脸。

你在提示词里写鹅蛋脸、丹凤眼、高颧骨，它给你生一张脸。

你换成方脸、圆眼、低眉骨，它给你生出相似的脸换了个表情。

不同提示词，不同性格设定，出来的人物放在一起，像是同一个人的换装游戏。

角色控制做不到，意味着AI生图很难进入短剧、游戏设定、多角色广告这些需要角色体系的生产流程。

2. 颜色是开盲盒。

你脑子里有一个配色方案，提示词里写的很具体，但生图工具不认这个。

每次生成都是随机抽卡。

颜色控制决定的是AI生图能不能进入品牌和商业场景。

在专业设计里，颜色是规范变量。

只要颜色还在开盲盒，AI生成图就很难真正进入交付链条。

3. 薛定谔的文字。

短文本还好。

但只要图上的字数一多，就会开始模糊、变形、漏字、出现乱码。

文字渲染一直是AI生图最容易暴露玩具属性的地方。

因为论文配图、信息图表、密排版的商业海报，这些日常真实存在的需求一直没有被满足。

4. 改一处，动全部。

这是最让人崩溃的。

你有一张九成满意的图，嘴角弧度不对，或者背景有个元素位置偏了。

改完之后，那个局部确实变了，但整张图整体可能也都变了。

局部编辑之所以重要，是因为真实创作流程里，大部分修改都是局部的。

只要局部改动还会牵连全图，AI生图就永远无法进入真实生产端。

不过，今天，Wan2.7-image发布。

它把这四个门槛挨个认真过了一遍。

1.千人千面

Wan2.7-image做了可深度自定义的面部控制系统，提示词可以细化到脸型类别（鹅蛋脸/方脸/长方脸）、眼形（杏仁眼/丹凤眼/深邃眼窝）、肤色、发型和五官比例的逐项指定。

不需要全部写清楚。

提示词可以就是“四个刚入学的大一新生在寝室合影”，它会生成有差异的四张脸。

2.规范色彩

颜色控制的解法更直接：一键提取或输入参考图中的颜色和占比，模型就能按这个配比生成色彩构成。

颜色不再是开盲盒，它可以作为规范变量输入。

3.超超超长文本渲染

它用长上下文文本编码器（Long Context Text Encoder）处理文字输入，支持最高3K token，覆盖12种语言，复杂公式和表格在处理范围内，渲染精度达到印刷级。

这意味着AI生图开始能承载信息，而不只是承载氛围。

论文配图、信息图表、密排版的商业海报，这些之前只能绕开的场景，开始有了进入的可能。

4.局部修改

原生支持交互式编辑，框选区域内可以进行添加、移动、替换、对齐操作，框外图片理论上不受影响。

这意味着AI生图不再只是玩具。

它开始尝试进入更细的制作环节。

AI生图这几年最尴尬的地方，是太多关键环节一直停留在偶尔能用。

Wan2.7-image这次真正值得看的，是它开始把这些长期影响专业使用的细节，当成正经问题来解决。

这件事的意义可能比某一次跑分领先更大。

因为AI生图真正的分水岭，一直都是那些最容易让人返工的细节，能不能终于开始变得可控。

743

MemeInformation 🔔｜AI First

@MemeInformation

Last Seen Users on Sotwe

Trends for you

Most Popular Users