Home
Language
English
Türkçe
Bahasa Indonesia
About
Privacy Policy
Terms of Service
Pricing
Sign In
Download All
Share
MemeInformation 🔔|AI First
@MemeInformation
AI = story + impact, not just scores. Let’s walk out of this foggy forest together. mail:
[email protected]
Joined May 2025
404
Following
5K
Followers
760
Posts
MemeInformation 🔔|AI First
@MemeInformation
about 21 hours ago
@dotey
笑死我了
MemeInformation 🔔|AI First
@MemeInformation
3 days ago
@ong_kil
闹呢
MemeInformation 🔔|AI First
@MemeInformation
27 days ago
时代少年团大概也没想到,自己有一天会以这种方式进入中国 AI 行业史。 事情最开始很像一个饭圈小插曲。 有人测试自家爱豆马嘉祺,发现模型明明知道他是谁,能说出团体身份、经历和相关背景,可一到要输出马嘉祺这三个字,就开始绕路、回避、卡壳。 这件事发到社媒后,很快从粉丝吐槽变成技术圈围观。 大家一边觉得好笑,一边又忍不住好奇:一个大模型既然知道马嘉祺是谁,为什么偏偏说不出他的名字? 后来 MiniMax 的小哥回应了这个问题,并且把内部排查过程整理成了一篇技术 Blog。 我看完之后最大的感受是,最严苛的 AI QA,有时候真的藏在饭圈里。 很多人看到这个案例,第一反应会是:模型都知道他是时代少年团成员了,怎么会说不出名字? 但这恰好是大模型最容易被误解的地方。 对模型来说,知道一个人是谁,和把这个人的名字准确生成出来,并不是同一件事。 大模型内部大致有两条链路。 输入侧的 embedding,负责把文字变成模型能处理的向量。 输出侧的 lm_head,负责把模型内部的向量再变回具体文字。 也就是说,模型可能还保留着马嘉祺这个人的语义位置,知道他和时代少年团、队长、综艺这些信息有关。 但到了最后一步生成文字时,它未必还能稳定把马嘉祺这几个字拿出来。 这有点像我们平时遇到的人名卡壳。 你知道这个人长什么样,知道他做过什么,甚至知道他和谁有关,可就是一瞬间想不起来他的名字。 当然,大模型的卡壳不是人类记忆问题,背后是更底层的 token 机制。 这里最关键的角色,叫 tokenizer。 它会先把文字切成一个个 token,模型最终也只能在自己的词表里选择 token 输出。 马嘉祺这个名字里,马被切成一个 token,嘉祺被切成另一个 token。 问题就出在嘉祺这个 token 上。 MiniMax小哥排查后发现,嘉祺这个 token 在预训练阶段其实学得不错。 它的 embedding 正常,语义近邻也很合理,附近有亚轩、千玺、耀文、肖战这类明星或人名 token。 换句话说,模型早期确实知道嘉祺这个词应该待在什么语义区域里。 真正的问题出现在后训练阶段。 后训练数据里,嘉祺这个 token 出现不足 5 条。 它在预训练时被学过,进入后训练后却几乎没再被当作生成目标训练�� 时间一长,输入侧的 embedding 还比较稳定,输出侧的 lm_head 却开始漂移。 这就解��了那个现象:模型还认识这个词,但不太会生成这个词了。 另外MiniMax 在排查马嘉祺问题时,还顺手串起了另一个看起来完全不相关的 bug:日语对话里偶尔混入俄语。 一个是中文明星名字说不出,一个是日语输出冒出俄语,乍一看八竿子打不着。 但从底层看,它们指向的是同一个问题:后训练数据对部分 token 覆盖不足,导致这些 token 的 lm_head 表征发生漂移,最后在生成时被错误召回。 Blog 里有一个数字很刺眼。 在 baseline 模型里,29.7% 的日语 token,SFT 前后的 lm_head cosine similarity 跌破了 0.95。 相比之下,韩语是 3.3%,俄语是 3.7%,中文是 3.9%,英文和 Latin 是 3.5%。 这个差距说明,后训练数据的质量评估,不能只看任务有没有覆盖、领域有没有覆盖、指令能力有没有提升,还要看一个更底层的问题:词表里的每个 token,有没有在后训练里被好好照顾到。 如��某些 token 在预训练阶段进了词表,后训练阶段又几乎消失,它们就可能成为模型里的冷门住户。 平时没人找它们,真到需要它们出场的时候,它们已经站错位置了。 这个问题放到更大范围看,还挺像一次互联网语料考古。 MiniMax 小哥排查变化最大的 token 时,发现里面不只有马嘉祺,还有大量预训练语料里残留的旧互联网痕迹,比如传奇私服、外墙涂装等。 这些词之所以能进入词表,很多时候只是因为早期爬虫语料里出现得太频繁。 这也很有讽刺感。 我们以为大模型学习的是人类文明知识,结果它的词表深处,还住着一批古早 SEO 垃圾。 它们平时不会出现在正常对话里,却依然是模型历史的一部分。 修复思路也很朴素。 MiniMax 做了一个实验:把全量 20 万左右的词表随机拆分,用请重复以上内容这样的任务,构造约 500 条对话数据,让每个 token 至少作为 target 出现 20 次。 听上去像让模型做抄写作业。 但效果很明显。 日语到俄文的混淆率,从 baseline 的 47% 降到 1%。 马嘉祺 case 也能正常输出了。 这说明有些大模型问题,其实只要找到真正的断点,用足够克制的工程方式补上,效果就会很直接。 这里也能顺手理解最近行业里关于 tokenizer 的讨论。 有些路线会选择加法,保住更完整的词表,通过数据覆盖和训练策略来维护它。 有些路线会选择减法,把覆盖不到、维护成本高的 token 从词表里裁掉。 前者更重,后者更省,但代价不同。 词表越完整,模型对长尾名词、专有名词的兼容性可能更好。 词表越精简,训练和推理可能更高效,但用户有时候也需要花更多 token 去表达同样的内容。 我觉得这篇 Blog 真正有价值的地方,也在这里。 它没有把问题轻轻带过。 它把一个很好笑的 bug,拆成 tokenizer、embedding、lm_head、后训练数据分布、词表覆盖度几个层次��再用实验把修复路径跑了一遍。 它暴露的是一个更长期的问题:当模型从预训练走向后训练,哪些能力被增强了,哪些冷门 token 被遗忘了,哪些语种因为覆盖不足开始漂移,这些都需要被看见。 这也是这次回应比较加分的地方。 大多数公司遇到这种 bug,可能会选择降低声量。 因为从传播学角度看,大模型不认识马嘉祺这个说法太容易变成玩梗素材。 但 MiniMax 这次把它讲清楚了。 马嘉祺也意外成为一个入口,让更多人看见,大模型不是神奇魔法,也不是万能百科。 它有自己的结构、路径和盲区。 很多看起来玄学的问题,拆到底,往往都是工程问题。 AI 行业有时候总喜欢聊宏大的东西,AGI、智能涌现、下一代入口。 但我越来越觉得,很多真正推动行业变好的问题,往往就藏在这种很小、很具体、甚至有点好笑的 case 里。
See More
MemeInformation 🔔|AI First
@MemeInformation
about 1 month ago
@CuiMao
约饭吗cuimao姐姐
MemeInformation 🔔|AI First
@MemeInformation
about 2 months ago
有一种创作的挫败感,几乎每个人都经历过,你脑子里明明有一个完整的画面,眼前却只剩空白。 你开始打字,AI 给你渲染出一段视频,你看了十秒,意识到不对,就差那么一点,却不知道下一步该怎么办。 退出,重来,等待,得到另一个差那么一点。 因为整个交互的逻辑错了。 4月16日,阿里ATH事业群发布了世界模型产品HappyOyster(快乐生蚝)。 这是同一个孵化出HappyHorse的团队,带来的一次更具野心的尝试,他们想解决的,是一个根本性的问题:当AI构建的世界出现在你面前,为什么你只能是个旁观者? 过去两年,文生视频的技术���步有目共睹,生成质量飞速提升,但交互范式几乎没有变过:输入提示词,等待渲染,收到成片。 这是一条单向的传送带,用户站在终点等货。 HappyOyster要打破的,正是这个链条。 它提供四个核心能力。 漫游模式(Wander)让用户从一张图或一句话出发,生成具备物理一致性的完整空间,场景持续存在,光照随视角变化,还可以自由拖拽镜头、延伸探索,目前支持1分钟连续实时位移和多样风格切换。 导演模式(Direct)则允许用户在视频任意节点通过文字、语音或图像介入世界演化,改写剧情、调度角色、切换镜头,目前支持连续生成3分钟以上的480p或720p实时画面。 创造让用户持续补充设定、角色、场景和规则。 分享则让数字世界可以被保存、被他人继续体���和二次创作。 漫游和导演两种模式之间存在微妙的区别:漫游更接近身临其境,导演更接近掌控叙事。 而创造与分享,则让这种交互进一步从一次性的体验延伸为持续搭建、持续流转的内容过程。 它们代表着几种不同的创作欲望,也指向了AI内容交互的几个尚未被充分挖掘的维度。 HappyOyster所属的技术流派,世界模拟器,在AI领域仍是相对小众的前沿赛道,与谷歌的Genie3同属一个方向。 要理解它和文生视频的区别,不妨做一个类比:文生视频模型更像是一位摄影师,接到委托,拍好交付。 而世界模型更像是一位物理引擎,持续运行着一个包含空间、重力、因果规律的虚拟宇宙,摄影机只是进入这个宇宙的其中一种方式。 技术层面的差异是本质性的。 传统文生视频模型的建模目标是生成一段合理的画面序列,而世界模型的建模目标是预测一个世界的演化方式。 前者完成后即告一段落,后者在整个过程中持续推演。 这意味着模型需要真正理解空间位置关系、物体的物理属性、角色动作的因果逻辑,而不只是让画面看起来顺滑。 相较于谷歌Genie3,HappyOyster在技术路径上做出了几个有趣的选择。 它采用了时间跨度更长的世界演化建模方式,让模型在更宏观的时序框架下保持场景的高保真度。 同时,它在建模之初就引入了多样的控制信号,文本、动作指令、图像参考,使得生成质量、长时序与实时可控性能够在同一个框架内协同优化,而不是相互取舍。 产品层面的差异则体现在独家的实时导演功能,以及漫游模式更强的风格泛化能力和动态表现力。 再往前一步看,创造与分享能力的补充,也让HappyOyster呈现出一个更完整的产品闭环:从进入世界、干预世界,到搭建世界、传播世界。 世界模型现阶段的技术成熟度��在早期,但它已经开始改变某些行业的工作流。 在游戏原型设计领域���开发者不再需要搭建完整的关卡就能验证玩法感受,他们可以用HappyOyster快速生成一个可玩的空间原型,在其中测试叙事节奏、光照氛围和空间体验。 在影视创作中,分镜验证的成本被极大压缩。 导演可以在正式开机之前,用自然语言描述想象中的场景,实时获得可修改的视觉参考,并在任意节点调整镜头语言和角色调度,让创意验证从等待渲染变成实时对话。 我个人认为更长远的方向,是与穿戴设备等智能硬件结合,根据用户的位置、动作和语言,实时生成响应性的沉浸内容,让数字世界和现实空间真正产生共振。 而当这些内容能够被保存、分享,再被其他人继续接力创造时,HappyOyster想做的就变成了一个可以不断生长的数字世界入口。 必须承认,世界模型距离大规模商业落地还有相当的距离。 漫游与导演两大模式目前尚未完全打通,真正意义���的边探索边创造还停留在路线图阶段。 画面质量、物理一致性、生成���定性,都还有肉眼可见的提升空间。 但这恰恰是这个方向最有意思的地方:它的技术可能性还远未被触及天花板,而它描绘的那个愿景,每个人都拥有一个可以随时进入、随时修改、实时反馈的数字世界,足够清晰,足够令人心动。
See More
MemeInformation 🔔|AI First
@MemeInformation
about 2 months ago
@la_dj92847
@biantaichuzi
你长得像我下一个女朋友
MemeInformation 🔔|AI First
@MemeInformation
about 2 months ago
@CuiMao
cuimao失恋了
MemeInformation 🔔|AI First
@MemeInformation
about 2 months ago
@jjgfscbd
马工还是太先进了
MemeInformation 🔔|AI First
@MemeInformation
about 2 months ago
上周我去参加一场只有20个早期创始人的闭门会,散场的时候我等滴滴,站在路边吹了十分钟风。 那十分钟里,我脑子里反复冒出来一个判断:创始人的角色,可能真的在变。 以前大家默认,创始人首先是人员管理者。 要招人,要盯执行,要管流程,还要不断处理团队磨合、效率波动和人员流失。 公司想做大,第一反应往往也是继续招人,把组织铺开,把岗位补齐。 但我现在越来越强烈地感觉到,创始人的角色,正在从人员管理者,变成Agent管理者。 你不用天天蹲在工位盯执行,不用一轮一轮招人。 你更需要做的,是把需求提清楚,把流程拆明白,把关键节点定义好,然后指挥不同分工的Agent,把销售获客、内容生产、用户客服这些全链路的活跑起来。 我在闭门会上见了个做ToB业务的创始人,整个公司明面挂着的人类员工只有三个,剩下二十多个岗位全是Agent。 每个Agent都有固定分工和沟通风格,对接客户的销售Agent说话永远干脆,处理售后的客服Agent永远耐心。 客户跟他们合作了大半年,根本没察觉对面不是真人。 现在这种Agent团队,已经越来越像一种新的组织形态,7*24小时待命,随时开工。 并且这不只是公司变轻了,这是公司的成本结构和交付方式都在变。 我身边就有个做垂直行业知识库的朋友,就他一个人,养了十几个Agent做内容更新、用户答疑、续费提醒,现在有120个付费客户,每个月每��付399,一个月流水接近五万,扣掉服务器和API调用成本,纯利还有四万多。 放在以前,这点收入未必养得起一个十人团队。 光是内容、运营、客服这些人力成本,就已经把利润吃掉不少。 很多原本需要多人协作完成的标准化工作,现在都能被拆成流程,再交给不同Agent并行执行。 谁更新内容,谁回答问题,谁做续费提醒,谁整理客户反馈,都可以被设计进一套持续运转的系统里。 这样一来,公司的瓶颈也变了。 过去的核心问题,是怎么招更多人、怎么把人管好。 现在越来越多小公司的核心问题,正在变成你能不能把任务拆清楚,能不能把流程搭起来,能不能把Agent协作跑顺。 这也是我最近反复在想的一件事。 过去大家信奉人海战术,觉得多招人、多铺团队、多设岗位,组织就更稳,交付就更快。 这个逻辑在过去当然成立,因为很多事情���实只能靠人堆出来。 但现在,这个逻辑开始松动了。 因为人一多,���通成本、协作成本、管理成本都会迅速上升。 很多团队表面上很热闹,实际上大量时间都消耗在对齐、返工、等待和内耗上。 岗位越多,链条越长,响应速度反而越慢。 很多公司最后输的,不是能力不够,是组织太重,动作太慢。 Agent带来的变化就在这里。 它不一定会立刻替掉所有人,但会优先吞掉那些重复的、标准化的、可拆解的工作环节。 一旦这些环节被系统接管,传统靠堆人维持效率的方式,就会越来越不划算。 你招十个人才能跑起来的业务,别人三个人加几十个Agent就能做。 你还在为招聘、培训、考核和流失头疼,别人已经把主要精力放在定义需求、优化流程和提升结果上了。 所以我越来越觉得,未来几年,拼的不会是谁团队更大,拼的是谁更早把公司改造成一个人类指挥、一群Agent执行的新系统。 先跑通的人,会把小赛道的���润先吃掉。 人海战术不会一下子消失,但它最风光的阶段,可能真的快过去了。
See More
MemeInformation 🔔|AI First
@MemeInformation
about 2 months ago
招聘Agent开发工程师(实习) 薪资待遇 200-400元/天 岗位职责 - 参与公司Agent产品的设计与开发工作,协助完成前后端全栈开发任务,包括管理后台、用户交互界面、工作流编排系统、任务调度系统及相关服务接口的开发与优化。 - 基于大语言模型(LLM),协助构建高可用的Agent生产能力,参与Prompt优化、上下文管理、记忆机制、工具调用、长文本生成及多轮迭代策略的设计与落地。 - 协助完成RAG检索增强系统的设计与优化,打通知识库、案例库等内容资产,提升Agent对业务需求的理解与响应能力。 - 参与Agent的多Agent协作、工作流协同能力建设,协助解决任务拆解、流程编排、记忆管理等关键问题。 - 与业务团队深度协作,深入理解真实业务场景的需求��痛点,协助优化Agent的可用性、交付质量及���产效率。 - 跟踪自然语言处理、大模型应用、Agent框架的前沿技术,协助推动新技术在业务中的验证与落地。 - 协助完成相关系统的部署、监控、性能优化与稳定性维护,保障Agent平台的持续可用与高效迭代。 必备要求 - 本科及以上学历,计算机、软件工程、人工智能、自然语言处理等相关专业,在校学生(可保证稳定实习时长优先)。 - 具备扎实的工程基础,熟练掌握Java或GO编程语言,具备良好的编码规范与逻辑思维。 - 了解Web开发基础,熟悉前后端分离架构,能够协助完成管理后台、内容工作台等简单功能的开发与调试。 - 对LLM应用开发有一定了解,熟悉Prompt Engineering、上下文工程、工具调用等基础概念,有相关实践经验者优先。 - 了解RAG相关技术原理,能够协助完成知识切片、向量检索等基础工作。 - 具备较强的学习能力、问题分析能力与执行力,���够快速适应业务节奏,主动推进任务落地。 - 具备良好的沟通协作能力,能够配合团队完成协作任务,乐于分享与交流技术。 加分项 - 有完整的Web产品开发实习经验,能够独立完成简单功能模块的开发。 - 熟悉LangChain、LangGraph、LlamaIndex、AutoGen、CrewAI等Agent主流框架,有实际项目落地经验。 - 具备RAG检索增强系统相关开发经验,能够独立完成召回优化、重排序、知识库更新等功能设计与实现。 - 了解HTTP、WebSocket、消息队列、缓存、数据库等基础设施,具备基础的服务端开发与系统集成能力。 - 关注Agent领域技术动态,有相关技术博客、开源项目或竞赛经历者优先。 工作地点 上海/深圳 简历投递邮箱:
[email protected]
See More
MemeInformation 🔔|AI First
@MemeInformation
about 2 months ago
@XianyuLi
@CuiMao
那个小姑娘我认识,我觉得人没什么问题
MemeInformation 🔔|AI First
@MemeInformation
about 2 months ago
中国有���量的方言内容没有被好好存档。 地方戏曲、地区性的口述历史、农村的广播录音,还有那些只在特定城市流传的民谣、市井里的叫卖声、老人讲了一辈子却从未被记录下来的故事。 这些东西有语言学价值,也有文化价值。 但因为方言转写的成本极高,它们大多没有文字,没有索引,没有办法被检索和传播。 慢慢地,随着会说那门方言的人越来越少,这些内容就这样消失了。 不过,严格来说,真正更容易消失的,往往也不是大家最熟悉、最常见的那些方言。 像粤语、四川话、东北话这样仍然拥有大量使用者、内容生产也很活跃的方言,当然不会轻易消失。 更脆弱的,反而是那些传播范围更窄、记录更少、代际传承更弱的长尾方言和地方口音。 也正因为这样,方言识别能力真正有价值的地方,从来不只是���不能听懂常见方言,更在于能不能覆盖那些不那么常见、却更需要被保存下来的语言样本。 从公开信息看,Qwen3.5-Omni 已将语音识别能力扩展到 39 种方言。 除了普通话、粤语这些大家熟悉的类型,也已经支持像广东普通话、南京话这样的更细分表达,以及吴语、闽南语等具有鲜明地域特征的方言体系。 对很多原本更难被记录、也更容易在代际更替中变弱的语言内容来说,这种能力本身就有现实意义。 消失不是一个突然的事件。 它是一个漫长的、安静的过程。 某个地方的录音磁带氧化了,某位老人去世了,某种腔调再也没有年轻人开口说了。 没有人宣布它结束,它只是不再出现。 我有时候会想,语言是文化最后的容器。 当一门方言消失,装在里面的那些东西,也跟着一起走了。 这件事让我开始认真想一个问题:大模型对语言的理解,究��算不算真正的理解? 标准的评测指标,比如 MMLU、GPQA,还有各种 Benchmark,已经越来越难以让人产生直觉上的认同。 数字在涨,但你不清楚那意味着什么,也不清楚模型会在什么时候悄悄失效。 真正能让我产生判断的,是那种文化嵌入的、需要真正理解才能完成的具体任务。 我最近看到阿里云 Qwen 团队发布了 Qwen3.5-Omni,其中有个 demo 让我比较感兴趣。 他们输入了一段多方言说唱混剪,让模型识别每一位歌手来自哪里、用了什么方言、情绪状态怎样,并转写出完整歌词。 我觉得这个任务比背英语选择题难多了。 因为说唱本身已经是语音识别的噩梦。 语速快、背景音强、韵脚压迫着发音变形,说唱歌手为了押韵,会刻意拉长或切断某些音节。 方言说唱更难。 粤语九声六调,一个字的声调错了,意思就完全不同。 重庆话的入声字短促爆破,标准普通话的 ASR 系统���常直接跳过。 东北话的儿化音密度和北京话不同,有自己的节律逻辑。 维吾尔语混入汉字时,两套音系的边界本身就是一道难题。 而这个 demo 里有 12 位来自不同地区的歌手,粤语、普通话北京口音、杭州话吴语、河南话、天津话、武汉话、维吾尔语、山西话、云南话、河北话、四川话、东北话,轮番出场。 每个人说唱的时间只有十几到三十几秒,没有任何提示告诉模型现在换人了。 模型要做的事是,听出换人,判断来自哪里,分析声音质感和情绪状态,转写歌词,还要给出歌词里的文化语境解释。 我把输出仔细看了一遍,最让我留意的是模型在描述每个歌手时的粒度。 对粤语歌手,它写道,声线属于中音区,听起来自信且充满活力,有一种街头巷尾的亲切感。 对北京普通话女歌手,它写的是,声音中透着一股京味儿的飒爽和利落。 对天���歌手,它的描述是,声音极具辨识度,带有天津话特有的哏儿和幽默感,语调夸张,节奏明快,像是在说相声一样。 这些描述没有说错。 天津话里确实有相声的基因,那种语调的弹性和包袱感是真实存在的东西,不是凭空生成的形容词。 歌词转写的部分也让我有些意外。 粤语部分出现了“哼住歌”“麻将馆等自摸”,四川话部分有“别去装憨厚”,东北话里大碴子味的节奏也基本完整保留。 方言说唱的歌词本来就不容易在文字上对齐,模型在这里没有回避,而是给出了明确的转写结果。 为什么我觉得这个 case 有意思呢。 因为这个任务需要的不只是听清楚,还需要某种关于中国各地城市文化和语言历史的背景知识,才能把声音和来源对上。 天津话和东北话听起来都爽朗,但节奏感截然不同。 河南话和山西话同属北方官话,但声调走向和词汇选择完全是两回事。 武汉话里的码头气,杭州话里的吴侬软语,这些都不是从频谱分析里能直接读出来的东西,它们是文化积淀在语音里的印记。 模型把这些大部分接住了。 这意味着它在某种程度上把语音、语义、文化背景整合到了一起。 语言是文化最后的容器。 一个模型效果究竟怎么样,我不会去看 Benchmark,我会观察它在这种任务上的表现。 具体的、文化嵌入的、需要真正理解才能完成的。 因为只有到了这种时候,你才比较容易判断,它到底是在机械匹配,还是已经开始摸到理解这件事的边。 而 Qwen3.5-Omni,确实交出了一份还不错的答卷。
See More
MemeInformation 🔔|AI First
@MemeInformation
2 months ago
最近AI行业有个现象挺有意思:大厂们好像突然一起踩了油门。 谷歌把Gemini从“大模型”重新定位成“全栈AI系统”,Android、Chrome全线往Agent化改;英伟达不满足于卖显卡,开始做Agent开发平台;OpenAI在收缩应用线,集中资源押注基础能力。 方向出奇一��,都在从“做一个聪明的模型”转向“做一套能干活的系统”。 国内这边,最近动静最大的是阿里。 Qwen3.6-Plus发布两天,直接冲上了OpenRouter日榜第一,更夸张的是,单日调用量达到1.4万亿Token,把OpenRouter单日单模型的全球纪录给破了。 OpenRouter是真实的使用场景,开发者在这里用真实的项目来投票,性能、速度、成本,一个都不能糊弄。 。而且三天发了三款模型:全模态的Qwen3.5-Omni、图像生成的Wan2.7-Image、编程和Agent方向的Qwen3.6-Plus。 这个速度本身不是新闻。 真正罕见的,是一家体量这么大的公司,能在半个月内完成从组织重构到产品集中兑现的完整动作。 这让我想起一个不那么常被讨论的话题,为什么大公司的AI进展总是忽快忽慢? 往往是因为组织结构没有跟上。 资源在不同事业部之间摩擦,决策链条拉长,能力没办法形成合力。 阿�����前也经历过这个阶段,通义实验室能力毋庸置疑,但从实验室到产业化的路走得并不顺畅。 ATH的成立,某种程度上是在修复这个问题。 今年还有一个趋势越来越清晰:AI的竞争正在从“谁更聪明”转向“谁更能干活”。 龙虾这种个人桌面agent的走红,是因为它真的能替人完成一系列连续的操作,打开应用、搜索信息、执行任务,像一个有手有脚的数字员工。 这种能力,需要的是多模态理解、工具调用、任务规划的综合协同。 而Agent的兴起,也让AI的Token消耗进入指数级增长。 一个Agent完成一次复杂任务,调用的Token数量可能是普通对话的几百倍。 这意味着,谁能高效地创造Token(模型端)、输送Token(云和算力端)、应用Token(产品和场景端),谁就占据了这一轮AI产业化的核心位置。 黄仁勋说Agentic AI是继大模型之后的下一个万亿美元机会。 这个判断大概率没错,但问题是,要把Agent能力真正落进企业工作流,光有一个好模型是不够的。 你还需要理解企业场景,需要安全可控的私有化部署能力,需要跟现有软件生态打通。 钉钉背后的2000多万企业组织,是悟空真正有意思的地方,它的分发渠道和场景密度,是大多数AI创业公司没有办法复制的。 但这里有一个更值得深思的问题:可持续的技术创新体系,到底依赖什么? 很多公司会在某一轮押对,用一款产品出圈,然后逐渐掉队。 而真正能在多个技术代际保持前沿的,往往是那些把创新做成体系化能力的。 这件事说起来容易,做起来极难,它需要组织耐心、资本持续性和判断力同时在线。 黄仁勋说Agentic AI是下一个万亿美元机会。 但机会这个词本身是中性的,它向所有人敞开,又对大多数人关闭。 真正的问题或许是,当AI开始真正干活的那一天,你的工作流里,还��下多少事情是只有人能做的?
See More
MemeInformation 🔔|AI First
@MemeInformation
2 months ago
@lifesinger
笑死我了🤣
MemeInformation 🔔|AI First
@MemeInformation
2 months ago
@CuiMao
cuimao老师为何如此美丽🤔
MemeInformation 🔔|AI First
@MemeInformation
2 months ago
我们一般把聊不下去还硬聊的情况称之为爱情
一格
@YigeKing
2 months ago
🤣登机前下了罗永浩和崔健的访谈,于是听两个聊不到一块的人硬聊几个小时…
MemeInformation 🔔|AI First
@MemeInformation
2 months ago
我天生喜欢那些可以复制、可以放大、可以规模化的东西。
MemeInformation 🔔|AI First
@MemeInformation
2 months ago
人生要学会多做减法。拿不到结果的事,或者做到一半已经看清跑不通的业务,就该果断砍掉。
MemeInformation 🔔|AI First
@MemeInformation
2 months ago
@CuiMao
cuimao老师,��合作能加个微信吗。
MemeInformation 🔔|AI First
@MemeInformation
2 months ago
AI生图用了两年,我终于等到一个肯认真填坑的模型 过去几年,用AI生图的人都有一段相似的心路历程。 刚接触的时候觉得什么都能做,满脑子是这东西要改变设计行业了。 用了三个月开始发现不对劲,用了半年开始认命,用了一年之后,已经学会了在心里给它划一道边界:这类需求别指望它,绕开走。 那道边界后面,堆着四个没人打算修的问题。 AI生图过去最大的困境,是关键细节一直不可控。 人物差异、文字精度、局部修改,这些看起来像小问题,实际上决定了一张图能不能真正进入专业工作流。 1. 所有人长同一张脸。 你在提示词里写鹅蛋脸、丹凤眼、高颧骨,它给你生一张脸。 你换成方脸、圆眼、低眉骨,它给你生出相似的脸换了个表情。 不同提示词,不同性格设定,出来的人物放在一起,像是同一个人的换装游戏。 角色控制做不到,意味着AI生图很难进入短剧、游戏设定、多角色广告这些需要角色体系的生产流程。 2. 颜色是开盲盒。 你脑子里有一个配色方案,提示词里写的很具体,但生图工具不认这个。 每次生成都是随机抽卡。 颜色控制决定的是AI生图能不能进入品牌和商业场景。 在专业设计里,颜色是规范变量。 只要颜色还在开盲盒,AI生成图就很难真正进入交付链条。 3. 薛定谔的文字。 短文本还好。 但只要图上的字数一多,就会开始模糊、变形、漏字、出现乱码。 文字渲染一直是AI生图最容易暴露玩具属性的地方。 因为论文配图、信息图表、密排版的商业海报,这些日常真实存在的需求一直没有被满足。 4. 改一处,动全部。 这是最让人崩溃的。 你有一张��成满意的图,嘴角弧度不对,或者背景有个元素位置偏了。 改完之后,那个局部确实变了,但整张图整体可能也都变了。 局部编辑之所以重要,是因为真实创作流程里,大部分修改都是局部的。 只要局部改动还会牵连全图,AI生图就永远无法进入真实生产端。 不过,今天,Wan2.7-image发布。 它把这四个门槛挨个认真过了一遍。 1.千人千面 Wan2.7-image做了可深度自定义的面部控制系统,提示词可以细化到脸型类别(鹅蛋脸/方脸/长方脸)、眼形(杏仁眼/丹凤眼/深邃眼窝)、肤色、发型和五官比例的逐项指定。 不需要全部写清楚。 提示词可以就是“四个刚入学的大一新生在寝室合影”,它会生成有差异的四张脸。 2.规范色彩 颜色控制的解法更直接:一键提取或输入参考图中的颜色和占比,模型就能按这个配比生成色彩构成。 颜色不再是开盲盒,它可以作为规范变量输入。 3.超超超长文本渲染 它用长上下文文本编码器(Long Context Text Encoder)处理文字输入,支持最高3K token,覆盖12种语言,复杂公式和表格在处理范围内,渲染精度达到印刷级。 这意味着AI生图开始能承载信息,而不只是承载氛围。 论文配图、信息图表、密排版的商业海报,这些之前只能绕开的场景,开始有了进入的可能。 4.局部修改 原生支持交互式编辑,框选区域内可以进行添加、移动、替换、对齐操作,框外图片理论上不受影响。 这意味着AI生图不再只是玩具。 它开始尝试进入更细的制作环节。 AI生图这几年最尴尬的地方,是太多关键环节一直停留在偶尔能用。 Wan2.7-image这次真正值得看的,是它开始把这��长期影响专业使用的细节,当成正经问题来解决。 这件事的意义可能比某一次跑分领先更大。 因为AI生图真正的分水岭,一直都是那些最容易让人返工的细节,能不能终于开始变得可控。
See More
Last Seen Users on Sotwe
Türk Seks Endüstrisi (T.S.E)
Seen from
Turkey
❤️ GAY ARAMA ❤️
Seen from
Italy
MT_Klaus 🔞
Seen from
Chile
arzu Yılmaz
Seen from
Turkey
🔞TÜRK İFŞA ADRESİ🔞
Seen from
Turkey
Gayer Adam™️
Seen from
Italy
niqabernaugty
Seen from
Indonesia
ไบ รุกรับ ได้หมด ทุกเพศ ชลบุรี
Seen from
Thailand
Aportes de Incesto Mx😈😈😝🇲🇽🇲🇽🇲🇽
Seen from
United States
Desi Bottom (Randi)🍑
Seen from
Turkey
Trends for you
1
#USMNT
Under 10K tweets
2
Mormons
Under 10K tweets
3
D-Day
Under 10K tweets
4
Omaha
Under 10K tweets
5
ROBERT SMITH
Under 10K tweets
6
#UFCVegas118
Under 10K tweets
7
Andrew Painter
Under 10K tweets
8
Jackie Young
Under 10K tweets
9
#GCWToSXi
Under 10K tweets
10
#tvlspoilers
Under 10K tweets
Most Popular Users
1
Elon Musk
@elonmusk
240.2M followers
2
Barack Obama
@barackobama
119.3M followers
3
Donald J. Trump
@realdonaldtrump
111.6M followers
4
Cristiano Ronaldo
@cristiano
108.9M followers
5
Narendra Modi
@narendramodi
107M followers
6
Rihanna
@rihanna
97.3M followers
7
NASA
@nasa
92.1M followers
8
Justin Bieber
@justinbieber
90.6M followers
9
KATY PERRY
@katyperry
86.8M followers
10
Taylor Swift
@taylorswift13
80.6M followers
11
Lady Gaga
@ladygaga
72.2M followers
12
Kim Kardashian
@kimkardashian
69.4M followers
13
YouTube
@youtube
68.6M followers
14
Virat Kohli
@imvkohli
68.6M followers
15
Bill Gates
@billgates
63.4M followers
16
The Ellen Show
@theellenshow
62.5M followers
17
CNN
@cnn
61.9M followers
18
Neymar Jr
@neymarjr
61.1M followers
19
X
@x
60.9M followers
20
Selena Gomez
@selenagomez
59.9M followers
Olivia
Online
✨
⭐
💫