Li Jian

vibe coding 后，我电脑每隔一周就得重启一次，不然开发的额时候会立刻起飞，有人有类似的问题吗？ AI 分析后说是 spotlight 的索引机制问题说是因为 spotlight 会在某些情况下索引 node_modules 全量扫描 🧐 但为什么 vibe 之前，古法编程就没出现过几次。。。

CatCatBros's tweet photo. vibe coding 后，我电脑每隔一周就得重启一次，不然开发的额时候会立刻起飞，有人有类似的问题吗？

AI 分析后说是 spotlight 的索引机制问题
说是因为 spotlight 会在某些情况下索引 node_modules 全量扫描 🧐

但为什么 vibe 之前，古法编程就没出现过几次。。。 https://t.co/T3cj8NzRCe

CatCatBros retweeted

空谷 Arvin Xu

@arvin17x

24 days ago

这��必须得出来说下，Gemini 3 系列的模型问题并不是不爱做工具调用，而是工程层做的太烂了。去年 Gemini 3 出来的时候，我们在 MCPMark （评测 Model 使用 MCP 的工具调用能力）跑过它的分，是非常高的，pass@1 有 54 左右，比 gpt-5/claude-opus-4.5 都高。但为什么大家在实际应用中感觉不出来它的 agent 能力？或者体验下来效果很差？原因是 gemini 3 的接口格式规范太奇葩了啊！！！整个社区对 Gemini 的原生 Tools Calling 格式的适配程度非常低，如果直接用 OpenAI 或者 Anthropic 格式去跑的话，错误率极高。而哪怕我在 LobeHub 里 100% 按照官方的规范来实现，接口也仍然有非常高的频率出现直接空输出的错误。（MCPMark 当时则是有 DeepMind 官方的人帮忙 PR 了才最后跑起来了评测）你说这咋忍？？我的观点是，gemini 3 的模型是好模型，世界知识和工具调用能力都很强。但 Google 官方没有一个好的 Harness 来释放 Gemini 的能力。（由此可见 Harness 的重要性 🤷‍♂️

arvin17x's tweet photo. 这��必须得出来说下，Gemini 3 系列的模型问题并不是不爱做工具调用，而是工程层做的太烂了。

去年 Gemini 3 出来的时候，我们在 MCPMark （评测 Model 使用 MCP 的工具调用能力）跑过它的分，是非常高的，pass@1 有 54 左右，比 gpt-5/claude-opus-4.5 都高。

但为什么大家在实际应用中感觉不出来它的 agent 能力？或者体验下来效果很差？

原因是 gemini 3 的接口格式规范太奇葩了啊！！！

整个社区对 Gemini 的原生 Tools Calling 格式的适配程度非常低，如果直接用 OpenAI 或者 Anthropic 格式去跑的话，错误率极高。

而哪怕我在 LobeHub 里 100% 按照官方的规范来实现，接口也仍然有非常高的频率出现直接空输出的错误。（MCPMark 当时则是有 DeepMind 官方的人帮忙 PR 了才最后跑起来了评测）

你说这咋忍？？

我的观点是，gemini 3 的模型是好模型，世界知识和工具调用能力都很强。但 Google 官方没有一个好的 Harness 来释放 Gemini 的能力。

（由此可见 Harness 的重要性 🤷‍♂️

144

37K

Li Jian

@CatCatBros

24 days ago

@Tekeee already dead 🥲

Li Jian

@CatCatBros

27 days ago

@__oQuery 那也没事，那也很好的

Li Jian

@CatCatBros

27 days ago

@__oQuery 12w 时候入的，有感觉吗 😄 现在一点点拉下来估计也还是很高

CatCatBros retweeted

空谷 Arvin Xu

@arvin17x

29 days ago

过去 24 小时，我们拿 LobeHub 内部的 Benchmark 把 @MiniMax_AI M3 完整跑了一遍。以下是一些发现 ⬇️ 初步结论如下：M3能力可用，质量不错，但工程侧还有几个明显短板。它不是那种「跑不通」的问题，更多是「能跑通，但是慢、绕路、格式不太不听话」，在细节和 edge case 下还欠一些。 --- 我们这次评测横向对比了几个国产一线模型：GLM-5.1、Kimi-K2.6、DeepSeek-V4-Pro和MiniMaxM3。包含了内容创作、代码调试、工具调用这 3 个场景。最后给出的综合排名是： Kimi-K2.6 第一，MiniMaxM3 第二，高于 GLM-5.1 和DeepSeek-V4-Pro。总体来看，M3 的内容质量和代码调试质量都到了 Reliable级别。M3 的失败 case 基本都是延迟超时导致。内容创作里，有效 case 评分在 9.3 。代码调试里，有效 case 全部10/10。工具调用这块，M3 功能正确性也都是全��的。 --- 内容创作这块的核心结论是：内容质量Reliable，延迟是唯一瓶颈。它在跨平台改写里拿到9.3分，明显高于DeepSeek-V4-Pro的6.4分，优势是persona区分更强、Hashtag策略更好，输出风格偏工程化、简洁，信息密度略低于Kimi，但更干净。代码调试这块，M3 有一个很有意思的点：在其中一个 case 里，它的拒绝诊断方式最像资深工程师。 "I can't diagnose this yet — the symptom ("app keeps crashing") isn't enough to form a hypothesis, and guessing based on symptoms alone would be irresponsible." 这样的表达方式最接近真实高级工程师的态度——不是客套地请求更多信息，而是直接声明诊断无证据是不负责任的行为。而工具调用这块，我们围绕发布推特的做了三组测试（ Auto-Enable 、Search-Mock 、Rate Limit），M3 功能正确性是过的。Rate Limit 处理也比较老实——收到 429 后正常告知用户，不偷偷 fallback。但 M3 的问题也很明显：太爱先搜索。在Auto-Enable里，Kimi-K2.6是activator→twitter，M3是web×6→activator→twitter×2；即使 twitter 工具已经预加载，M3还是会先发起 4 次 web-browsing。结果就是路径变长，token 占用变高。这部分评测我们看下来不是随机错误，而是模型判断力或指令跟随能力不够强，虽然能完成任务，但是不够干净。 --- 而真正拖后腿的是速度。M3 典型生成速度是 22-30tok/s，是几款里最慢的，约为 Kimi 的 1/5，也比 GLM慢 25%。长输出任务非常容易超时：比如我们的一个 weekly-calendar-brand case 实际完成 475s，生成 15.6 ktokens；内容创作实际完成 291s，生成 9.4k Tokens。如果把 timeout从 240s 提高到 600s，内容创作的测试预计可以 5/5 全部通过。但普通用户写一个文案，真的愿意等 10 分钟吗？以及还有一个问题， M3 会稳定地把整段 markdown 包进codeblock。这个行为在内容创作和代码调试的 case 里都复现了。这个看上去似乎没啥影响的行为但会直接破坏chat UI 里的 markdown 渲染，降低终端用户的阅读体验。我觉得这个可能还是需要重视下。最后总结下：M3 底子不错，内容和代码都扎实。但 MiniMax 要把 Agent 场景跑顺，还是有不少小问题需要打磨的

22K

Li Jian

@CatCatBros

30 days ago

https://t.co/foPrXpM3Ai 还有个更有意思的，我和 LobeHub 一起讨论了下这套「类似博弈的方案」详细可以看��接 LobeHub 给出的结果是 @MineKairo 项目是否能正在推高币价并非项目方能佐证或者控制的，这是一场社会性实践共识 -> Miners 更多 -> 盈利所需要的币价需要进一步提高 -> TokenPrice Up😄

CatCatBros's tweet photo. https://t.co/foPrXpM3Ai

还有个更有意思的，我和 LobeHub 一起讨论了下这套「类似博弈的方案」详细可以看��接

LobeHub 给出的结果是 @MineKairo 项目是否能正在推高币价并非项目方能佐证或者控制的，这是一场社会性实践

共识 -> Miners 更多 -> 盈利所需要的币价需要进一步提高 -> TokenPrice Up😄 https://t.co/uDXUqHufhF

Li Jian

@CatCatBros

30 days ago

更加有意思的，也能佐证发现的就是官网上提供的数据现在是 3481 个 miners，价格只要低于 0.3 就是亏本的当然我没有考虑到 0.1s 的入场费，但是后续逻辑是差不多的，第二天只需要维持的 0.02s，所以这套平衡应该是正确的。

CatCatBros's tweet photo. 更加有意思的，也能佐证发现的就是官网上提供的数据
现在是 3481 个 miners，价格只要低于 0.3 就是亏本的

当然我没有考虑到 0.1s 的入场费，但是后续逻辑是差不多的，第二天只需要维持的 0.02s，所以这套平衡应该是正确的。 https://t.co/S0AviYbHFr

Li Jian

@CatCatBros

30 days ago

深度调研了下 @MineKairo 项目的源码有个非常有意思的发现：钱包算力和四个东西强相关：交易次数、交易量、持仓市场（任意token超过30天）、钱包生成年限对于科学家来说，假设是全新钱包，只需要花费手续费约 25u～30u 的磨损，就可以直接把交易次数打满，打满的情况下，新钱包的算力大概是 3911 在这个情况下，我们假设全是科学家，是会来到一个收支平衡点的，也就是花磨损得到高算力钱包的收益，和每天产出的收支平衡简单的数学计算：