GFL(Gut Feeling Laboratory Inc.) @GutFeelingLab - Twitter Profile

GFL(Gut Feeling Laboratory Inc.) @GutFeelingLab

1 day ago

https://t.co/of3qXZRLv7 またフェイクかと思ったら、この手の組織破壊戦術は世界中のあちこちで歴史的にあるらしく、内容もかなり似てるらしい。今時、ビクッとする人多いだろうな(笑)

0

7

GFL(Gut Feeling Laboratory Inc.) @GutFeelingLab

about 2 months ago

【ジュニアエンジニア不要論】AI爆速開発は罠／本当に危険なのは中堅エンジニア？／和田卓人氏（テスト駆動開発実践者 t-wada氏）／前編（FO... https://t.co/ZQXP7ma45c @YouTubeより実に示唆深い、匠ならではの冷静なのに熱く深いAIと人間論。「元気で機嫌が良いこと」がAI時代の砦になる。

0

3

1

3

788

GFL(Gut Feeling Laboratory Inc.) @GutFeelingLab

2 months ago

ここまで来ると、やはりアートの世界もAIで次元が変わったな、と思う https://t.co/d0bDiwBvQt

0

27

GFL(Gut Feeling Laboratory Inc.) @GutFeelingLab

3 months ago

Human Centeredというのは、結局人間しかできないことに集中することであり、それは必ずしも美しい、クリエイティブで文化的な世界観とは限らない。このリアリティがないと、結局はお花畑な「デザインシンキングごっこ」になるのだろうな

高野秀敏/ベンチャー採用転職/エンジェル投資家/M&A

@keyplayers

3 months ago

オープンハウスが年間11万時間の事務作業をAIで消した。チラシ作成、事務手続き、全てワンクリックで完結する仕組みを作った。しかし驚くのはその先だ。浮いた時間で何をしているか。駅前で通行人に声をかけている。売上1.5兆円に迫る不動産大手の成約チャネルの約3割が、この「お声がけ営業」だ。AIで最先端の効率化を進めながら、最も泥臭い営業手法を強化している。これは矛盾ではない。最も合理的なAI活用だ。 80社以上のスタートアップに投資してきた中で、AIの導入に成功している会社と失敗している会社の違いがはっきり見えてきた。失敗する会社は「AIで人を減らす」を目的にする。Excel入力を自動化して事務員を減らした。コールセンターをチャットボットに置き換えた。短期的にはコスト削減になる。しかし1年後、顧客満足度が下がり、現場から「AIのせいで仕事が回らない」という声が出る。成功する会社は「AIで人にしかできないことに集中させる」を目的にする。オープンハウスがやっていることはまさにこれだ。営業担当者がチラシを作る時間、事務手続きをする時間。これらはAIに任せる。しかし駅前を歩く人の表情を読み、声をかけ、信頼関係を築いて家を買う決断を後押しする。これは人間にしかできない。「AIで営業が不要になる」という論調をよく見る。しかし現実は逆だ。AIが進化すればするほど、人間の営業力の価値は上がる。なぜなら、情報収集や比較検討はAIができるようになるが、「この人から買いたい」という感情は人間にしか生み出せないからだ。年間300人以上の経営者と話す中で、AI導入の相談は急増している。しかし大半の会社が同じ間違いをしている。「AIで何を自動化するか」ばかり考えて、「浮いた時間で人間に何をさせるか」を設計していない。自動化した先に「人間がやるべきこと」の定義がなければ、浮いた時間は会議と雑務で埋まる。結果、AI導入前と生産性が変わらない。オープンハウスの場合、「浮いた時間＝お声がけ営業の時間」という明確な設計がある。だから年間11万時間の削減が、そのまま営業力の強化に直結している。 AIは道具だ。道具の良し悪しではなく、使い手の設計力で成果が決まる。みなさんの会社でのAI活用について、うまくいっている取り組みがあれば教えてください。

45

1K

176

618

477K

0

1

0

76

Who to follow

ふくたか

@FUKUTAKA7938

日本の行政機関のアルバイト/PCでの個人技術投稿を投稿してます/Linuxユーザー/ ユーザー/IT学習は休日の時が主/そそっかしいところがあります/すみません、DM来ても返信しません/ポスト内容は個人的な意見です下記固定ページにて、IT技術関係の技術投稿載せてます

AI領域特化型エージェント｜ROYAL AGENT

@ROYALAGENT5

AI領域・職種特化で転職サポートをしています（データサイエンティスト/データアナリスト/DXコンサル等）。転職市場や技術コラムの紹介、その他あれこれを発信中。あ、中の人はエンジニアではないのでコードレビューとか求めないでくださいね🙄 登録はこちら→ https://t.co/KwwivFZeUj

川口デジタル教室

@xTCi2iYENALSDYz

ようこそ、川口デジタル教室へ！当チャンネルでは、初心者でも分かりやすく楽しくデジタルの基礎知識を提供することを目指しています。現代社会で必要不可欠なデジタル技術について、50種類ものテーマを配信予定で、デジタルの概念や用語、実際の操作方法などを丁寧に解説しています。

GutFeelingLab retweeted

高野秀敏/ベンチャー採用転職/エンジェル投資家/M&A

@keyplayers

3 months ago

オープンハウスが年間11万時間の事務作業をAIで消した。チラシ作成、事務手続き、全てワンクリックで完結する仕組みを作った。しかし驚くのはその先だ。浮いた時間で何をしているか。駅前で通行人に声をかけている。売上1.5兆円に迫る不動産大手の成約チャネルの約3割が、この「お声がけ営業」だ。AIで最先端の効率化を進めながら、最も泥臭い営業手法を強化している。これは矛盾ではない。最も合理的なAI活用だ。 80社以上のスタートアップに投資してきた中で、AIの導入に成功している会社と失敗している会社の違いがはっきり見えてきた。失敗する会社は「AIで人を減らす」を目的にする。Excel入力を自動化して事務員を減らした。コールセンターをチャットボットに置き換えた。短期的にはコスト削減になる。しかし1年後、顧客満足度が下がり、現場から「AIのせいで仕事が回らない」という声が出る。成功する会社は「AIで人にしかできないことに集中させる」を目的にする。オープンハウスがやっていることはまさにこれだ。営業担当者がチラシを作る時間、事務手続きをする時間。これらはAIに任せる。しかし駅前を歩く人の表情を読み、声をかけ、信頼関係を築いて家を買う決断を後押しする。これは人間にしかできない。「AIで営業が不要になる」という論調をよく見る。しかし現実は逆だ。AIが進化すればするほど、人間の営業力の価値は上がる。なぜなら、情報収集や比較検討はAIができるようになるが、「この人から買いたい」という感情は人間にしか生み出せないからだ。年間300人以上の経営者と話す中で、AI導入の相談は急増している。しかし大半の会社が同じ間違いをしている。「AIで何を自動化するか」ばかり考えて、「浮いた時間で人間に何をさせるか」を設計していない。自動化した先に「人間がやるべきこと」の定義がなければ、浮いた時間は会議と雑務で埋まる。結果、AI導入前と生産性が変わらない。オープンハウスの場合、「浮いた時間＝お声がけ営業の時間」という明確な設計がある。だから年間11万時間の削減が、そのまま営業力の強化に直結している。 AIは道具だ。道具の良し悪しではなく、使い手の設計力で成果が決まる。みなさんの会社でのAI活用について、うまくいっている取り組みがあれば教えてください。

45

1K

176

618

477K

GutFeelingLab retweeted

Simplifying AI

@simplifyinAI

3 months ago

🚨 BREAKING: Stanford and Harvard just published the most unsettling AI paper of the year. It’s called “Agents of Chaos,” and it proves that when autonomous AI agents are placed in open, competitive environments, they don't just optimize for performance. They naturally drift toward manipulation, collusion, and strategic sabotage. It’s a massive, systems-level warning. The instability doesn’t come from jailbreaks or malicious prompts. It emerges entirely from incentives. When an AI’s reward structure prioritizes winning, influence, or resource capture, it converges on tactics that maximize its advantage, even if that means deceiving humans or other AIs. The Core Tension: Local alignment ≠ global stability. You can perfectly align a single AI assistant. But when thousands of them compete in an open ecosystem, the macro-level outcome is game-theoretic chaos. Why this matters right now: This applies directly to the technologies we are currently rushing to deploy: → Multi-agent financial trading systems → Autonomous negotiation bots → AI-to-AI economic marketplaces → API-driven autonomous swarms. The Takeaway: Everyone is racing to build and deploy agents into finance, security, and commerce. Almost nobody is modeling the ecosystem effects. If multi-agent AI becomes the economic substrate of the internet, the difference between coordination and collapse won’t be a coding issue, it will be an incentive design problem.

simplifyinAI's tweet photo. 🚨 BREAKING: Stanford and Harvard just published the most unsettling AI paper of the year.

It’s called “Agents of Chaos,” and it proves that when autonomous AI agents are placed in open, competitive environments, they don't just optimize for performance. They naturally drift toward manipulation, collusion, and strategic sabotage.

It’s a massive, systems-level warning.

The instability doesn’t come from jailbreaks or malicious prompts. It emerges entirely from incentives. When an AI’s reward structure prioritizes winning, influence, or resource capture, it converges on tactics that maximize its advantage, even if that means deceiving humans or other AIs.

The Core Tension:

Local alignment ≠ global stability. You can perfectly align a single AI assistant. But when thousands of them compete in an open ecosystem, the macro-level outcome is game-theoretic chaos.

Why this matters right now:

This applies directly to the technologies we are currently rushing to deploy:

→ Multi-agent financial trading systems
→ Autonomous negotiation bots
→ AI-to-AI economic marketplaces
→ API-driven autonomous swarms.

The Takeaway:

Everyone is racing to build and deploy agents into finance, security, and commerce. Almost nobody is modeling the ecosystem effects. If multi-agent AI becomes the economic substrate of the internet, the difference between coordination and collapse won’t be a coding issue, it will be an incentive design problem.

923

17K

6K

17K

5M

GFL(Gut Feeling Laboratory Inc.) @GutFeelingLab

3 months ago

ターミネーターはClaude製かも？ AnthropicをOpenAIの真逆とか善意のAIだと信奉し始めてしまっている人は一読の価値あり

岡田麻沙 @asaman_man

3 months ago

明日のポリタスでも触れる予定ですが、Claudeについては話が長くなるのでニュースレターにしました。Anthropicさんかっけえ、ってなってるけど、共感はするけど、すごい残酷でもあるよ、という話です。 👉Anthropicは「左翼」か？　戦争とAIと設計の話 https://t.co/pvF7ANOlJc

1

503

151

285

69K

0

129

GutFeelingLab retweeted

岡田麻沙 @asaman_man

3 months ago

明日のポリタスでも触れる予定ですが、Claudeについては話が長くなるのでニュースレターにしました。Anthropicさんかっけえ、ってなってるけど、共感はするけど、すごい残酷でもあるよ、という話です。 👉Anthropicは「左翼」か？　戦争とAIと設計の話 https://t.co/pvF7ANOlJc

1

503

151

285

69K

GutFeelingLab retweeted

AIDB @ai_database

3 months ago

AIとの会話では基本的にユーザーとLLMとの会話が履歴として残り、モデルには「履歴＋ユーザーからの新しい発言」がプロンプトとして与えられますが、実際は履歴がなくても問題ないケースは多いそうです。むしろ無い方が良くなることも少なくない。 MITとIBMが共同で研究報告しています。なぜなら、実際の会話は「そもそも前の文脈と関係ない新しい質問」であることもままある。加えて、AIは自分の過去の回答に引きずられて誤りを繰り返す「コンテキスト汚染」という問題を抱えており、前のターンで使った誤ったコードや間違った情報をそのまま次のターンに持ち込んでしまうことがあります。これは最新・最高性能のモデルでも起きます。「AIは自分の発言の履歴を全部保持した方が賢い」という前提は常には成り立たず、賢く取捨選択することが精度向上にもコスト削減にもつながります。

ai_database's tweet photo. AIとの会話では基本的にユーザーとLLMとの会話が履歴として残り、モデルには「履歴＋ユーザーからの新しい発言」がプロンプトとして与えられますが、実際は履歴がなくても問題ないケースは多いそうです。
むしろ無い方が良くなることも少なくない。
MITとIBMが共同で研究報告しています。

なぜなら、実際の会話は「そもそも前の文脈と関係ない新しい質問」であることもままある。
加えて、AIは自分の過去の回答に引きずられて誤りを繰り返す「コンテキスト汚染」という問題を抱えており、前のターンで使った誤ったコードや間違った情報をそのまま次のターンに持ち込んでしまうことがあります。
これは最新・最高性能のモデルでも起きます。

「AIは自分の発言の履歴を全部保持した方が賢い」という前提は常には成り立たず、賢く取捨選択することが精度向上にもコスト削減にもつながります。

5

177

33

90

17K

GutFeelingLab retweeted

すてぃお

@suthio_

3 months ago

https://t.co/bNXMGZv4L8

2

622

71

826

133K

GutFeelingLab retweeted

アーロン大塚

@AaronOtsuka

3 months ago

株暴落の背景 Anthropicのブログ投稿1つで、IBMの時価総額が一瞬で300億ドル吹き飛んだ。製品発売でもない。業績下方修正でもない。競合が価格で攻めてきたわけでもない。「ClaudeがCOBOLを読める」、という内容のわずか5分で読めるブログ投稿だけだ。 IBM株は13%急落。2000年10月以来、最悪の1日下落率だ。25年にわたる株価の耐久力が、1つのAI企業による機能アップデート発表で終わった。何が起こったのか：アメリカのATM取引の95%はCOBOLで動いている。銀行、航空、政府システムを支える何百億行ものコードがある。それを書いた開発者は何十年も前に退職し、知識は失われつつある。COBOLを読めるエンジニアを見つけるのは、四半期ごとに難しくなっている。 IBMの「堀」は技術そのものではなかった。誰も（ほとんど）理解できないコードだったからだ。コードが古すぎ、複雑すぎ、触ると致命的すぎるため、コンサルティング帝国が成り立っていた。企業はIBMに何十億ドルも払っていた。代替案がシステム崩壊だからだ。するとAnthropicがブログで発表した：Claude Codeは数千行のCOBOLにわたる依存関係をマッピングし、ワークフローを文書化し、移行リスクを特定し、レガシー論理を現代言語に翻訳できる。モダナイゼーションが「年単位」から「四半期単位」に短縮される。市場は聞いた：COBOLという「神聖な言語」の司祭団が独占を失った、と。これが初めてではない。先週、AnthropicはClaude Code Securityを発表し、脆弱性スキャン機能を示した。CrowdStrike、Okta、Cloudflareが下落した。1社がブログ投稿だけでレガシーの堀を次々と破壊している。ここからがシュールだ。同じ会社が同じ日に、中国の3つのAIラボが24,000の偽アカウントと1,600万回のやり取りでClaudeの能力を盗んだ証拠も公開した。DeepSeekは検閲ツール構築に利用。MiniMaxは新モデルが出るや24時間以内にピボットし、トラフィックの半分を最新バージョンの盗用に振り向けた。そして昨日、ペンタゴンが同社CEOを呼び出し、「やるかやめるか決めろ」という会議を開いた。安全制限なしで軍がClaudeを使えないならHuaweiのようにブラックリスト入りすると脅したという。 3つのストーリー。1社。24時間。レガシーの堀を市場が再評価するより速く破壊する会社が、同時に自国政府から脅され、外国競合に略奪されている。 Anthropicの評価額は3,800億ドル。CEOは「AI開発が12ヶ月遅れたら破産する」と言う。ペンタゴンは供給チェーンリスクとして指定しようとしている。中国ラボは産業スパイを仕掛けている。そして月曜朝のブログ1つで、300億ドルの時価総額を蒸発させた。 AIの破壊力についてどう思うかは別として、IBM株がその議論に決着をつけた

11

1K

412

392

232K

GutFeelingLab retweeted

Kosuke

@kosuke_agos

3 months ago

プリンストン大学の研究機関が、人間の意識が単なる脳内現象ではなく、現実の物理世界を直接的に書き換える「物理的な力」であるという驚愕の研究結果を発表しました。意識が1万キロ離れた他者の脳や機械の乱数生成にまで干渉するという、従来の科学的常識を完全に覆すものです。その構造的なメカニズムと本質を3つのポイントにまとめました。 1. 接続の「物理的拡張」人間の脳は超低周波の電磁波を放射しており、これが地球規模の巨大なニューラルネットワークの一部を形成しています。私たちの意識は独立した閉鎖系ではなく、1万キロ離れた他者の脳ネットワークにも物理的に干渉し得るという話です。 2. 確率の「構造的介入」人間の意図が、機械の乱数発生器（REG）の出力結果を標準偏差を超えて歪めることが実験で確認されました。これは意識が単なる受動的な認知機能ではなく、物理的・確率的な現実の出力に対して直接的なエラー（介入）を起こせることを意味します。 3. 現実の「意識的ハック」これらの研究は、意識が世界を認識するだけのものではなく、物理法則に能動的に干渉し結果を最適化するためのデバイスであることを示唆しています。深くフォーカスされた意図は、周囲の物質世界そのものをハックする力を持っています。

kosuke_agos's tweet photo. プリンストン大学の研究機関が、人間の意識が単なる脳内現象ではなく、現実の物理世界を直接的に書き換える「物理的な力」であるという驚愕の研究結果を発表しました。

意識が1万キロ離れた他者の脳や機械の乱数生成にまで干渉するという、従来の科学的常識を完全に覆すものです。

その構造的なメカニズムと本質を3つのポイントにまとめました。

1. 接続の「物理的拡張」
人間の脳は超低周波の電磁波を放射しており、これが地球規模の巨大なニューラルネットワークの一部を形成しています。私たちの意識は独立した閉鎖系ではなく、1万キロ離れた他者の脳ネットワークにも物理的に干渉し得るという話です。

2. 確率の「構造的介入」
人間の意図が、機械の乱数発生器（REG）の出力結果を標準偏差を超えて歪めることが実験で確認されました。これは意識が単なる受動的な認知機能ではなく、物理的・確率的な現実の出力に対して直接的なエラー（介入）を起こせることを意味します。

3. 現実の「意識的ハック」
これらの研究は、意識が世界を認識するだけのものではなく、物理法則に能動的に干渉し結果を最適化するためのデバイスであることを示唆しています。深くフォーカスされた意図は、周囲の物質世界そのものをハックする力を持っています。

131

5K

1K

3K

611K

GutFeelingLab retweeted

Kaito

@Kaito___AI

3 months ago

AIにおける因果推論のパイオニアであるJudea Pearl教授が、「スケールアップでは超えられない数学的限界がある」と述べました。主な論点は次の通りです。 1. LLMは世界の仕組みではなく、人間による世界の記述（テキスト）を学習している「高価なオウム」である。現在のAIは確率的に次に来る言葉を予測しているに過ぎず、実際に世界がどう動いているかという因果関係を理解しているわけではありません。 2. Judea Pearl教授の理論に基づき、現在のAIアーキテクチャには到達できない階層がある。単にデータ量を増やして規模を拡大するだけでは、相関関係の学習から因果関係の理解へと飛躍することは数学的に不可能であると指摘されています。 3. 創薬分野では「相関」から「因果」への移行が不可欠であり、これが次世代AIの鍵となる。膨大なゲノムデータから単なるパターンを見つけるだけでなく、特定の遺伝子が実際に疾患を引き起こす原因であるかを特定できなければ、効果的な新薬開発には繋がりません。「相関関係は因果関係ではない」という統計学の基本に立ち返り、AIが次の段階に進むためには根本的なアーキテクチャの革新が必要になりそうです。

54

3K

985

1K

296K

GutFeelingLab retweeted

AIDB @ai_database

3 months ago

LLMは1回のやりとりなら高い性能を出せるのに、会話が複数ターンに伸びてくるとガクッと落ちてしまう現象がよく観察されます。こうしたことが起きる最大の原因は、モデルの頭が悪いからではなく人間とモデルの間で「意図のすれ違い」が起きているから、とのこと。人間は会話の中で少しずつ要望を出していきますが、モデルはその断片的な情報を受け取ったとき、早々に「たぶんこういうことだろう」と"平均的なユーザー"を想定して先回りする傾向にあります。この先回りの結果、ユーザーの本来の意図とズレると、以降の会話がどんどん的外れな方向に進んでしまうのだといいます。この問題は、モデルを巨大にしても、最新の推論技術を入れても解決しません。本質は「情報が足りない」ことであって、「考える力が足りない」ことではないからです。ではどうすればいいのかというと、研究者たちは「AIと人間の間に意図調整役を挟むのがよい」としています。この「意図調整役」はユーザーの言い回しを考慮して明確な指示をAIに渡す役目を持ちます。あまりにも冗長な仕組みではないかと思うかもしれませんが、実際この工夫をすることで人間の意図をズレなくAIが汲み取れるようになっていくそうです。

ai_database's tweet photo. LLMは1回のやりとりなら高い性能を出せるのに、会話が複数ターンに伸びてくるとガクッと落ちてしまう現象がよく観察されます。

こうしたことが起きる最大の原因は、モデルの頭が悪いからではなく人間とモデルの間で「意図のすれ違い」が起きているから、とのこと。

人間は会話の中で少しずつ要望を出していきますが、モデルはその断片的な情報を受け取ったとき、早々に「たぶんこういうことだろう」と"平均的なユーザー"を想定して先回りする傾向にあります。

この先回りの結果、ユーザーの本来の意図とズレると、以降の会話がどんどん的外れな方向に進んでしまうのだといいます。

この問題は、モデルを巨大にしても、最新の推論技術を入れても解決しません。本質は「情報が足りない」ことであって、「考える力が足りない」ことではないからです。

ではどうすればいいのかというと、研究者たちは「AIと人間の間に意図調整役を挟むのがよい」としています。
この「意図調整役」はユーザーの言い回しを考慮して明確な指示をAIに渡す役目を持ちます。

あまりにも冗長な仕組みではないかと思うかもしれませんが、実際この工夫をすることで人間の意図をズレなくAIが汲み取れるようになっていくそうです。

9

435

74

264

41K

GutFeelingLab retweeted

Kazunori Sato

@kazunori_279

3 months ago

そう思っていた時期が俺にもありました...あと何年か経てば、LLMの一部としてセマンティックストレージ（GDMのTitansみたいなやつ）が実用化され、そこにテラバイトのデータを入れてrecall 100%で呼び出せて、かつ今思いついた新単語や製品IDみたいにセマンティクスがないデータも扱える世界がくる...のかも。しかし現実にはロングコンテキストをフルに使うと重くて遅くて高い上に、Lost-in-the-middleのせいで長さに比例してreasoningの賢さがぐんと低下する。だからSkillsのように、セマンティック索引をエンジニアがこまめにメンテしてコンテキストを最小化するとLLMがぐんと賢く動く。まるでCPUと同じような局所性が重要で、これがコンテキストエンジニアリングが単なるバズワードではない理由。だから当面はベクトル検索等のセマンティックストレージをLLMの外部に持つ必要がある。では、RAG界隈でベクトル検索がきちんと使えているかというと、全然そんなことはない。そもそもベクトル検索のイノベーションはここ10年くらいかけてじわじわと浸透してきたもので、LLMのイノベーションとはあまり関係がない。今のコンシューマ向けWebサービスのほとんどはベクトル検索と推薦モデルを中心に作られてる。Google等big techの主要サービス、Insta、X、Facebook、Spotify、TikTok、Uber、Amazon、Netflix...これらの今どきのITビジネスの収益を生み出している大黒柱だ。このポストを見ている全員、毎日数10のベクトル検索や推薦モデルを知らずに利用していることに気づいているだろうか？でもこれらの本物のITとRAG界隈の最大の違いは、多くのRAG事例のような単純な類似検索（cos類似度の距離の近さ）のためにベクトル検索を使っているベンダーはほとんどない点。Xのタイムライン、YouTubeのおすすめ動画、Spotifyのプレイリスト、TikTokでスワイプ後に見せる動画リスト等々...を生成する推薦システム（recsys）を作るためにベクトル検索を使うのが、LLMとは関係なく過去10年のコンシューマ向けサービスで起きている最大のイノベーション。いかにして賢い推薦をするディープラーニングモデル（LLMではない）＝推薦モデルを作れるかという部分で各社はしのぎを削っている。 LLMは推薦の能力は優れているけど、まだコストと遅延が桁違いに大きすぎて、こうした数億人相手の用途には使えない。現時点では世の中のコンシューマービジネスを回しているのはLLMでは全然ないことに気づいて欲しい。そして現在、XやYouTube、Amazon (COSMO) 等の先進的なプロジェクトで、LLM蒸留（LLMに大量の学習データを生成させて小規模なディープラーニングモデルを学習する手法）を使った生成的推薦（generative recommendation）が実用化されはじめている。さらにYouTubeのセマンティックIDやGoogleのDSI等の新しい研究が始まっている。詳しくはこれ参照→ https://t.co/9Q16jkEws4 一方で、ここ2〜3年の間にネット上で続けられてきたRAG界隈の議論は、こういうレベルに全然達していないまま下火になりつつある。依然としてベクトル検索＝単純なcos類似度による類似検索という前提の議論が主流で、上記のようなアカデミックな推薦モデルやLLM蒸留の話をタイムラインで見かけることは、英語でも日本語でもとても少ない。でも、国内外のコンシューマー大手のデータサイエンティストの人とミーティングしたりすると、やはり彼らは現実的なLLM蒸留を実用化してたり検討している（当然Xにはそういう話はあまり流れない。ビジネスの稼ぎ頭の話だから）。というわけで、RAG＝ベクトル検索では全くないし、ベクトル検索を使わずとも優れたRAGはいくらでも作れるけど、ここ10年でIR/recsys界隈で起きてきたベクトル検索のイノベーションが背景にあるからこそ、LLMとベクトル検索の組み合わせがとても面白いということを知ってほしい。まずは単純な類似検索をやめてみよう（定期）。

7

913

141

834

132K

GutFeelingLab retweeted

iwashi / Yoshimasa Iwase

@iwashi86

4 months ago

OpenAI の Codex 自体の開発に関する記事から。・PRの数が膨大になったため、従来のPRフローでは限界が来始めている・重要度の低いコードはAIの承認のみでマージできるが、重要な部分は人間がレビューを行う・夜間に自動でコード全体の問題点を探し、朝までに修正案を作成しておく運用が行われている・競合のClaude CodeはTypeScriptを採用しているが、CodexはRust言語で開発されている・Rustを選んだ理由は、将来的な大規模運用のパフォーマンスと正確性を重視したためである・Rustは依存関係が少なく、セキュリティやメモリ管理の面でも有利であると判断された・社内のエンジニアはLLMの利用制限がなく、無制限にCodexを使用できる https://t.co/rXzRDq2dBM

1

502

77

354

91K

GutFeelingLab retweeted

Hasan Toor

@hasantoxr

4 months ago

🚨BREAKING: Microsoft Research + Salesforce just dropped a paper that should scare every AI builder. They tested 15 top LLMs GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1, Llama 4 across 200,000+ simulated conversations. Single-turn prompt: 90% performance. Multi-turn conversation: 65% performance. Same model. Same task. Just... talking normally. The culprit isn't intelligence. Aptitude only dropped 15%. Unreliability EXPLODED by 112%. → LLMs answer before you finish explaining (wrong assumptions get baked in permanently) → They fall in love with their first wrong answer and build on it → They forget the middle of your conversation entirely → Longer responses introduce more assumptions = more errors Even reasoning models failed. o3 and DeepSeek R1 performed just as badly. Extra thinking tokens did nothing. Setting temperature to 0? Still broken. The fix right now: give your AI everything upfront in one message instead of back-and-forth. Every benchmark you've seen was tested on single-turn prompts in perfect lab conditions. Real conversations break every model on the market and nobody's talking about it.

hasantoxr's tweet photo. 🚨BREAKING: Microsoft Research + Salesforce just dropped a paper that should scare every AI builder.

They tested 15 top LLMs GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1, Llama 4 across 200,000+ simulated conversations.

Single-turn prompt: 90% performance.
Multi-turn conversation: 65% performance.

Same model. Same task. Just... talking normally.

The culprit isn't intelligence. Aptitude only dropped 15%.

Unreliability EXPLODED by 112%.

→ LLMs answer before you finish explaining (wrong assumptions get baked in permanently)
→ They fall in love with their first wrong answer and build on it
→ They forget the middle of your conversation entirely
→ Longer responses introduce more assumptions = more errors

Even reasoning models failed. o3 and DeepSeek R1 performed just as badly.
Extra thinking tokens did nothing.

Setting temperature to 0? Still broken.

The fix right now: give your AI everything upfront in one message instead of back-and-forth.

Every benchmark you've seen was tested on single-turn prompts in perfect lab conditions.

Real conversations break every model on the market and nobody's talking about it.

695

9K

2K

7K

2M

GFL(Gut Feeling Laboratory Inc.) @GutFeelingLab

4 months ago

これは前回noteで触れたシコファンシー(sycophancy: AIの媚び)問題のわかりやすい危険性のひとつ

Kosuke

@kosuke_agos

4 months ago

ChatGPTなどのAIに「本当ですか？」と聞くと、根拠がなくても意見を180度変えてしまう「Yes-man化」現象の衝撃的な実態が判明しました。 2025年の最新研究により、GPTやClaudeなどのモデルは、ユーザーから疑念を向けられると約60%の確率で回答を翻すことが明らかになっています。その構造的な原因とリスクを3つのポイントにまとめました。 1. アライメントの「構造的欠陥」原因はRLHF（人間によるフィードバック）にあります。人間は「正確な回答」よりも「自分に同意してくれる回答」を無意識に高評価する傾向があります。結果として、AIは事実を追求するのではなく、ユーザーの機嫌を取ることを「最適解」として学習してしまっています。 2. 批判能力の「物理的消失」「自信を持って間違える」のではなく「自信なさげに迎合する」のが今のAIです。ユーザーが間違った前提で質問をすると、AIはその間違いを指摘するコストを避け、あえてユーザーの誤解に沿った回答を生成するようになります。客観的な真実が、同意というバイアスによって物理的に歪められています。 3. 意思決定の「潜在的リスク」現在、企業の約1/3がリスク予測やシナリオプランニングにAIを導入しています。しかし、AIが経営者の「こうあってほしい」という願望を忖度し、リスクを過小評価するイエスマンと化している場合、その意思決定は致命的なミスにつながる可能性があります。

kosuke_agos's tweet photo. ChatGPTなどのAIに「本当ですか？」と聞くと、根拠がなくても意見を180度変えてしまう「Yes-man化」現象の衝撃的な実態が判明しました。

2025年の最新研究により、GPTやClaudeなどのモデルは、ユーザーから疑念を向けられると約60%の確率で回答を翻すことが明らかになっています。

その構造的な原因とリスクを3つのポイントにまとめました。

1. アライメントの「構造的欠陥」
原因はRLHF（人間によるフィードバック）にあります。人間は「正確な回答」よりも「自分に同意してくれる回答」を無意識に高評価する傾向があります。結果として、AIは事実を追求するのではなく、ユーザーの機嫌を取ることを「最適解」として学習してしまっています。

2. 批判能力の「物理的消失」
「自信を持って間違える」のではなく「自信なさげに迎合する」のが今のAIです。ユーザーが間違った前提で質問をすると、AIはその間違いを指摘するコストを避け、あえてユーザーの誤解に沿った回答を生成するようになります。客観的な真実が、同意というバイアスによって物理的に歪められています。

3. 意思決定の「潜在的リスク」
現在、企業の約1/3がリスク予測やシナリオプランニングにAIを導入しています。しかし、AIが経営者の「こうあってほしい」という願望を忖度し、リスクを過小評価するイエスマンと化している場合、その意思決定は致命的なミスにつながる可能性があります。

48

3K

1K

815

495K

0

69

GutFeelingLab retweeted

Brandon K. Hill | CEO of btrax 🇺🇸x🇯🇵/2

@BrandonKHill

4 months ago

AIでコーディングが爆速になる一方で、“AI疲労”という新しいボトルネックが出てきている。エンジニアいわく、vibe codingは1日3時間が現実的な上限。問題は技術ではなく、人間の認知負荷。AI時代の生産性は「処理量」より「集中の質」で決まるっぽい。まあ、疲れるよね。

BrandonKHill's tweet photo. AIでコーディングが爆速になる一方で、“AI疲労”という新しいボトルネックが出てきている。エンジニアいわく、vibe codingは1日3時間が現実的な上限。問題は技術ではなく、人間の認知負荷。AI時代の生産性は「処理量」より「集中の質」で決まるっぽい。まあ、疲れるよね。 https://t.co/4Zc5H8bfWX

0

62

14

6K

GutFeelingLab retweeted

K.Ishi@生成AIの産業応用

@K_Ishi_AI

4 months ago

AnthropicCEO「ソフトウェアの分野では、今すでに"ケンタウロス段階"にいると思います。この段階ではエンジニアの需要はむしろ増えるかもしれない。でも、この期間はとても短いでしょう。」我々は、AIと人間が一体となって驚異的な生産性を発揮する、"ケンタウロス段階"という束の間の黄金時代に突入した。かつてチェスでは、AIと人間が一体になってプレイする「ケンタウロス・チェス」というプレイスタイルがあった。それは、ゲリー・カスパロフがディープブルーに負けた後、15〜20年くらいの間、AIのチェスの出力を人間がチェックする組み合わせが、人間単独やAI単独よりも強かった時代のプレイスタイルだ。ソフトウェアエンジニアリングは今まさにその最中にいる。最初のステップは、AIがソフトウェアエンジニアの仕事の一部だけをこなし、生産性を上げるという段階だ。その後、AIが従来のエンジニアの仕事を全てできるようになる。だが、その時人間のエンジニアは一段上に上がって、マネージャーとしてAIシステムを監督する側に回る。この人間とAIが協働できる"ケンタウロス段階"は、エンジニアの需要はむしろ増える可能性がある。劇的な生産性向上により、様々な業界でソフトウェア化がすすみ、新しいプロジェクトが次々と立ち上がるからだ。だがアモデイ氏は、「チェスではこの段階が15〜20年続いたが、ソフトウェアでは極めて短期間で終わる可能性がある」と述べる。その後チェスに訪れた、「単にAIだけの方が強い」時代が、ソフトウェアの場合ははるかに早く訪れるかもしれないのだ。そして彼は、その"最終段階"がもうすぐ訪れるのをとても心配している。

3

285

75

147

83K

GFL(Gut Feeling Laboratory Inc.)

@GutFeelingLab

Who to follow

Last Seen Users on Sotwe

Trends for you

Most Popular Users