jnywk

@jnywk

Software Engineer

Tokyo-to, Japan

Joined December 2014

504 Following

98 Followers

15.1K Posts

jnywk retweeted

Dataibridge

@Dataibridge_01

1 day ago

Preferred Networksのエンジニアが公開した技術スライド。国産LLM開発の最前線で実際に取り組んだ内容が詰まってます。  PLaMo 3.0 Prime Betaの事後学習パイプライン（CPT→SFT→DPO→GRPO）と、推論最適化（KV Cache・バッチング・量子化など）の実践的な手法と結果を体系的に学べます。  LLMのpost-trainingや本番向け推論環境を構築・最適化したいエンジニア・研究者。リソース効率を重視する人や、国産生成AI開発に興味がある人に特におすすめ！  ・YaRNによるコンテキスト拡張やReasoning DPO、GRPOを使ったRLの効果と実装のポイント ・推論最適化：Paged Attention、Continuous Batching + Chunked Prefill、GPTQ/AWQなどの量子化手法の選び方とトレードオフ ・JFBenchのような日本語指示追従ベンチマークの作成方法や、データ合成・評価の工夫  自社LLMやオープンソースモデルのpost-trainingパイプライン設計、vLLMなどのOSS活用、限られたリソース下での効率的なモデル運用にそのまま応用可能。国内AI開発の意義も再認識できます。  理論だけでなく、PFNの実務経験に基づく具体的なベンチマーク結果・失敗/成功事例・OSS貢献内容まで詳しく書かれていて、すぐに現場で活かせる実践度が非常に高いです。  https://t.co/6Z5aZRgn5e

243

209

12K

jnywk retweeted

pospome@カミナシのVPoE @pospome

1 day ago

すんごい詳しく書いてある。これは勉強になりますね。 https://t.co/qGmF8xDAfO

766

881

49K

jnywk retweeted

ML_Bear

@MLBear2

1 day ago

Fable5・Mythos5の利用制限についてはAxiosの報道が詳しいらしい。きっかけは他社による「Mythosのジェイルブレイクに成功した」という主張だったとのこと。以下詳細。【何が起きたか】・商務長官がAnthropic CEOのDario Amodei宛に書簡を送付・Mythos 5とFable 5を輸出規制の対象に指定・対象は米国外のすべての地域＋米国内のすべての外国人・モデルの輸出・再輸出・国内移転にはライセンスが必要、個別認証ライセンスの追加申請も求められる・違反すれば金銭的・民事的な罰則【きっかけ】・政権担当者によると、別の企業が「Mythosをジェイルブレイクできた」と主張したことが安全保障上の懸念を呼んだ (他のポストでAnthropicはこれを誤解だと言っている ) ・政権は当初Anthropicに最新モデルのリリース延期を求めたが失敗し、輸出規制の書簡に至った・米政府の安全保障体制が強化されるまでロックダウンが必要との立場（数週間以内に整う可能性とも）【Anthropicの立ち位置】・国防総省のブラックリスト入り（政府自身が使うには危険すぎる扱い）と、商務省のライセンス制度（外国が使うには危険すぎる扱い）の両方に該当する状態に・Anthropicはコメント要請に即答せず【背景】・トランプ政権は今月初め、最先端AIモデルの展開前テストを求める大統領令を発出・AnthropicはCommerce傘下のCenter for AI Standards and Innovationと展開前テストで提携済み・ただし大統領令は自発的なもので、ライセンス制度はあえて避けた設計（ホワイトハウスAI顧問のDavid Sacksが「大手ラボによる規制の取り込み」を懸念して確保した方針）。今回の措置はそれと逆行する形・政権担当者は「トランプは産業を傷つけたくない、イノベーションは続けたい」とも【まとめ】・最先端AIを国家安全保障資産として扱う流れの大きなエスカレーション・AnthropicのFable 5一般公開からわずか数日での規制で、政府とAnthropicの綱引きは一段と複雑に

MLBear2's tweet photo. Fable5・Mythos5の利用制限についてはAxiosの報道が詳しいらしい。きっかけは他社による「Mythosのジェイルブレイクに成功した」という主張だったとのこと。以下詳細。

【何が起きたか】
・商務長官がAnthropic CEOのDario Amodei宛に書簡を送付
・Mythos 5とFable 5を輸出規制の対象に指定
・対象は米国外のすべての地域＋米国内のすべての外国人
・モデルの輸出・再輸出・国内移転にはライセンスが必要、個別認証ライセンスの追加申請も求められる
・違反すれば金銭的・民事的な罰則

【きっかけ】
・政権担当者によると、別の企業が「Mythosをジェイルブレイクできた」と主張したことが安全保障上の懸念を呼んだ (他のポストでAnthropicはこれを誤解だと言っている )
・政権は当初Anthropicに最新モデルのリリース延期を求めたが失敗し、輸出規制の書簡に至った
・米政府の安全保障体制が強化されるまでロックダウンが必要との立場（数週間以内に整う可能性とも）

【Anthropicの立ち位置】
・国防総省のブラックリスト入り（政府自身が使うには危険すぎる扱い）と、商務省のライセンス制度（外国が使うには危険すぎる扱い）の両方に該当する状態に
・Anthropicはコメント要請に即答せず

【背景】
・トランプ政権は今月初め、最先端AIモデルの展開前テストを求める大統領令を発出
・AnthropicはCommerce傘下のCenter for AI Standards and Innovationと展開前テストで提携済み
・ただし大統領令は自発的なもので、ライセンス制度はあえて避けた設計（ホワイトハウスAI顧問のDavid Sacksが「大手ラボによる規制の取り込み」を懸念して確保した方針）。今回の措置はそれと逆行する形
・政権担当者は「トランプは産業を傷つけたくない、イノベーションは続けたい」とも

【まとめ】
・最先端AIを国家安全保障資産として扱う流れの大きなエスカレーション
・AnthropicのFable 5一般公開からわずか数日での規制で、政府とAnthropicの綱引きは一段と複雑に

324

143

158

65K

jnywk retweeted

Anthropic

@AnthropicAI

2 days ago

The US government, citing national security authorities, has issued an export control directive to suspend all access to Fable 5 and Mythos 5 by any foreign national, whether inside or outside the United States, including foreign national Anthropic employees. The net effect of this order is that we must abruptly disable Fable 5 and Mythos 5 for all our customers to ensure compliance. Access to all other Claude models is not affected. We apologize for this disruption to our customers. We believe this is a misunderstanding and are working to restore access as soon as possible. Read our full statement: https://t.co/bwn0sximKZ

12K

87K

26K

24K

87M

Who to follow

いずけん@Snowflake

@Izken_snowflake

すべての人が簡単にデータにアクセス・コラボレーションできる世界に貢献していきます。そしてAIをもっと身近に！ Snowflake（ex-Salesforce, Toppan）

Dinael S Martinex

@Dinael048

I work Hard and Play Hard. My But I love my Family.

多摩の倹人

@frugal_person

主に多摩に生息し、生活保護の半額程度を費やす習性を持つ不思議な生き物。 FIREに弱い。見果てぬ夢「健康で文化的な最低限度の生活」を目指し、冒倹を続けている。

jnywk @jnywk

1 day ago

ミュトス級AIの提供停止　輸出管理対象指定で　米アンソロピック（時事通信） #Yahooニュース https://t.co/RoikHXjQyz

104

jnywk retweeted

Satoshi Nakajima @MulmoCast

@snakajima

2 days ago

ここ6ヶ月で、私のコーディング・スタイルは根本的に変わりました。４０数年間、自らコードを書くことを心の底から楽しんできた私が、コーディングはすべてClaude Codeに任せ、自分は設計して指示を出す側に変わりました。仕事の仕方が根本的に変わったのです。こんな「根本的な違い」を実際に経験している人は、まだ世界の人口の0.1%ぐらいに過ぎません。その割合が、今後、0.1%→1%→5%→15%と増えた時に、それが社会全体に与える影響は、計り知れないものになると思います。良いものも、悪いものも含めて。（来週のメルマガより）

255

569

203K

jnywk @jnywk

2 days ago

https://t.co/l34FmAezFb

jnywk retweeted

Google Research

@GoogleResearch

2 days ago

🚀 Introducing Gemini-SQL2, our breakthrough text-to-SQL capability powered by Gemini 3.1 Pro! We've achieved state-of-the-art results on the highly competitive BIRD benchmark, translating natural language into execution-ready SQL queries. 🧵👇

GoogleResearch's tweet photo. 🚀 Introducing Gemini-SQL2, our breakthrough text-to-SQL capability powered by Gemini 3.1 Pro! We've achieved state-of-the-art results on the highly competitive BIRD benchmark, translating natural language into execution-ready SQL queries. 🧵👇 https://t.co/HfO2ZW2pih

128

614

652K

jnywk retweeted

みくかぶ🦋専業投資家👼

@miku919191

2 days ago

イーロンのIPOの時のスピーチざっくり📝(かっこよすぎ）エルセグンドの倉庫から始まった小さな会社が、今ではここまで来ました。上場し、史上最大のIPOとなるまでになったのです。正直に言うと、もし当時、誰かが私に「こんなことが起きる」と言っていたら、私はこう思ったでしょう。「おいおい、いいクラック吸っているんじゃないか」と。なぜなら、私はこの会社は失敗すると思っていたからです。はっきり言って、SpaceXが成功する確率は10％未満だと考えていました。実際、私は人々にそう言っていました。「おそらく失敗するだろう。でも、やってみるべきだ」と。なぜなら、もし私たちが挑戦しなければ、もし新しい企業が宇宙産業に参入しなければ、私たちは本当の意味で宇宙へ進出する文明にはなれないと思ったからです。当時、他の航空宇宙企業もロケットなどを作っていました。しかし彼らは、生命を複数の惑星に広げるために必要な技術を、本気で追求していたわけではありませんでした。私たちが目指していたのは、『スター・トレック』のような未来を現実にすることです。私たちが本で読んできた、刺激的なSFの未来を、現実のものにすることです。 SpaceXの本質は、まさにそこにあります。 SFから「フィクション」を取り除き、すべての人にとって刺激的で、心を動かす未来を創ることです。私たちは、月へ行きたい人、火星へ行きたい人、太陽系のあらゆる場所へ行きたい人、そしていつかは太陽系の外へ行きたい人までも、連れて行けるようにしたいのです。いつの日か、あなたをそこへ連れて行きたい。ほんの数人の宇宙飛行士だけではありません。文字通り、あなたです。今この話を見ているあなたを、私たちは月へ、火星へ、そして最終的にはその先へ連れて行けるようにしたいのです。そして今の私は、SpaceXにいる信じられないほど素晴らしいチームと共に、それを実現できると確信しています。私はいつもこのことを考えています。地球上には、常に問題があります。地球にはいつも解決すべき課題があります。私たちはこの地球をもっと良くしたいし、ここにある問題を解決すべきです。しかし同時に、未来にワクワクできるものも必要です。朝起きるのが楽しみになり、次に何が起こるのか待ちきれないと思えるようなものが必要なのです。それこそが、SpaceXが皆さんに届けたい未来なのです。

miku919191's tweet photo. イーロンのIPOの時のスピーチざっくり📝(かっこよすぎ）

エルセグンドの倉庫から始まった小さな会社が、今ではここまで来ました。
上場し、史上最大のIPOとなるまでになったのです。
正直に言うと、もし当時、誰かが私に「こんなことが起きる」と言っていたら、私はこう思ったでしょう。
「おいおい、いいクラック吸っているんじゃないか」と。

なぜなら、私はこの会社は失敗すると思っていたからです。
はっきり言って、SpaceXが成功する確率は10％未満だと考えていました。
実際、私は人々にそう言っていました。
「おそらく失敗するだろう。でも、やってみるべきだ」と。
なぜなら、もし私たちが挑戦しなければ、もし新しい企業が宇宙産業に参入しなければ、私たちは本当の意味で宇宙へ進出する文明にはなれないと思ったからです。

当時、他の航空宇宙企業もロケットなどを作っていました。
しかし彼らは、生命を複数の惑星に広げるために必要な技術を、本気で追求していたわけではありませんでした。
私たちが目指していたのは、『スター・トレック』のような未来を現実にすることです。
私たちが本で読んできた、刺激的なSFの未来を、現実のものにすることです。
SpaceXの本質は、まさにそこにあります。
SFから「フィクション」を取り除き、すべての人にとって刺激的で、心を動かす未来を創ることです。

私たちは、月へ行きたい人、火星へ行きたい人、太陽系のあらゆる場所へ行きたい人、そしていつかは太陽系の外へ行きたい人までも、連れて行けるようにしたいのです。
いつの日か、あなたをそこへ連れて行きたい。
ほんの数人の宇宙飛行士だけではありません。
文字通り、あなたです。

今この話を見ているあなたを、私たちは月へ、火星へ、そして最終的にはその先へ連れて行けるようにしたいのです。
そして今の私は、SpaceXにいる信じられないほど素晴らしいチームと共に、それを実現できると確信しています。

私はいつもこのことを考えています。
地球上には、常に問題があります。
地球にはいつも解決すべき課題があります。
私たちはこの地球をもっと良くしたいし、ここにある問題を解決すべきです。
しかし同時に、未来にワクワクできるものも必要です。
朝起きるのが楽しみになり、次に何が起こるのか待ちきれないと思えるようなものが必要なのです。
それこそが、SpaceXが皆さんに届けたい未来なのです。

853

691K

jnywk retweeted

Dawn Song

@dawnsongtweets

3 days ago

Everyone says the latest AI agents will be "job-ready" soon, especially after the release of Fable 5 this week. But is that really the case? Over the past many months, my group and collaborators have been building Agents' Last Exam (ALE), a benchmark designed to test exactly that claim on real digital labor-market work. My group and collaborators previously have created many of the benchmarks the field runs on, including MMLU, MATH, CyberGym, and ExploitGym. Today, I'm excited to share Agents' Last Exam (ALE): a rolling benchmark that measures whether AI agents can actually perform economically valuable work across a broad range of real-world domains. With ALE, we evaluated Fable 5, GPT-5.5, Composer 2.5, and other frontier agent systems across more than 1,500 expert-sourced tasks spanning 55 occupations. The result is both impressive and sobering. Today's agents can solve a meaningful fraction of professional tasks. But when we look at the hardest tasks, the ones requiring sustained reasoning, deep domain expertise, and reliable execution over long horizons, they are still far from human-level performance. On ALE's hardest tier, every frontier agent we tested, including Fable 5, achieved a 0% success rate. The age of useful agents is here. The age of truly job-ready agents is not. We hope Agents' Last Exam (ALE) will serve as a new guidepost and north star for developing agents capable of reliably performing economically valuable work across a broad range of domains. 🧵

$dawnsongtweets's tweet photo. Everyone says the latest AI agents will be "job-ready" soon, especially after the release of Fable 5 this week. But is that really the case? Over the past many months, my group and collaborators have been building Agents' Last Exam (ALE), a benchmark designed to test exactly that claim on real digital labor-market work. My group and collaborators previously have created many of the benchmarks the field runs on, including MMLU, MATH, CyberGym, and ExploitGym. Today, I'm excited to share Agents' Last Exam (ALE): a rolling benchmark that measures whether AI agents can actually perform economically valuable work across a broad range of real-world domains. With ALE, we evaluated Fable 5, GPT-5.5, Composer 2.5, and other frontier agent systems across more than 1,500 expert-sourced tasks spanning 55 occupations. The result is both impressive and sobering. Today's agents can solve a meaningful fraction of professional tasks. But when we look at the hardest tasks, the ones requiring sustained reasoning, deep domain expertise, and reliable execution over long horizons, they are still far from human-level performance. On ALE's hardest tier, every frontier agent we tested, including Fable 5, achieved a 0% success rate. The age of useful agents is here. The age of truly job-ready agents is not. We hope Agents' Last Exam (ALE) will serve as a new guidepost and north star for developing agents capable of reliably performing economically valuable work across a broad range of domains. 🧵$

806

166

416

207K

jnywk retweeted

けんすう

@kensuu

3 days ago

メリトクラシーは戦後社会において格差を正当化するイデオロギーとして使われてきたよね、と思っていて、、「学力や仕事で必要な能力は、その人の才能と努力によって身につけたものであり、収入が高いのは正当化される」みたいなやつです。本来は「相続された資本があるから、現代において必要とされる能力を身につけられた」という前提もあるはずですが、無視されがちだったというか。最近だとようやく「いや、実家が太くて、都心で塾とかに行ける人の方がどう考えても有利じゃね」みたいな感じの議論も出ていますが、まだある程度、「本人の能力で得ている収入なので正当だ」というのは残っているかなと。しかし、AI時代に、能力差や努力の差があまり生産力に直結しなくなるとなると、格差の正当化装置が消えちゃう、ということは起こりそうです。となると、残るのはピケティのr>gじゃないですが、「むき出しの相続資本」が勝負を決めちゃう、みたいなことが起こり得そうです。極論、親がお金持ちで、AIの計算資源を月に50万円分回せる子供は、それで収入を得て、さらにお金持ちになる、みたいなことが起こり得るからです。そこには正当性があまりなく「お金を持っていると、AIによる計算資源を分回せるから、よりお金を得れる」というだけです。現代は、「教育が階級移動のチャネル」みたいなのがあったのですが、このチャネルが閉鎖されると、階級の固定化が起こり、それを正当化できる根拠やストーリーもないので、階級闘争みたいなやつとか、暴力革命とかが頻出する可能性はあるかなーと思っています。

218

44K

jnywk retweeted

Dataibridge

@Dataibridge_01

3 days ago

AI駆動開発における「Human in the Loop（HITL）」から「Human on the Loop（HOTL）」へのパラダイムシフトと、それを支える統治構造（三権分立モデル）について学べます。  ・HITLとHOTLの違いと、HOTLを実現するための「Harness Engineering」の考え方 ・三権分立モデル（立法・司法・行政）によるAI統治構造の設計方法 ・Authority Provenance Graph / Specification Provenance Graphを活用した、機械可読なルール管理・検証の仕組み  AIエージェントを自律的に動かすための組織設計・ガバナンス構築の具体的なヒントが得られ、実際の開発プロセスに落とし込んで開発速度と品質の両立を図れます。SSOTやグラフベースの知識管理の考え方は、プロダクト開発以外の領域にも応用可能です。  ビズリーチが月間2,300億トークン規模で実際にAIを活用している実践知見に基づいており、理論だけでなく、組織変革のための具体的なチェックポイントや実装レベルの提案が豊富です。  https://t.co/KtbTub605I

234

223

17K

jnywk retweeted

Cognition Japan

@cognition_jp

3 days ago

CognitionのSean Wang @swyx は、次のように指摘しています: 「SWE Benchの結果の半分以上は「マージ不可能」だと言われています。つまり、そのコードが表面的には問題を解決していても、実際にはそのコードを運用する組織にとって使い物にならない実装だったということです。 Frontier Codeはまさにこの問題を解決するために作られたのです」 https://t.co/LMvPxggGRa

jnywk retweeted

sakata

@mariosakata

3 days ago

John Maeda氏の「From UX to AX」を読んだ。ここでいうAXはAgentic Experienceのこと。これまでのUXデザインは画面や導線を考える仕事だったけど、これからは、「AIにどこまで任せる？」「最後は人が判断する？」みたいなことを設計する時代になる...と面白い視点だった。 https://t.co/YY5Pq3DpNM

jnywk retweeted

Haruhiko Okumura

@h_okumura

3 days ago

Stripeは、2ヶ月かかるはずの5千万行のRubyコードの移行を、Fable 5で1日で終えた https://t.co/DIrB715ZLU （日本ではレジを消費税0にするのに1年かかる）

215

314

97K

jnywk retweeted

ななし＠氷河期ブログの人

@_teeeeest

4 days ago

金融庁のライフプランシミュレーターが面白いですインフレも考慮できるので難易度めちゃ高い今すぐ仕事辞めたパターン、リスク資産だけ運用したパターンなどを試したので2026年版を記事にしました何歳からなら逃げ切れるか？というのに使うのも面白いので是非お試しをw https://t.co/uYKyI11MCe

346

262

229K

jnywk retweeted

Haruki Yano / Haruma-K

@harumak_11

3 days ago

コードを書かせるためではなく、シニアにするためにジュニアを採用せよ、という記事 https://t.co/AgvofNtQeM ・AIがコードを生成してシニアエンジニアがそれをレビューできるようになった今、給与コストを抑えるためにジュニアエンジニアを削減するのは合理的に見えるが、長期的には間違っている・会社や業界が今後も生き残り成長し続けるためには、ジュニアを採用して基礎を築くことが不可欠である・ジュニアが人前で急激に成長していく過程を見ることは組織全体に良い影響を与え、シニアはAIの言語モデルに対しては持たないような責任感を、指導する若手に対しては抱くようになる・またジュニアは過去のやり方に固執する習慣がないため、チームにAIツールを新しく導入して定着させたい場合にも有利に働く・現在エントリーレベルの採用が減っている本当の原因は、コスト削減と新しい価値の創造を混同している投資家にある・その考えが経営層に波及し、目に見える成果が測りにくいジュニアが真っ先に削減の標的にされてしまっている・AIを使うジュニアはコードを理解せずに出力するだけなので指導しにくいという意見もあるが、実際には数ヶ月で急成長して育成コストを下げる組織と、質の低いコードを生み出し続ける組織の二極化が起きている・この違いは、組織が本気でメンターシップに取り組んでいるかどうかと、既存のエンジニアリングの基盤が整っているかどうかにかかっている・古いコードやドキュメントの不足、指導者がいない環境にAIを導入し、その結果生じた問題をジュニアのせいにするのは間違っている・今の時代に優秀なジュニアに求められるのは、単にコードが書けることではなく、成長したいという強い意欲や、困難を乗り越える気概を持っていることである・今ジュニアの採用を止めて人材のパイプラインを更新しない組織は、5年後には変化に適応できず、知識の継承もできず、新人を訓練する余裕すらない状態に陥ってしまう・その段階に達してしまうと、いくらお金を積んでも問題を解決することはできなくなる・状況を正しく見ている企業にとって今は好機であり、採用されずに余っている優秀なジュニアを雇って適切に育成すれば、将来的に大きな競争力を得ることができる

241

736

165K

jnywk retweeted

Prof

@TheProfInvestor

4 days ago

My First purchase of SpaceX will be in 10 months. All IPOs trade in a similar trend. Shocking stats: - Most IPOs drop 50% after going live. Look at $CAVA $RDDT $ALAB $CRWV $CART $CBRS - Some drop further to 70-80%, look at $HOOD $PLTR - And some never recover: $MBLY $CRCL $KLAR

TheProfInvestor's tweet photo. My First purchase of SpaceX will be in 10 months.

All IPOs trade in a similar trend.
Shocking stats:

- Most IPOs drop 50% after going live. Look at $CAVA $RDDT $ALAB $CRWV $CART $CBRS
- Some drop further to 70-80%, look at $HOOD $PLTR
- And some never recover: $MBLY $CRCL $KLAR

116

313

276K

jnywk retweeted

梶谷健人

@kajikent

4 days ago

仕事のほとんどを「Claude Code」と「Codex」で進める中で掴んだ「上手い人と下手な人を分ける、12の習慣」をnoteにまとめました。（主に非エンジニア向け）この12項目を実践したらだいぶ「Claude Code/Codex巧者」になれると思います。 https://t.co/Znjbks90Ax

160

177

29K

jnywk retweeted

SemiAnalysis

@SemiAnalysis_

4 days ago

Recently, we purchased one of each Anthropic/OpenAI subscription plan and randomly ran long horizon coding tasks until we exhausted the weekly limit. It's widely believed that a $200/month plan maxes out at ~$2000/month worth of tokens (assuming API pricing). However, we found that the subscriptions are actually far more generous. (2/4)

SemiAnalysis_'s tweet photo. Recently, we purchased one of each Anthropic/OpenAI subscription plan and randomly ran long horizon coding tasks until we exhausted the weekly limit. It's widely believed that a $200/month plan maxes out at ~$2000/month worth of tokens (assuming API pricing). However, we found that the subscriptions are actually far more generous. (2/4)

186

572

jnywk

@jnywk

Who to follow

Last Seen Users on Sotwe

Trends for you

Most Popular Users