Go Kamoda @go2oo2 - Twitter Profile

Pinned Tweet

Go Kamoda @go2oo2

3 months ago

口頭発表情報も追加されました! 関わった3つの論文，全て口頭発表があります

1

5

0

491

go2oo2 retweeted

Keito Kudo @k8kudo

3 months ago

数学を解くLLM構築コンペ FT-LLM2026で，オープン部門1位，総合部門でも2位となりました! Tohoku NLP＋αで実現しうる最強メンバー(@mhida90, @onely7_deep @go2oo2 @muyo8692 @r_takahashi_h12 @y_aoneko @kyano__nlp @ma38taniguchi @t_ito0516 @KeisukeS_ @drJunSuzuki)による賜物です! @tohoku_nlp

k8kudo's tweet photo. 数学を解くLLM構築コンペ FT-LLM2026で，オープン部門1位，総合部門でも2位となりました!
Tohoku NLP＋αで実現しうる最強メンバー(@mhida90, @onely7_deep @go2oo2 @muyo8692 @r_takahashi_h12 @y_aoneko @kyano__nlp @ma38taniguchi @t_ito0516 @KeisukeS_ @drJunSuzuki)による賜物です!
@tohoku_nlp https://t.co/sez3cbmEI9

0

41

11

1

5K

Go Kamoda @go2oo2

3 months ago

🎉 ① 優秀賞 ② 若手奨励賞 to @raito_kiya ③ 若手奨励賞 to @satoki1049 + FT-LLMコンペティションオープン部門1位、総合2位 to Team dentaku

0

15

3

0

509

Go Kamoda @go2oo2

4 months ago

#NLP2026 では関わった3件の発表があります宇都宮で会いましょう! ① SoftMatcha 2：柔らかいコーパス検索を1兆語規模へ拡張し、挿入・削除にも対応 (https://t.co/G2mEjNi7LT) ② Attention Sink には位置よりも自身への注意集中が効いている可能性 ③ Attention sink からのValueベクトルは静的

go2oo2's tweet photo. #NLP2026 では関わった3件の発表があります
宇都宮で会いましょう!

① SoftMatcha 2：柔らかいコーパス検索を1兆語規模へ拡張し、挿入・削除にも対応 (https://t.co/G2mEjNi7LT)
② Attention Sink には位置よりも自身への注意集中が効いている可能性
③ Attention sink からのValueベクトルは静的 https://t.co/qyNHKak8bq

1

33

8

4

7K

Who to follow

Hisao USUI

@hisao_usui

NLP、DH系の研究をしている人。新米です。ついに博士学生になってしまいました。農工大古宮研所属です。 NLP新米の会運営です。 Ph.D student in Tokyo University of Agriculture and Technology.

Yosuke Kishinami

@KishinamiYosuke

東北大学情報科学研究科(Tohoku NLP Lab @tohoku_nlp) 修士卒

SHITO RYO

@Dlexus4

Hitotsubashi Komachi lab D2 | 日本語大好きマン | Zh Ja En

Go Kamoda @go2oo2

3 months ago

口頭発表情報も追加されました! 関わった3つの論文，全て口頭発表があります

1

5

0

491

go2oo2 retweeted

Raito Kiya @raito_kiya

3 months ago

光栄なことに、#NLP2026 で若手奨励賞を受賞しました！今後も、不思議な現象「Attention Sink」の発生機序に迫る面白い研究を目指します！また、この場をお借りして、ご指導くださった共著の皆様本当にありがとうございました！

raito_kiya's tweet photo. 光栄なことに、#NLP2026 で若手奨励賞を受賞しました！

今後も、不思議な現象「Attention Sink」の発生機序に迫る面白い研究を目指します！

また、この場をお借りして、ご指導くださった共著の皆様本当にありがとうございました！ https://t.co/2oL3Aamtm8

0

41

7

0

2K

go2oo2 retweeted

Satoki Ohashi @satoki1049

3 months ago

#NLP2026 にて、若手奨励賞を受賞することができました！発表を見にきてくださった方、サポートしていただいた共著陣の方、ありがとうございました。

2

44

5

2

2K

go2oo2 retweeted

E869120 @e869120

3 months ago

言語処理学会 #NLP2026 で主著論文の SoftMatcha 2 が優秀賞 (797 件中上位 16 件) を獲得しました！ AI や自然言語処理に関する研究は初めてでしたが、高く評価していただき、誠にありがとうございました。

1

247

17

9

15K

go2oo2 retweeted

YANS @yans_official

3 months ago

📢速報📢 第21回言語処理若手シンポジウム #YANS2026 について #YANS懇で発表がありました！会場：仙台国際センター（宮城県）日時：2026年8月16日(日)〜18日(火) 詳細は本アカウントや https://t.co/rs2enpAVRe で随時発信予定です．みなさんお楽しみに🌱

0

52

30

4

26K

go2oo2 retweeted

Raito Kiya @raito_kiya

3 months ago

#NLP2026 にて，共著を含む計3件の発表を行います！特に口頭発表は，選出率 4% (32/799) という貴重な機会をいただきました！ - 3/11(水) 11:15〜：ポスター発表 - 3/11(水) 09:30〜：共著論文（口頭発表） - 3/12(木) 09:30〜：口頭発表 🎤 ぜひ足をお運びいただけると嬉しいです！

raito_kiya's tweet photo. #NLP2026 にて，共著を含む計3件の発表を行います！
特に口頭発表は，選出率 4% (32/799) という貴重な機会をいただきました！

- 3/11(水) 11:15〜：ポスター発表
- 3/11(水) 09:30〜：共著論文（口頭発表）
- 3/12(木) 09:30〜：口頭発表 🎤

ぜひ足をお運びいただけると嬉しいです！ https://t.co/EBZyHBq57n

1

19

7

0

4K

go2oo2 retweeted

Satoki Ohashi @satoki1049

3 months ago

#NLP2026 にて，共著を含む計4件の発表があります！ぜひ会場にお越しください！ ①Attention Sinkのバイアス項的解釈 - 3/11(水) 09:30〜：口頭🎤 - 3/11(水) 11:15〜：ポスター🖼 ②Attention Sinkの発生機序 - 3/11(水) 11:15〜：ポスター🖼 - 3/12(木) 09:30〜：口頭🎤

satoki1049's tweet photo. #NLP2026 にて，共著を含む計4件の発表があります！
ぜひ会場にお越しください！

①Attention Sinkのバイアス項的解釈
- 3/11(水) 09:30〜：口頭🎤
- 3/11(水) 11:15〜：ポスター🖼
②Attention Sinkの発生機序
- 3/11(水) 11:15〜：ポスター🖼
- 3/12(木) 09:30〜：口頭🎤 https://t.co/5G0B1assdv

0

27

7

3

4K

Go Kamoda @go2oo2

3 months ago

口頭発表情報公開につき，updateしました

0

56

Go Kamoda @go2oo2

4 months ago

言語処理学会4年目で今更ですがこの類の画像を作るのにかかる時間がもったいない気がしてきてスクリプト作成しましたよかったらどうぞ。 https://t.co/1BdCgLpo4W

Go Kamoda @go2oo2

4 months ago

#NLP2026 では関わった3件の発表があります宇都宮で会いましょう! ① SoftMatcha 2：柔らかいコーパス検索を1兆語規模へ拡張し、挿入・削除にも対応 (https://t.co/G2mEjNi7LT) ② Attention Sink には位置よりも自身への注意集中が効いている可能性 ③ Attention sink からのValueベクトルは静的

1

33

8

4

7K

1

29

0

13

4K

go2oo2 retweeted

国立国語研究所（こくごけん） @kokugoken

4 months ago

横井祥准教授、鴨田豪非常勤研究員が参画している共著論文が、「ITmedia AI＋」で紹介されています。 https://t.co/7MthwHyNoL

0

27

8

8K

go2oo2 retweeted

Sakana AI

@SakanaAILabs

4 months ago

Introducing SoftMatcha 2: A Fast and Soft Pattern Matcher for Trillion-Scale Pre-Training Corpora https://t.co/j90flhhRzv What lies within a trillion-scale pre-training corpus? Can you truly guarantee your benchmarks are uncontaminated simply because there are no exact string matches? Alongside several research institutions in Japan, Sakana AI is proud to have collaborated in the development of SoftMatcha 2, an ultra-fast and flexible search tool that enables search over trillion-scale natural language corpora in under 0.3 seconds, even while handling semantic variations (substitution, insertion, and deletion). No existing tool meets all these criteria, including infini-gram-mini (EMNLP’25 Best Paper) or the original SoftMatcha (ICLR’25). Our approach employs string matching based on suffix arrays that scales well with corpus size. To mitigate the combinatorial explosion induced by the semantic relaxation of queries, our method is built on two key algorithmic ideas: fast exact lookup enabled by a disk-aware design, and dynamic corpus-aware pruning. As a practical application, we demonstrate that SoftMatcha 2 identifies potential benchmark contamination in pre-training corpora that existing exact-match approaches miss. You can try searching through a 100B-scale corpus via our online demo. The system remains blazingly fast even on trillion-token corpora, so we encourage you to host it yourself for larger scales. Demo: https://t.co/6bbZjh2JnS Paper: https://t.co/aXea33SGjK Code: https://t.co/Y1A8o5u6Hf This work is a collaboration with researchers from the University of Tokyo, NII, Kyoto University, SOKENDAI, NINJAL, Tohoku University, and RIKEN.

16

464

84

265

89K

go2oo2 retweeted

Takuya Akiba

@iwiwi

4 months ago

巨大なLLM事前学習データを爆速で検索出来る「SoftMatcha 2」の開発に参加させてもらいました。デモ、論文、ソースコード等をこの度公開しましたので是非お試し下さい！ https://t.co/hVDXc60F5C 意味的類似性に基づいた置換や挿入削除に対応しながら1兆トークン規模のデータを0.1秒代で検索するというなかなか狂った性能になってます。EMNLP'25 Best Paperのinfini-gram-miniを含む既存のツール全てを大きく凌駕する性能だと思います。用途に特化したデータレイアウトを持つdisk-aware suffix arrayを使いながら、本来指数的になる置換・挿入・削除の候補を実データに基づきうまく枝刈りすることで高速な検索を達成してます。この規模の事前学習データを検索出来ることの利点の事例として、論文ではベンチマークの汚染の検証をやってみてます。infini-gram-miniのような厳密な検索のみでは発見出来ないような汚染の事例なども有りそうでした。現在デモでは数百Bトークン規模のデータからの検索を試せるようになってます。コードも公開してますのでご自身でホストしてもらうとより大規模なケースもお試し頂けます。 🌐 Demo: https://t.co/iNHhzeIsw3 📄 Paper: https://t.co/HNxk0aK5WS 💻 Code: https://t.co/foPSdoviuz 若き才能 @e869120 を始めとするSoftMatchaチームの方々との協働はとても刺激的で多くの学びがありました。楽しかった〜！ありがとうございました！ @shiatsumat @go2oo2 @ksuenaga @MasWag @sho_yokoi

4

1K

255

715

249K

go2oo2 retweeted

E869120 @e869120

4 months ago

速報です。詳細は 21:10 頃に投稿します。

0

82

6

9

7K

go2oo2 retweeted

sho_yokoi @sho_yokoi

4 months ago

🍦 SoftMatcha 2 プロジェクトページ： https://t.co/jxJl0r6J5S 🗣️ 今週末 2/14 の #言語学フェスと、それから 3/10 に #NLP2026 でも発表します。遊びにきてください。 (言語学フェス) https://t.co/r5hTDzkLrY https://t.co/69VuYF9pYl (NLP) https://t.co/rDmIthpLe9 https://t.co/gdUQPpXeFV

sho_yokoi's tweet photo. 🍦 SoftMatcha 2 プロジェクトページ： https://t.co/jxJl0r6J5S

🗣️ 今週末 2/14 の #言語学フェスと、それから 3/10 に #NLP2026 でも発表します。遊びにきてください。
(言語学フェス)
https://t.co/r5hTDzkLrY
https://t.co/69VuYF9pYl
(NLP)
https://t.co/rDmIthpLe9
https://t.co/gdUQPpXeFV https://t.co/PJXmafkBf9

1

210

53

133

31K

go2oo2 retweeted

sho_yokoi @sho_yokoi

4 months ago

1兆語規模のコーパスから0.1秒単位で用例検索できるツールができてしまいました。意味的な置換・挿入・削除にも対応。世界の Takuya Akiba と ICPC 史上初世界2位に輝いた E869120 のガチプロ2名にジョインいただき、動くわけがないと思っていたサイズでなぜか動いてます。遊んでみてください。

sho_yokoi's tweet photo. 1兆語規模のコーパスから0.1秒単位で用例検索できるツールができてしまいました。意味的な置換・挿入・削除にも対応。
世界の Takuya Akiba と ICPC 史上初世界2位に輝いた E869120 のガチプロ2名にジョインいただき、動くわけがないと思っていたサイズでなぜか動いてます。遊んでみてください。 https://t.co/QNrRPP15fA

1

2K

445

1K

439K

go2oo2 retweeted

Mutsumi Sasaki @mutsumi_sasaki

8 months ago

"Can Language Models Handle a Non-Gregorian Calendar?"が #AACL2025 のmainに採択されました🎉 w/@go2oo2 @r_takahashi_h12 @keiskS @inuikentaro @benbenhh (@tohoku_nlp) LMの時間推論研究のグレゴリオ暦偏重を指摘し、日本人1億超が扱う和暦を題材にLMが非グレゴリオ暦を扱う能力を調べました。

mutsumi_sasaki's tweet photo. "Can Language Models Handle a Non-Gregorian Calendar?"が #AACL2025 のmainに採択されました🎉 w/@go2oo2 @r_takahashi_h12 @keiskS @inuikentaro @benbenhh (@tohoku_nlp)

LMの時間推論研究のグレゴリオ暦偏重を指摘し、日本人1億超が扱う和暦を題材にLMが非グレゴリオ暦を扱う能力を調べました。 https://t.co/RxpEAZEVjd

1

44

5

7

5K

Go Kamoda @go2oo2

9 months ago

3月のNLPで発表した（共著）ものです私個人も（は）文字単位モデルの色々気になるなぁでもUnicodeポイントをそのまま使うのは色々問題が起きるなぁ byteなら埋め込み行列が256で済むなぁそういえばデジタルデータって、バイト列で表せるなぁなどの妄想をしながら議論/設計/構築してました

Keito Kudo @k8kudo

9 months ago

byte tokenizerを採用したBERT (4モデル) と，同じくbyte tokenizerを採用した実験的なMulti-LM-head日本語言語モデルを公開しました． byte tokenizerを使った変な言語モデルに興味がある方がいらっしゃればぜひ触ってみてください! https://t.co/BEFuo4dtMn https://t.co/Gxwf6RaGYm

0

31

7

11

6K

0

11

1

4

2K

Go Kamoda

@go2oo2

Who to follow

Last Seen Users on Sotwe

Trends for you

Most Popular Users