https://t.co/Bwa157YBS9
Synthetic data generation for pretraining. When pretraining saturates update the data generator to be more useful for the current model.
Googleより。良い合成データの作り方。
Designing synthetic datasets for the real world: Mechanism design and reasoning from first principles
https://t.co/1NIRJOG4EL
良い品質の合成データを効率的に作る方法。従来は人間がチェックするなどして非効率な部分があった。提案手法では、"Global Diversification", "Local Diversification", "Complexification", そして "Quality Check" の4つのステージを設けている。
個人メモ
ブログ読んだだけでは、これらがどれほど有効で他の企業とどこまで違うのかわからなかった。