ローカルLLMの速度が3〜4倍に!?
Google DeepMindのテキスト拡散モデル「DiffusionGemma」を解説。速度と精度のトレードオフに留意が必要となりますが、従来の自己回帰方式とは異なる並列生成で、ローカル環境でのインタラクティブな作業が加速できるかもしれません。
https://t.co/Lyo8iNtheW
DiffusionGemmaでローカル推論が劇的に進化!
Google DeepMindの新モデル「DiffusionGemma」は、256トークン単位の並列生成により、量子化版で18GB VRAM以内に収まり、高速テキスト生成を実現。従来の自己回帰型より効率的で、ローカル環境での実用性が向上しました。
https://t.co/s8b13q5fMG
Gemma 4 MTP just got officially merged into llama.cpp
This means you can use Gemma 4 QAT + MTP for a lightweight + super fast setup. Excited to see what the community builds with it
https://t.co/1te7tgdi2H
Gemma 4 quantization-aware training (QAT) models are now available, bringing AI performance directly to edge devices and consumer GPUs. These checkpoints are optimized with quantization-aware training to dramatically reduce memory requirements and unlock high-speed local inference. 🧵