Google DeepMindが2026年6月11日、文章を高速生成する実験的オープンモデルDiffusionGemmaを公開した。NVIDIAはこれをGeForce RTX・RTX PRO・DGX Sparkなど自社GPU上でさらに速く動かせるよう最適化し、ローカルPCからクラウドまで対応させた。
従来の自己回帰型モデルが単語を1つずつ順番に出すのに対し、DiffusionGemmaは画像生成の拡散方式を文章に応用し、ノイズから文章のかたまり全体を一度に磨き上げる。1ステップで最大256トークンを並列生成し、1人利用の用途で同等の自己回帰型モデルより最大4倍速とされる。基盤は総260億パラメータ・1ステップ38億のみ作動する混合エキスパート方式のGemma 4。速度の目安はH100で毎秒1,000トークン、DGX Stationで最大毎秒2,000トークン。
重みは商用利用可能なApache 2.0で公開され、クラウド不要・利用量課金なしでローカル完結する。公開初日からHugging Face Transformers・vLLM・Unslothに対応し、コストとプライバシーを重視する開発現場の選択肢を広げる。