拡散方式で4倍速の文章生成をローカルで｜DiffusionGemma

AI TREND

Google DeepMindとNVIDIA：拡散型テキスト生成公開

Google DeepMindが文章を並列生成する実験的オープンモデル「DiffusionGemma」を公開し、NVIDIAがGeForce RTX・RTX PRO・DGX Sparkなど自社GPU上でローカルからクラウドまで動かせるよう最適化した。

3 の要点を3分で

Google DeepMindが2026年6月11日、文章を高速生成する実験的オープンモデルDiffusionGemmaを公開した。NVIDIAはこれをGeForce RTX・RTX PRO・DGX Sparkなど自社GPU上でさらに速く動かせるよう最適化し、ローカルPCからクラウドまで対応させた。

従来の自己回帰型モデルが単語を1つずつ順番に出すのに対し、DiffusionGemmaは画像生成の拡散方式を文章に応用し、ノイズから文章のかたまり全体を一度に磨き上げる。1ステップで最大256トークンを並列生成し、1人利用の用途で同等の自己回帰型モデルより最大4倍速とされる。基盤は総260億パラメータ・1ステップ38億のみ作動する混合エキスパート方式のGemma 4。速度の目安はH100で毎秒1,000トークン、DGX Stationで最大毎秒2,000トークン。

重みは商用利用可能なApache 2.0で公開され、クラウド不要・利用量課金なしでローカル完結する。公開初日からHugging Face Transformers・vLLM・Unslothに対応し、コストとプライバシーを重視する開発現場の選択肢を広げる。

拡散方式で4倍速の文章生成をローカルで｜DiffusionGemmaの本文内説明図 — 図解: 拡散型テキスト生成公開 - GoogleDeepMindが文章を並列生成する実験的オープンモデル

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

単語を1つずつでなく最大256トークンを並列生成し最大4倍速
重みがApache 2.0で公開、商用利用もクラウドも課金不要
公開初日からTransformers・vLLM・Unslothに対応

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Google DeepMindとNVIDIA
何を: 拡散型テキスト生成公開
いつ: 2026年6月11日
どこで: オンライン
なぜ: 高速・低遅延生成のため
どのように: 拡散方式で並列生成

背景

現在広く使われている大規模言語モデルの多くは「自己回帰型」と呼ばれ、単語を1つずつ順番に生成する。この方式は対話的な体験を生む一方、応答までの待ち時間が生じやすい。DiffusionGemmaは画像生成で使われる拡散方式を文章に応用し、ノイズから文章のかたまり全体を一度に磨き上げるように生成する。基盤には総パラメータ260億・1ステップあたり38億のみを使う混合エキスパート方式のGemma 4を採用している。

なぜ今注目なのか

1ステップで最大256単語(トークン)を並列生成するため、開発者やアシスタントが扱う1人利用の用途で同等の自己回帰型モデルより最大4倍速いとされる。重みが商用利用可能なオープンライセンス(Apache 2.0)で公開され、クラウド不要・利用量課金なしでローカルのRTXやDGX Spark上だけで完結できる点が、コストとプライバシーを重視する開発現場の選択肢を広げる。

1ステップで256トークンを一気に磨き上げる

DiffusionGemmaは文章を1単語ずつ順番に出す従来の「自己回帰型」ではなく、画像生成で使われる拡散方式を文章に応用したモデルだ。ノイズから文章のかたまり全体を一度に磨き上げるように生成し、1ステップで最大256単語(トークン)を並列で出す。

Rather than generating text one word at a time, DiffusionGemma generates multiple words in parallel to output whole blocks of text, opening a new, low-latency frontier for the kind of single-user workloads that developers, […]
出典: NVIDIA Newsroom

ここでいう「single-user workloads(1人利用の用途)」とは、開発者やアシスタントが1人で対話的に使う処理を指す。基盤には総260億パラメータのうち1ステップで38億のみが作動する混合エキスパート方式(MoE)のGemma 4を採用している。Google DeepMindはこれを実験的なオープンモデルとして公開した。

NVIDIAが自社GPUでさらに速くした

Google DeepMindが2026年6月11日にDiffusionGemmaを公開したのに合わせ、NVIDIAはこれをGeForce RTX、RTX PRO、DGX Sparkなどの自社GPU上でさらに速く動かせるよう最適化した。ローカルのPCからクラウドまで対応する。

速度の目安として、NVIDIA H100で毎秒1,000トークン、DGX Stationで最大毎秒2,000トークンを生成する。並列生成の効果で、1人利用の用途では同等の自己回帰型モデルより最大4倍速いとされる。

NVIDIA has optimized DiffusionGemma to run even faster across NVIDIA GeForce RTX GPUs, the NVIDIA RTX PRO platform and NVIDIA DGX Spark systems, from local PCs to the cloud.
出典: NVIDIA Newsroom