Gemma 4が4分の1のメモリで動く｜量子化版QAT公開

AI TREND

Google：Gemma 4のQAT版公開

GoogleがGemma 4向けに量子化対応学習(QAT)で作成した新しいモデルチェックポイントを公開し、性能をほぼ維持したまま消費メモリを従来の約4分の1に削減した。

3 の要点を3分で

GoogleがGemma 4向けに、量子化対応学習(QAT)で作成した新しいモデルチェックポイントを公開した。性能をほぼ維持したまま、消費メモリを従来の約4分の1に削減できるのが特徴である。新しいモバイル向け量子化形式により、小型モデルのGemma 4 E2Bはわずか1GBのメモリで動かせるようになった。

チェックポイントは4ビット(Q4_0)形式やモバイル向け形式でHugging Faceに配布される。実行ツールはllama.cpp・vLLM・Ollama・LM Studioに対応し、新しい環境を組み直さずに手元のツールで読み込める。QATは学習中に低精度演算を模擬することで、圧縮後の精度低下を抑える手法である。

メモリ要件が下がることで、これまで大型GPUが必要だったモデルを少メモリ環境やローカル端末でも動かしやすくなる。個人や中小規模のチームが追加投資なしで手元の機材で利用でき、クラウド推論コストを払わずにオンデバイスで動かす選択肢が現実的になった。

Gemma 4が4分の1のメモリで動く｜量子化版QAT公開の本文内説明図 — 図解: Gemma4のQAT版公 - GoogleがGemma4向けに量子化対応学習(QAT)で作成した新しいモデルチェックポイン

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

性能を維持しつつ消費メモリを従来の約4分の1に削減
新しいモバイル向け量子化形式でGemma 4 E2Bが1GBで動く
4ビット(Q4_0)・モバイル形式でHugging Face配布

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Google
何を: Gemma 4のQAT版公開
いつ: 2026年6月8日
どこで: Hugging Face
なぜ: 省メモリ化のため
どのように: 量子化対応学習(QAT)

背景

Gemmaは、Googleが開発する軽量な公開モデル群である。前世代のGemma 3の技術報告書でも省メモリ化の取り組みが示されていた。今回のQATは、モデルを4ビット（Q4_0）などに圧縮しても精度劣化を抑えるため、学習段階から量子化の影響を織り込む手法である。従来は学習後にまとめて圧縮する方式が一般的で、精度低下が課題だった。

なぜ今注目なのか

メモリ消費が約4分の1になることで、これまで大型GPUが必要だったモデルを、より少ないメモリの環境やローカル端末でも動かしやすくなる。配布先はHugging Faceで、llama.cpp・vLLM・Ollama・LM Studioといった一般的な実行ツールに対応しており、個人や中小規模のチームでも手元での利用が現実的になる点が大きい。

Gemma 4のQAT版で消費メモリが約4分の1に

GoogleがGemma 4向けに、量子化対応学習(QAT、学習時から量子化の影響を織り込む手法)で作成した新しいモデルチェックポイントを公開した。最大の特徴は、性能をほぼ維持したまま消費メモリを従来の約4分の1に抑えられる点である。

More Gemma 4! New QAT Gemma 4 checkpoints with similar performance while using ~4x less memory! It comes with a new mobile quantization format that reduces memory footprint of Gemma 4 E2B to just 1GB.
出典: Philipp Schmid (X)

引用にある「mobile quantization format」は、モバイル端末向けにメモリ使用量を抑える新しい量子化形式のことである。これにより小型モデルのGemma 4 E2Bは、わずか1GBのメモリで動かせるようになった。量子化対応学習(QAT)は、学習中に低精度の演算を模擬することで、4ビットなどへ圧縮した後でも精度の落ち込みを抑える。学習後にまとめて圧縮する従来方式で課題だった精度低下を緩和する狙いである。