端末で動くAI、E2Bが約1GBに｜Gemma 4 QAT

AI TREND

Google DeepMind：Gemma 4 QAT公開

Google DeepMindが2026年6月5日、軽量AIモデル「Gemma 4」に量子化を意識した学習(QAT)を適用したチェックポイントを公開し、新しいモバイル向け量子化形式でE2Bモデルを約1GBまで削減した。

3 の要点を3分で

Google DeepMindが2026年6月5日、軽量AIモデル「Gemma 4」に量子化を意識した学習(QAT)を適用したチェックポイントを公開した。新しいモバイル向け量子化形式により、E2Bモデルのメモリ消費を約1GBまで削減し、性能をほぼ保ったままメモリ使用量を約4分の1に抑えたとしている。一次発表元はGoogle DeepMindの公式ブログである。

QATは、モデルの数値表現を粗くして容量を減らす手法を学習段階から織り込む技術で、後から圧縮する方式に比べて精度低下を抑えやすい。前世代のGemma 3でも家庭用GPU向けにQAT適用モデルが配布されており、今回はその流れをモバイル端末まで広げ、具体的な数値とともに正式チェックポイントとして配った点が新しい。

モデルが約1GBに収まることで、クラウドに送らず端末側でAIを動かす用途が現実的になる。通信を介さないため遅延やデータの外部送信を避けたい構成で有利になり、モバイルアプリや組み込み機器へのAI搭載を検討する開発者の選択肢が広がる。容量と精度のバランスを示す数値が公式から出たことが、導入判断の材料になる。

端末で動くAI、E2Bが約1GBに｜Gemma 4 QATの本文内説明図 — 図解: Gemma4QAT公開 - GoogleDeepMindが2026年6月5日軽量AIモデル

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

E2Bモデルが新モバイル量子化形式で約1GBに縮小
QATで精度を保ちつつメモリ消費を約4分の1に削減
クラウド非経由で端末側に直接AIを載せる用途が現実的に

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Google DeepMind
何を: Gemma 4 QAT公開
いつ: 2026年6月5日
どこで: 公式ブログ
なぜ: 端末側AI実行のため
どのように: 量子化意識学習(QAT)

背景

Gemma は Google が無償公開している軽量な生成AIモデル群で、スマートフォンや手元の端末でも動かせる小型化を重視してきた。前世代の Gemma 3 技術報告でも、性能を保ちつつ計算資源を抑える方向が示されていた。量子化を意識した学習（QAT、モデルの数値表現を粗くして容量を減らす手法を学習段階から織り込む技術）は、精度の低下を抑えながらモデルを大幅に小さくするための代表的な手法である。今回はその QAT を Gemma 4 に正式適用したチェックポイントとして配布する点が新しい。

なぜ今注目なのか

モデルが約1GBまで縮むことで、クラウドに送らず端末側で直接動かす用途が現実的になる。通信を介さないため遅延やプライバシー面で有利で、モバイルアプリや組み込み機器へのAI搭載を検討する開発者にとって選択肢が広がる。容量と精度のバランスを示す具体的な数値が公式から出た点が、導入判断の材料になる。

E2Bが約1GBに縮んだことの意味

Google DeepMindは2026年6月5日、軽量AIモデル「Gemma 4」に量子化を意識した学習(QAT)を適用したチェックポイントを公開した。目を引くのは、新しいモバイル向け量子化形式でE2Bモデルのメモリ消費を約1GBまで削減した点だ。

発表を取り上げたcuratorの投稿は、性能をほぼ保ったままメモリ使用量を約4分の1に抑えたと整理している。

New QAT Gemma 4 checkpoints with similar performance while using ~4x less memory! It comes with a new mobile quantization format that reduces memory footprint of Gemma 4 E2B to just 1GB.
出典: More Gemma 4 (@_philschmid)

引用の「~4x less memory」は「メモリ消費が約4分の1」、「new mobile quantization format」は「モバイル端末向けに新たに用意した、数値表現を粗くして容量を減らす形式」を指す。一次発表元はGoogle DeepMindの公式ブログである。容量がここまで下がると、クラウドのサーバーに送って処理するのではなく、手元の端末の中だけでAIを動かす構成が現実的な選択肢に入ってくる。