Gemma 4の量子化を比べてみた〜Q4・QAT・Q8で速度と品質はどう変わるか

Gemma 4には同じモデルに対して複数の量子化方式が用意されています。Q4_K_M(4ビット)、QAT(Quantization-Aware Training)、Q8_0(8ビット)の3種類を、RTX 3090 + RTX 3060の環境で速度・品質ともに実測しました。 本記事では、「量子化方式を変えると速度と品質がどう変わるのか」を検証します。結論としては、26B MoEではQATがQ4_K_Mと同等の速度でGPQA正答率を改善し、Q8_0は速度が落ちるものの全問正解を記録しました。VRAMに余裕があるならQ8_0、なければQATが有力です。 ※ 測定日: 2026年6月。Ollama使用。前回記事「Gemma 4とQwen 3.6、自分のGPUで使うならどっち?」の続編です。

量子化方式の違い

方式概要サイズ目安
Q4_K_M学習後に4ビットに圧縮(Post-Training Quantization)。OllamaのデフォルトFP16の約30%
QAT量子化を前提にトレーニング(Google公式ブログ)。2026年6月5日リリース。同サイズでQ4より高品質FP16の約30%
Q8_08ビット量子化。FP16に近い品質だがサイズはQ4の約2倍FP16の約50%

テスト環境

テスト環境
GPU(メイン)
RTX 3090 24GB
GPU(サブ)
RTX 3060 12GB
CPU / メモリ
Ryzen 9 3950X / 64GB
推論エンジン
Ollama

比較したモデル

モデル量子化ファイルサイズVRAM実測GPU配置
Gemma 4 26B MoEQ4_K_M18GB19GB3090単体
Gemma 4 26B MoEQAT15GB17GB2GPU分割
Gemma 4 26B MoEQ8_028GB29GB2GPU分割
Gemma 4 31B denseQ4_K_M19GB26GB2GPU分割
Gemma 4 31B denseQAT18GB25GB2GPU分割
Gemma 4 31B denseQ8_033GB35GB2GPU分割(ctx=2048)

MoE(Mixture of Experts)は全26Bパラメータのうち稼働は3.8Bのみ。denseは全パラメータが常に稼働。

生成速度の比較

生成速度(tok/s)— 量子化方式別

26B MoE Q4_K_M
107 tok/s
26B MoE QAT
90 tok/s
26B MoE Q8_0
62 tok/s
31B dense QAT
26 tok/s
31B dense Q4_K_M
24.5 tok/s
31B dense Q8_0
15.5 tok/s

Thinking OFF、同一プロンプトで測定。青=Q4_K_M、緑=QAT、オレンジ=Q8_0。

MoE Q4_K_Mが最速の107 tok/sで、Q8_0は62 tok/sまで低下しました。denseモデルでもQ4→Q8で24.5→15.5 tok/sと約37%落ちています。QATはQ4_K_Mと同等のサイズですが、26B MoEでは90 tok/sとやや遅い結果でした。これはOllamaが2GPU分割を選択したためで、量子化方式自体の差ではなく配置戦略の影響です。

推論精度の比較(GPQA Diamond 5問)

博士課程レベルの科学問題(物理・化学・生物)5問を、Thinkingモードで解かせました。
モデルQ1 生物Q2 化学Q3 化学Q4 物理Q5 物理正答率
26B MoE Q4_K_MD ✓B ✓A ✓B ✗C ✓80%
26B MoE QATD ✓B ✓A ✓D ✓C ✓100%
26B MoE Q8_0D ✓B ✓A ✓D ✓C ✓100%
31B dense Q4_K_MD ✓B ✓A ✓D ✓C ✓100%
31B dense QATD ✓B ✓A ✓B ✗C ✓80%
31B dense Q8_0D ✓B ✓A ✓D ✓C ✓100%

GPQA Diamondサンプル5問(Thinking ON)。サンプル数が少ないため参考値。26B MoEではQ4_K_MのみがQ4(光子エネルギーの問題)を誤答し、QATとQ8_0は正解。31B denseではQATのみQ4を誤答した。

26B MoEでは、Q4_K_Mが間違えた問題(Q4: 光子エネルギーの問題)をQATとQ8_0が正解しています。一方31B denseではQATだけがQ4を誤答しており、5問という少ないサンプルでは揺らぎも含まれます。それでも、Q8_0が26B MoE・31B denseともに全問正解だった点は、量子化精度が推論品質に影響する傾向として読み取れます。

日本語品質の比較

同一プロンプト(「ローカルLLMのメリット・デメリットを500文字程度で」)で日本語生成品質を比較しました。量子化方式による日本語品質の差はごくわずかです。いずれのバリエーションでも自然な日本語が生成されており、構造化(太字見出し付き)の傾向も共通していました。

コーディング品質

Trieデータ構造の実装を指示したところ、全6バリエーションとも正しいクラス定義・メソッド実装を返しました。量子化方式によるコーディング品質の差は確認できませんでした。

VRAMが足りないとどうなるか

31B Q8_0(33GBファイル)をRTX 3090 + RTX 3060(合計36GB)に載せる実験も行いました。
設定結果
デフォルト(num_ctx=32768)CUDA out of memory — 動作不可
num_ctx=2048 + 全層GPU動作OK — 15.5 tok/s(VRAM 35.3GB / 36.9GB使用)
デフォルトのコンテキスト長(32768トークン)ではKVキャッシュがVRAMに収まらず、OOMエラーが発生します。num_ctx=2048に制限すると動作しますが、長い文書の処理には使えません。 GPU層数(num_gpu)を変えて、CPUオフロード量と速度の関係も測定しました。

31B Q8_0: GPU層数と生成速度の関係

20層(CPU主体)
1.7
40層
3.0
55層
7.1
60層
12.8
全層GPU
15.7

num_ctx=2048固定。単位: tok/s。GPU層が増えるほど速い。CPU主体だと1.7 tok/sまで落ちる。

GPUに載せる層数が減るほど速度は急激に低下します。20層(ほぼCPU)では1.7 tok/sと、全層GPUの15.7 tok/sの約9分の1です。VRAMに収まりきらないモデルは、CPUオフロード量に応じて使い物にならないレベルまで遅くなります。

まとめ — 量子化方式の選び方

状況おすすめ理由
VRAMに余裕あり(Q8が全層載る)Q8_0GPQA全問正解。速度は落ちるが品質が最も高い
VRAMが普通(Q4が載る程度)QATQ4_K_Mと同サイズで品質向上。入れ替えるだけ
速度最優先Q4_K_M(MoE)107 tok/sで最速。日常利用には十分な品質
Q8がギリギリ載るかどうかQATに留めるコンテキスト制限やCPUオフロードで速度が大幅低下するリスク
QATはQ4_K_Mからサイズ・速度面のデメリットなしに乗り換えられる選択肢です。ファイルサイズは同等以下で、26B MoEでは推論精度の向上も確認できました(31B denseでは5問中1問の揺らぎあり)。OllamaでQ4_K_Mを使っているなら、ollama pull gemma4:26b-a4b-it-qatで試す価値があります。 Q8_0はVRAMに余裕があるときの選択肢です。26B MoE Q8_0(28GB)はRTX 3090単体では載りませんが、2GPU分割で62 tok/sと実用的な速度が出ます。品質重視の用途(専門的な推論、コード生成など)では検討する価値があります。 VRAMが足りないモデルを無理に載せるのは避けるべきです。31B Q8_0(33GB)は36GB VRAMではコンテキスト長を2048に制限しないとOOMになり、速度もQ4_K_Mの約63%に低下します。「少し足りない」は「大幅に遅い」と同義です。

参考リンク

検証に使用した機材

[kimono_product id="15761″]

[kimono_product id="15759″]