Gemma 4の量子化を比べてみた〜Q4・QAT・Q8で速度と品質はどう変わるか

2026年6月19日

Gemma 4には同じモデルに対して複数の量子化方式が用意されています。Q4_K_M（4ビット）、QAT（Quantization-Aware Training）、Q8_0（8ビット）の3種類を、RTX 3090 + RTX 3060の環境で速度・品質ともに実測しました。本記事では、「量子化方式を変えると速度と品質がどう変わるのか」を検証します。結論としては、26B MoEではQATがQ4_K_Mと同等の速度でGPQA正答率を改善し、Q8_0は速度が落ちるものの全問正解を記録しました。VRAMに余裕があるならQ8_0、なければQATが有力です。 ※ 測定日: 2026年6月。Ollama使用。前回記事「Gemma 4とQwen 3.6、自分のGPUで使うならどっち？」の続編です。

1. 量子化方式の違い
2. テスト環境
3. 比較したモデル
4. 生成速度の比較
5. 推論精度の比較（GPQA Diamond 5問）
6. 日本語品質の比較
7. コーディング品質
8. VRAMが足りないとどうなるか
9. まとめ — 量子化方式の選び方
- 9.1. 参考リンク
- 9.2. 検証に使用した機材

量子化方式の違い

方式	概要	サイズ目安
Q4_K_M	学習後に4ビットに圧縮（Post-Training Quantization）。Ollamaのデフォルト	FP16の約30%
QAT	量子化を前提にトレーニング（Google公式ブログ）。2026年6月5日リリース。同サイズでQ4より高品質	FP16の約30%
Q8_0	8ビット量子化。FP16に近い品質だがサイズはQ4の約2倍	FP16の約50%

テスト環境

GPU（メイン）

RTX 3090 24GB

GPU（サブ）

RTX 3060 12GB

CPU / メモリ

Ryzen 9 3950X / 64GB

推論エンジン

Ollama

比較したモデル

モデル	量子化	ファイルサイズ	VRAM実測	GPU配置
Gemma 4 26B MoE	Q4_K_M	18GB	19GB	3090単体
Gemma 4 26B MoE	QAT	15GB	17GB	2GPU分割
Gemma 4 26B MoE	Q8_0	28GB	29GB	2GPU分割
Gemma 4 31B dense	Q4_K_M	19GB	26GB	2GPU分割
Gemma 4 31B dense	QAT	18GB	25GB	2GPU分割
Gemma 4 31B dense	Q8_0	33GB	35GB	2GPU分割（ctx=2048）

MoE（Mixture of Experts）は全26Bパラメータのうち稼働は3.8Bのみ。denseは全パラメータが常に稼働。

生成速度の比較

生成速度（tok/s）— 量子化方式別

26B MoE Q4_K_M

107 tok/s

26B MoE QAT

90 tok/s

26B MoE Q8_0

62 tok/s

31B dense QAT

26 tok/s

31B dense Q4_K_M

24.5 tok/s

31B dense Q8_0

15.5 tok/s

Thinking OFF、同一プロンプトで測定。青=Q4_K_M、緑=QAT、オレンジ=Q8_0。

MoE Q4_K_Mが最速の107 tok/sで、Q8_0は62 tok/sまで低下しました。denseモデルでもQ4→Q8で24.5→15.5 tok/sと約37%落ちています。QATはQ4_K_Mと同等のサイズですが、26B MoEでは90 tok/sとやや遅い結果でした。これはOllamaが2GPU分割を選択したためで、量子化方式自体の差ではなく配置戦略の影響です。

推論精度の比較（GPQA Diamond 5問）

博士課程レベルの科学問題（物理・化学・生物）5問を、Thinkingモードで解かせました。

モデル	Q1 生物	Q2 化学	Q3 化学	Q4 物理	Q5 物理	正答率
26B MoE Q4_K_M	D ✓	B ✓	A ✓	B ✗	C ✓	80%
26B MoE QAT	D ✓	B ✓	A ✓	D ✓	C ✓	100%
26B MoE Q8_0	D ✓	B ✓	A ✓	D ✓	C ✓	100%
31B dense Q4_K_M	D ✓	B ✓	A ✓	D ✓	C ✓	100%
31B dense QAT	D ✓	B ✓	A ✓	B ✗	C ✓	80%
31B dense Q8_0	D ✓	B ✓	A ✓	D ✓	C ✓	100%

GPQA Diamondサンプル5問（Thinking ON）。サンプル数が少ないため参考値。26B MoEではQ4_K_MのみがQ4（光子エネルギーの問題）を誤答し、QATとQ8_0は正解。31B denseではQATのみQ4を誤答した。

26B MoEでは、Q4_K_Mが間違えた問題（Q4: 光子エネルギーの問題）をQATとQ8_0が正解しています。一方31B denseではQATだけがQ4を誤答しており、5問という少ないサンプルでは揺らぎも含まれます。それでも、Q8_0が26B MoE・31B denseともに全問正解だった点は、量子化精度が推論品質に影響する傾向として読み取れます。

日本語品質の比較

同一プロンプト（「ローカルLLMのメリット・デメリットを500文字程度で」）で日本語生成品質を比較しました。量子化方式による日本語品質の差はごくわずかです。いずれのバリエーションでも自然な日本語が生成されており、構造化（太字見出し付き）の傾向も共通していました。

コーディング品質

Trieデータ構造の実装を指示したところ、全6バリエーションとも正しいクラス定義・メソッド実装を返しました。量子化方式によるコーディング品質の差は確認できませんでした。

VRAMが足りないとどうなるか

31B Q8_0（33GBファイル）をRTX 3090 + RTX 3060（合計36GB）に載せる実験も行いました。

設定	結果
デフォルト（num_ctx=32768）	CUDA out of memory — 動作不可
num_ctx=2048 + 全層GPU	動作OK — 15.5 tok/s（VRAM 35.3GB / 36.9GB使用）

デフォルトのコンテキスト長（32768トークン）ではKVキャッシュがVRAMに収まらず、OOMエラーが発生します。num_ctx=2048に制限すると動作しますが、長い文書の処理には使えません。 GPU層数（num_gpu）を変えて、CPUオフロード量と速度の関係も測定しました。

31B Q8_0: GPU層数と生成速度の関係

20層（CPU主体）

1.7

40層

3.0

55層

7.1

60層

12.8

全層GPU

15.7

num_ctx=2048固定。単位: tok/s。GPU層が増えるほど速い。CPU主体だと1.7 tok/sまで落ちる。

GPUに載せる層数が減るほど速度は急激に低下します。20層（ほぼCPU）では1.7 tok/sと、全層GPUの15.7 tok/sの約9分の1です。VRAMに収まりきらないモデルは、CPUオフロード量に応じて使い物にならないレベルまで遅くなります。

まとめ — 量子化方式の選び方

状況	おすすめ	理由
VRAMに余裕あり（Q8が全層載る）	Q8_0	GPQA全問正解。速度は落ちるが品質が最も高い
VRAMが普通（Q4が載る程度）	QAT	Q4_K_Mと同サイズで品質向上。入れ替えるだけ
速度最優先	Q4_K_M（MoE）	107 tok/sで最速。日常利用には十分な品質
Q8がギリギリ載るかどうか	QATに留める	コンテキスト制限やCPUオフロードで速度が大幅低下するリスク

QATはQ4_K_Mからサイズ・速度面のデメリットなしに乗り換えられる選択肢です。ファイルサイズは同等以下で、26B MoEでは推論精度の向上も確認できました（31B denseでは5問中1問の揺らぎあり）。OllamaでQ4_K_Mを使っているなら、ollama pull gemma4:26b-a4b-it-qatで試す価値があります。 Q8_0はVRAMに余裕があるときの選択肢です。26B MoE Q8_0（28GB）はRTX 3090単体では載りませんが、2GPU分割で62 tok/sと実用的な速度が出ます。品質重視の用途（専門的な推論、コード生成など）では検討する価値があります。 VRAMが足りないモデルを無理に載せるのは避けるべきです。31B Q8_0（33GB）は36GB VRAMではコンテキスト長を2048に制限しないとOOMになり、速度もQ4_K_Mの約63%に低下します。「少し足りない」は「大幅に遅い」と同義です。