Gemma 4の量子化を比べてみた〜Q4・QAT・Q8で速度と品質はどう変わるか
Gemma 4には同じモデルに対して複数の量子化方式が用意されています。Q4_K_M(4ビット)、QAT(Quantization-Aware Training)、Q8_0(8ビット)の3種類を、RTX 3090 + RTX 3060の環境で速度・品質ともに実測しました。
本記事では、「量子化方式を変えると速度と品質がどう変わるのか」を検証します。結論としては、26B MoEではQATがQ4_K_Mと同等の速度でGPQA正答率を改善し、Q8_0は速度が落ちるものの全問正解を記録しました。VRAMに余裕があるならQ8_0、なければQATが有力です。
※ 測定日: 2026年6月。Ollama使用。前回記事「Gemma 4とQwen 3.6、自分のGPUで使うならどっち?」の続編です。
MoE Q4_K_Mが最速の107 tok/sで、Q8_0は62 tok/sまで低下しました。denseモデルでもQ4→Q8で24.5→15.5 tok/sと約37%落ちています。QATはQ4_K_Mと同等のサイズですが、26B MoEでは90 tok/sとやや遅い結果でした。これはOllamaが2GPU分割を選択したためで、量子化方式自体の差ではなく配置戦略の影響です。
26B MoEでは、Q4_K_Mが間違えた問題(Q4: 光子エネルギーの問題)をQATとQ8_0が正解しています。一方31B denseではQATだけがQ4を誤答しており、5問という少ないサンプルでは揺らぎも含まれます。それでも、Q8_0が26B MoE・31B denseともに全問正解だった点は、量子化精度が推論品質に影響する傾向として読み取れます。
デフォルトのコンテキスト長(32768トークン)ではKVキャッシュがVRAMに収まらず、OOMエラーが発生します。num_ctx=2048に制限すると動作しますが、長い文書の処理には使えません。
GPU層数(num_gpu)を変えて、CPUオフロード量と速度の関係も測定しました。
GPUに載せる層数が減るほど速度は急激に低下します。20層(ほぼCPU)では1.7 tok/sと、全層GPUの15.7 tok/sの約9分の1です。VRAMに収まりきらないモデルは、CPUオフロード量に応じて使い物にならないレベルまで遅くなります。
QATはQ4_K_Mからサイズ・速度面のデメリットなしに乗り換えられる選択肢です。ファイルサイズは同等以下で、26B MoEでは推論精度の向上も確認できました(31B denseでは5問中1問の揺らぎあり)。OllamaでQ4_K_Mを使っているなら、
目次
量子化方式の違い
| 方式 | 概要 | サイズ目安 |
|---|---|---|
| Q4_K_M | 学習後に4ビットに圧縮(Post-Training Quantization)。Ollamaのデフォルト | FP16の約30% |
| QAT | 量子化を前提にトレーニング(Google公式ブログ)。2026年6月5日リリース。同サイズでQ4より高品質 | FP16の約30% |
| Q8_0 | 8ビット量子化。FP16に近い品質だがサイズはQ4の約2倍 | FP16の約50% |
テスト環境
テスト環境
GPU(メイン)
RTX 3090 24GB
GPU(サブ)
RTX 3060 12GB
CPU / メモリ
Ryzen 9 3950X / 64GB
推論エンジン
Ollama
比較したモデル
| モデル | 量子化 | ファイルサイズ | VRAM実測 | GPU配置 |
|---|---|---|---|---|
| Gemma 4 26B MoE | Q4_K_M | 18GB | 19GB | 3090単体 |
| Gemma 4 26B MoE | QAT | 15GB | 17GB | 2GPU分割 |
| Gemma 4 26B MoE | Q8_0 | 28GB | 29GB | 2GPU分割 |
| Gemma 4 31B dense | Q4_K_M | 19GB | 26GB | 2GPU分割 |
| Gemma 4 31B dense | QAT | 18GB | 25GB | 2GPU分割 |
| Gemma 4 31B dense | Q8_0 | 33GB | 35GB | 2GPU分割(ctx=2048) |
MoE(Mixture of Experts)は全26Bパラメータのうち稼働は3.8Bのみ。denseは全パラメータが常に稼働。
生成速度の比較
生成速度(tok/s)— 量子化方式別
26B MoE Q4_K_M
107 tok/s
26B MoE QAT
90 tok/s
26B MoE Q8_0
62 tok/s
31B dense QAT
26 tok/s
31B dense Q4_K_M
24.5 tok/s
31B dense Q8_0
15.5 tok/s
Thinking OFF、同一プロンプトで測定。青=Q4_K_M、緑=QAT、オレンジ=Q8_0。
推論精度の比較(GPQA Diamond 5問)
博士課程レベルの科学問題(物理・化学・生物)5問を、Thinkingモードで解かせました。| モデル | Q1 生物 | Q2 化学 | Q3 化学 | Q4 物理 | Q5 物理 | 正答率 |
|---|---|---|---|---|---|---|
| 26B MoE Q4_K_M | D ✓ | B ✓ | A ✓ | B ✗ | C ✓ | 80% |
| 26B MoE QAT | D ✓ | B ✓ | A ✓ | D ✓ | C ✓ | 100% |
| 26B MoE Q8_0 | D ✓ | B ✓ | A ✓ | D ✓ | C ✓ | 100% |
| 31B dense Q4_K_M | D ✓ | B ✓ | A ✓ | D ✓ | C ✓ | 100% |
| 31B dense QAT | D ✓ | B ✓ | A ✓ | B ✗ | C ✓ | 80% |
| 31B dense Q8_0 | D ✓ | B ✓ | A ✓ | D ✓ | C ✓ | 100% |
GPQA Diamondサンプル5問(Thinking ON)。サンプル数が少ないため参考値。26B MoEではQ4_K_MのみがQ4(光子エネルギーの問題)を誤答し、QATとQ8_0は正解。31B denseではQATのみQ4を誤答した。
日本語品質の比較
同一プロンプト(「ローカルLLMのメリット・デメリットを500文字程度で」)で日本語生成品質を比較しました。量子化方式による日本語品質の差はごくわずかです。いずれのバリエーションでも自然な日本語が生成されており、構造化(太字見出し付き)の傾向も共通していました。コーディング品質
Trieデータ構造の実装を指示したところ、全6バリエーションとも正しいクラス定義・メソッド実装を返しました。量子化方式によるコーディング品質の差は確認できませんでした。VRAMが足りないとどうなるか
31B Q8_0(33GBファイル)をRTX 3090 + RTX 3060(合計36GB)に載せる実験も行いました。| 設定 | 結果 |
|---|---|
| デフォルト(num_ctx=32768) | CUDA out of memory — 動作不可 |
| num_ctx=2048 + 全層GPU | 動作OK — 15.5 tok/s(VRAM 35.3GB / 36.9GB使用) |
31B Q8_0: GPU層数と生成速度の関係
20層(CPU主体)
1.7
40層
3.0
55層
7.1
60層
12.8
全層GPU
15.7
num_ctx=2048固定。単位: tok/s。GPU層が増えるほど速い。CPU主体だと1.7 tok/sまで落ちる。
まとめ — 量子化方式の選び方
| 状況 | おすすめ | 理由 |
|---|---|---|
| VRAMに余裕あり(Q8が全層載る) | Q8_0 | GPQA全問正解。速度は落ちるが品質が最も高い |
| VRAMが普通(Q4が載る程度) | QAT | Q4_K_Mと同サイズで品質向上。入れ替えるだけ |
| 速度最優先 | Q4_K_M(MoE) | 107 tok/sで最速。日常利用には十分な品質 |
| Q8がギリギリ載るかどうか | QATに留める | コンテキスト制限やCPUオフロードで速度が大幅低下するリスク |
ollama pull gemma4:26b-a4b-it-qatで試す価値があります。
Q8_0はVRAMに余裕があるときの選択肢です。26B MoE Q8_0(28GB)はRTX 3090単体では載りませんが、2GPU分割で62 tok/sと実用的な速度が出ます。品質重視の用途(専門的な推論、コード生成など)では検討する価値があります。
VRAMが足りないモデルを無理に載せるのは避けるべきです。31B Q8_0(33GB)は36GB VRAMではコンテキスト長を2048に制限しないとOOMになり、速度もQ4_K_Mの約63%に低下します。「少し足りない」は「大幅に遅い」と同義です。
参考リンク
検証に使用した機材
スポンサーリンク










ディスカッション
コメント一覧
まだ、コメントがありません