Gemma 4とQwen 3.6、自分のGPUで使うならどっち?〜VRAM別おすすめモデルの実測比較
RTX 3090を積んだ自宅PCに、Google製のGemma 4とAlibaba製のQwen 3.6を入れて性能を比較しました。いずれも2026年4月リリースのオープンウェイトLLM(大規模言語モデル)で、複数のサイズ展開があります。
本記事では、生成速度・日本語品質・数学推論・コーディング能力を実測し、「自分のGPUのVRAMに合うモデルはどれか」を検証しました。結論としては、24GB GPUならQwen 3.6 27B、12GB GPUならGemma 4 12Bが、品質と速度のバランスで最善でした。
※ 測定日: 2026年6月。Ollama + Q4_K_M量子化で測定。
Qwen 3.6は27Bと35B-A3Bの2サイズのみで、8〜14B帯のモデルがありません。12GB以下のGPUではQwen 3.6は選択肢に入らず、前世代のQwen 3 / 3.5を使うことになります。
MoE(Mixture of Experts)モデルは、全パラメータのうち一部だけが推論ごとに稼働するため、denseモデルよりはるかに高速です。Gemma 4 26B MoEは稼働パラメータが3.8Bで、107 tok/sを記録しました。これは有料APIのGPT-5.5(約61 tok/s)やClaude Sonnet 4.6(約48 tok/s)よりも速く、ローカルMoEモデルの速度優位が際立ちます。ただしAPI速度はサーバー負荷やネットワーク環境に依存するため、あくまで参考値です(速度データの出典: Artificial Analysis)。
品質重視なら、Qwen 3.6 27B。BenchLMの総合スコアは73対64でGemma 4 31Bを上回り、コーディング系ベンチマークでは平均70.6対41.6と大差がつきます。速度も39 tok/sと実用的で、24GBのGPU1枚に収まります。SWE-bench Verifiedでは77.2%を達成しています。有料のClaude Opus 4.8(88.6%)やGPT-5.5(88.7%)にはまだ差がありますが、ローカルの無料モデルとしては驚異的な水準です。
速度重視なら、Gemma 4 26B MoE。107 tok/sはQwen 3.6 27Bの約3倍です。MoEのため稼働パラメータは3.8Bですが、日本語品質・数学推論ともに実用上の問題はありませんでした。チャットや軽い文章生成には十分です。
denseモデルの品質を重視するなら、Gemma 4 31B。MoEではないフルパラメータ稼働のモデルで、ベンチマークではQwen 3.6 27Bに迫る水準です。ただし速度は24 tok/sで最も遅く、24GB GPUでも2GPU分割になるため、速度面の覚悟は必要です。
品質重視なら、Gemma 4 12B。12B帯の最新モデルで、日本語の生成品質が最も高く、構造化された回答を返します。速度は35 tok/sと控えめですが、12GBのGPU1枚に余裕で収まります。
速度重視なら、Gemma 4 8B。71 tok/sで実用的な速度が出ます。画像と音声の入力に対応しており、音声まで扱えるのはこのサイズ帯ではGemma 4 8Bだけです(Qwen 3.5 9Bは画像入力に対応)。日本語品質はGemma 4 12Bにやや劣りますが、チャット用途には十分です。
Gemma 4 31Bは太字・見出しで構造化する傾向があり、Qwen 3.6 27Bはより簡潔に要点をまとめます。どちらも自然な日本語で、敬語の書き換えテストでも実用的な品質でした。12B以下のモデルでも日本語としては問題ないレベルですが、回答の深さや具体例の豊かさでは27B以上のモデルに差がつきます。
ローカル環境でGPQA Diamondのサンプル問題5問(生物・化学・物理)を実際に解かせた結果は以下の通りです。
注目すべきは、MoEモデル(Gemma 4 26B MoE、Qwen 3.6 35B-A3B)もdenseモデルと同じ80%を記録した点です。MoEは稼働パラメータが3〜4Bと少ないものの、トークンごとに全パラメータの中から最適なエキスパートを選択して使うため、稼働数の小ささから想像するより高い推論精度が出ます。一方、12B以下では40%に落ち、モデルサイズの壁が明確です。以下の有料モデル比較では公式ベンチマーク結果を引用しています。
ローカルで動かせるモデルと有料クラウドAPIの差を、公開ベンチマークで整理しました。
GPQA Diamond(博士レベル科学推論)では、ローカルで動くQwen 3.6 27B(87.8%)やGemma 4 31B(85.7%)が、Claude Sonnet 4.6(89.9%)に肉薄する水準に達しています。Gemini 2.5 FlashはAPI経由でサンプル5問に挑戦させたところ1/5(20%)でした。Flashは速度重視モデルのため、推論精度では差が出ます。SWE-bench VerifiedではQwen 3.6 27Bの77.2%に対し、Claude Opus 4.8が88.6%、GPT-5.5が88.7%と、コーディング系では有料モデルがまだ10ポイント以上リードしています。
24GBのGPUがあるなら、Qwen 3.6 27Bが総合的なベスト。速度・品質・ベンチマークのすべてでバランスが良く、SWE-benchでClaude Opus 4.8に迫る性能を持っています。速度が欲しい場面ではGemma 4 26B MoEと使い分けるのが理想的です。
12GBのGPUなら、Gemma 4 12Bが堅実。Qwen 3.6がこのVRAM帯にモデルを出していないため、実質的にGemma 4が最善の選択肢です。速度が必要な場面ではGemma 4 8Bに切り替えることで対応できます。
2026年のオープンウェイトモデルは、24GB GPUがあれば有料モデルに匹敵する水準で動きます。12GBでも実用的な品質が得られるようになりました。自分のGPUのVRAMを確認して、上の表からモデルを選ぶところから始めてみてください。
目次
テスト環境
テスト環境
GPU(メイン)
RTX 3090 24GB
GPU(サブ)
RTX 3060 12GB
CPU / メモリ
Ryzen 9 3950X / 64GB
推論エンジン / 量子化
Ollama / Q4_K_M
比較したモデル一覧
Gemma 4とQwen 3.6の全サイズに加え、前世代のQwen 3 / 3.5も含めて測定しました。テスト対象モデル
| モデル | 種別 | パラメータ | ファイルサイズ | 必要VRAM目安 |
|---|---|---|---|---|
| Gemma 4 8B | dense | 8B | 9.6GB | ~6GB |
| Gemma 4 12B | dense | 12B | 7.4GB | ~8GB |
| Gemma 4 26B | MoE(3.8B稼働) | 26B | 17GB | ~18GB |
| Gemma 4 31B | dense | 31B | 19GB | ~20GB |
| Qwen 3.6 27B | dense | 27.8B | 17GB | ~19GB |
| Qwen 3.6 35B-A3B | MoE(3B稼働) | 36B | 23GB | ~25GB |
| Qwen 3 8B | dense(前世代) | 8B | 5.2GB | ~6GB |
| Qwen 3.5 9B | dense(前世代) | 9B | 6.6GB | ~7GB |
| Qwen 3 14B | dense(前世代) | 14B | 9.3GB | ~14GB |
VRAM目安はQ4_K_M量子化時の実測値。MoEは全パラメータがVRAMに載るがパラメータ稼働数が推論ごとに少ない(=速い)。
生成速度の全モデル比較
生成速度(tok/s)— 全モデル実測
Gemma 4 8B local
110 tok/s
Gemma 4 26B MoE local
107 tok/s
Qwen 3.6 35B-A3B MoE local
97 tok/s
GPT-5.5 API
~61 tok/s
Gemini 2.5 Flash API
58 tok/s
Claude Sonnet 4.6 API
~48 tok/s
Qwen 3.6 27B local
39 tok/s
Gemma 4 12B local
31 tok/s
Gemma 4 31B local
24 tok/s
Gemini 2.5 Pro API
15 tok/s
青=Gemma 4 / 緑=Qwen / オレンジ=Gemini / グレー=API公称値(Artificial Analysis)。ローカルはRTX 3090 + Q4_K_M + Thinking OFFで測定。API速度はネットワーク環境に依存。
24GB GPU(RTX 3090 / 4090)で使うなら
24GB VRAMがあれば、すべてのモデルが選択肢に入ります。主要な候補は以下の4つです。24GB GPU向け — 全候補モデル比較
| 項目 | Qwen 3.6 27B | Gemma 4 31B | Gemma 4 26B MoE | Qwen 3.6 35B-A3B MoE |
|---|---|---|---|---|
| 種別 | dense | dense | MoE(3.8B稼働) | MoE(3B稼働) |
| 速度(実測) | 39 tok/s | 24 tok/s | 107 tok/s | 97 tok/s |
| GPQA 5問(実測) | 4/5 | 4/5 | 4/5 | 4/5 |
| VRAM使用量 | ~19GB | ~20GB(2GPU) | ~18GB | ~25GB(2GPU) |
| コーディング | ◎ | ○ | ○ | ○ |
| マルチモーダル | 画像 | 画像 | 画像 | 画像 |
| BenchLM総合 | 73 | 64 | − | − |
12GB GPU(RTX 3060 / 4060)で使うなら
12GBのVRAMでは、Qwen 3.6はどのサイズも収まりません(最小の27Bでも約19GB必要)。選択肢はGemma 4の小型モデルか、前世代のQwen 3 / 3.5になります。12GB GPU向け — 候補モデル比較
| 項目 | Gemma 4 12B | Gemma 4 8B | Qwen 3.5 9B | Qwen 3 8B |
|---|---|---|---|---|
| 速度 | 35 tok/s | 71 tok/s | 99 tok/s | 127 tok/s |
| VRAM使用量 | ~8GB | ~6GB | ~7GB | ~6GB |
| 数学推論 | ◎ | ◎ | ◎ | ◎ |
| 日本語品質 | ◎ | ○ | ○ | ○ |
| マルチモーダル | なし | 画像+音声 | 画像 | なし |
| 世代 | 最新 | 最新 | 前世代 | 2世代前 |
8GB以下のGPUで使うなら
VRAM 8GB以下(RTX 3050、GTX 1070など)では、Gemma 4 8B(VRAM ~6GB)またはQwen 3 8B(VRAM ~6GB)が現実的な選択肢です。Qwen 3 8Bは127 tok/sと最速ですが、最新世代ではないためベンチマーク性能では劣ります。マルチモーダル対応が不要なら、速度でQwen 3 8Bを選ぶのもありです。日本語品質の実測比較
「ローカルLLMを自宅PCで動かすメリットとデメリットを500文字程度で」という同一プロンプトで比較しました。以下は24GB帯の主要2モデルの回答です。Gemma 4 31Bの回答
$ ollama chat gemma4:31b
ローカルLLMを自宅PCで動かす最大のメリットは「プライバシーの完全な確保」と「カスタマイズ性」です。クラウドサービスとは異なり、データが外部サーバーに送信されないため、機密文書や個人情報を含むデータを安心して処理できます。また、検閲(フィルター)がないモデルを選べば、自由な表現での創作や特定の専門分野に特化させた微調整(ファインチューニング)が可能です。
一方、デメリットは「ハードウェアコスト」と「性能の限界」です。快適に動作させるには高性能なGPU(VRAM容量が大きいもの)が必要で、導入に数万〜数十万円の費用がかかります。(後略)
一方、デメリットは「ハードウェアコスト」と「性能の限界」です。快適に動作させるには高性能なGPU(VRAM容量が大きいもの)が必要で、導入に数万〜数十万円の費用がかかります。(後略)
Qwen 3.6 27Bの回答
$ ollama chat qwen3.6:27b
ローカルLLMの最大メリットは、データプライバシーとオフライン動作です。例えば、企業の機密契約書や個人の医療記録をクラウドに送らず、PC内で安全に要約・分析できます。また、インターネット接続が不要なため、飛行機内や通信環境が悪い場所でも安定して利用可能です。コスト面では、初期投資後、サブスクリプション料金が掛からないため、長期的には経済的です。
一方、デメリットはハードウェア要件の高さと推論速度です。高性能なGPU(VRAM16GB以上推奨)と大容量メモリが必要であり、旧型PCでは動作しにくいです。(後略)
一方、デメリットはハードウェア要件の高さと推論速度です。高性能なGPU(VRAM16GB以上推奨)と大容量メモリが必要であり、旧型PCでは動作しにくいです。(後略)
有料モデルとの立ち位置
ベンチマークの読み方
この記事で引用しているベンチマークについて補足します。| ベンチマーク | 何を測るか | 問題数 | 難易度の目安 |
|---|---|---|---|
| GPQA Diamond | 博士課程レベルの科学推論。物理・化学・生物の専門家が作成した4択問題で、非専門家はGoogle検索しても正答率が低い | 198問 | ランダム正答率25%。専門家でも65%程度 |
| SWE-bench Verified | 実際のGitHub上のPythonプロジェクトのイシュー(バグ報告)を読み、コードのパッチを生成して修正する。テストが通れば正解 | 500問 | 実務レベルのソフトウェアエンジニアリング能力を測定 |
| MMLU / MMLU-Pro | 57分野(STEM・人文・社会科学など)にまたがる知識テスト。Proはより難易度が高い10選択肢版 | 約14,000問 / 12,000問 | 大学〜専門家レベルの幅広い知識 |
GPQA Diamondサンプル5問の正答数(実測)
Gemma 4 31B
4/5 (80%)
Qwen 3.6 27B
4/5 (80%)
Gemma 4 26B MoE
4/5 (80%)
Qwen 3.6 35B-A3B MoE
4/5 (80%)
Gemma 4 12B
2/5 (40%)
Gemma 4 8B
2/5 (40%)
Gemini 2.5 Flash API
1/5 (20%)
Thinking ONで実行。サンプル数5問のため参考値。Gemini 2.5 FlashはAPI経由(thinking未指定)。
有料モデルとの比較(公開ベンチマーク)
| ベンチマーク | Qwen 3.6 27B | Gemma 4 31B | Claude Sonnet 4.6 | Claude Opus 4.8 | GPT-5.5 | Gemini 3 Pro |
|---|---|---|---|---|---|---|
| GPQA Diamond | 87.8% | 85.7% | 89.9% | 93.6% | − | 91.9% |
| SWE-bench Verified | 77.2% | − | − | 88.6% | 88.7% | ~78% |
| MMLU | − | − | − | − | 92.4% | ~90% |
| MMLU-Pro | 86.2% | 85.2% | − | − | − | − |
| 利用料金 | 無料(ローカル) | 無料(ローカル) | API従量課金 | API従量課金 | API従量課金 | API従量課金 |
出典: BenchLM.ai, Anthropic, OpenAI, Google公式(2026年4〜6月)。緑ヘッダはローカルモデル。
Thinkingモードの違い
Gemma 4 31BとQwen 3.6 27Bは両方ともThinkingモード(考えてから答える)を搭載しています。Ollamaでは"think": true/falseで制御できます。
挙動には差がありました。Gemma 4 31Bは約1,000文字の思考を生成してから回答します。Qwen 3.6 27Bは5,000文字を超える詳細な思考を生成する傾向があります。Thinkingトークンも生成上限(num_predict)に含まれるため、Qwen 3.6 27BでThinking ONにする場合はnum_predictを2048以上に設定しないと、思考だけで枠を使い切り回答が空になることがあります。
まとめ — VRAMごとのベストモデル
VRAMごとのおすすめモデル
| VRAM | 品質重視 | 速度重視 | 備考 |
|---|---|---|---|
| 24GB | Qwen 3.6 27B(39 tok/s) | Gemma 4 26B MoE(107 tok/s) | dense品質重視ならGemma 4 31B |
| 12GB | Gemma 4 12B(35 tok/s) | Gemma 4 8B(71 tok/s) | Qwen 3.6は12GBに収まらない |
| 8GB以下 | Gemma 4 8B(71 tok/s) | Qwen 3 8B(127 tok/s) | 音声入力まで使うならGemma 4 8B |
参考リンク
検証に使用した機材
[kimono_product id="15761″]
[kimono_product id="15759″]