Gemma 4とQwen 3.6、自分のGPUで使うならどっち?〜VRAM別おすすめモデルの実測比較

RTX 3090を積んだ自宅PCに、Google製のGemma 4とAlibaba製のQwen 3.6を入れて性能を比較しました。いずれも2026年4月リリースのオープンウェイトLLM(大規模言語モデル)で、複数のサイズ展開があります。 本記事では、生成速度・日本語品質・数学推論・コーディング能力を実測し、「自分のGPUのVRAMに合うモデルはどれか」を検証しました。結論としては、24GB GPUならQwen 3.6 27B、12GB GPUならGemma 4 12Bが、品質と速度のバランスで最善でした。 ※ 測定日: 2026年6月。Ollama + Q4_K_M量子化で測定。

テスト環境

テスト環境
GPU(メイン)
RTX 3090 24GB
GPU(サブ)
RTX 3060 12GB
CPU / メモリ
Ryzen 9 3950X / 64GB
推論エンジン / 量子化
Ollama / Q4_K_M

比較したモデル一覧

Gemma 4とQwen 3.6の全サイズに加え、前世代のQwen 3 / 3.5も含めて測定しました。

テスト対象モデル

モデル種別パラメータファイルサイズ必要VRAM目安
Gemma 4 8Bdense8B9.6GB~6GB
Gemma 4 12Bdense12B7.4GB~8GB
Gemma 4 26BMoE(3.8B稼働)26B17GB~18GB
Gemma 4 31Bdense31B19GB~20GB
Qwen 3.6 27Bdense27.8B17GB~19GB
Qwen 3.6 35B-A3BMoE(3B稼働)36B23GB~25GB
Qwen 3 8Bdense(前世代)8B5.2GB~6GB
Qwen 3.5 9Bdense(前世代)9B6.6GB~7GB
Qwen 3 14Bdense(前世代)14B9.3GB~14GB

VRAM目安はQ4_K_M量子化時の実測値。MoEは全パラメータがVRAMに載るがパラメータ稼働数が推論ごとに少ない(=速い)。

Qwen 3.6は27Bと35B-A3Bの2サイズのみで、8〜14B帯のモデルがありません。12GB以下のGPUではQwen 3.6は選択肢に入らず、前世代のQwen 3 / 3.5を使うことになります。

生成速度の全モデル比較

生成速度(tok/s)— 全モデル実測

Gemma 4 8B local
110 tok/s
Gemma 4 26B MoE local
107 tok/s
Qwen 3.6 35B-A3B MoE local
97 tok/s
GPT-5.5 API
~61 tok/s
Gemini 2.5 Flash API
58 tok/s
Claude Sonnet 4.6 API
~48 tok/s
Qwen 3.6 27B local
39 tok/s
Gemma 4 12B local
31 tok/s
Gemma 4 31B local
24 tok/s
Gemini 2.5 Pro API
15 tok/s

青=Gemma 4 / 緑=Qwen / オレンジ=Gemini / グレー=API公称値(Artificial Analysis)。ローカルはRTX 3090 + Q4_K_M + Thinking OFFで測定。API速度はネットワーク環境に依存。

MoE(Mixture of Experts)モデルは、全パラメータのうち一部だけが推論ごとに稼働するため、denseモデルよりはるかに高速です。Gemma 4 26B MoEは稼働パラメータが3.8Bで、107 tok/sを記録しました。これは有料APIのGPT-5.5(約61 tok/s)やClaude Sonnet 4.6(約48 tok/s)よりも速く、ローカルMoEモデルの速度優位が際立ちます。ただしAPI速度はサーバー負荷やネットワーク環境に依存するため、あくまで参考値です(速度データの出典: Artificial Analysis)。

24GB GPU(RTX 3090 / 4090)で使うなら

24GB VRAMがあれば、すべてのモデルが選択肢に入ります。主要な候補は以下の4つです。

24GB GPU向け — 全候補モデル比較

項目Qwen 3.6 27BGemma 4 31BGemma 4 26B MoEQwen 3.6 35B-A3B MoE
種別densedenseMoE(3.8B稼働)MoE(3B稼働)
速度(実測)39 tok/s24 tok/s107 tok/s97 tok/s
GPQA 5問(実測)4/54/54/54/5
VRAM使用量~19GB~20GB(2GPU)~18GB~25GB(2GPU)
コーディング
マルチモーダル画像画像画像画像
BenchLM総合7364
品質重視なら、Qwen 3.6 27B。BenchLMの総合スコアは73対64でGemma 4 31Bを上回り、コーディング系ベンチマークでは平均70.6対41.6と大差がつきます。速度も39 tok/sと実用的で、24GBのGPU1枚に収まります。SWE-bench Verifiedでは77.2%を達成しています。有料のClaude Opus 4.8(88.6%)やGPT-5.5(88.7%)にはまだ差がありますが、ローカルの無料モデルとしては驚異的な水準です。 速度重視なら、Gemma 4 26B MoE。107 tok/sはQwen 3.6 27Bの約3倍です。MoEのため稼働パラメータは3.8Bですが、日本語品質・数学推論ともに実用上の問題はありませんでした。チャットや軽い文章生成には十分です。 denseモデルの品質を重視するなら、Gemma 4 31B。MoEではないフルパラメータ稼働のモデルで、ベンチマークではQwen 3.6 27Bに迫る水準です。ただし速度は24 tok/sで最も遅く、24GB GPUでも2GPU分割になるため、速度面の覚悟は必要です。

12GB GPU(RTX 3060 / 4060)で使うなら

12GBのVRAMでは、Qwen 3.6はどのサイズも収まりません(最小の27Bでも約19GB必要)。選択肢はGemma 4の小型モデルか、前世代のQwen 3 / 3.5になります。

12GB GPU向け — 候補モデル比較

項目Gemma 4 12BGemma 4 8BQwen 3.5 9BQwen 3 8B
速度35 tok/s71 tok/s99 tok/s127 tok/s
VRAM使用量~8GB~6GB~7GB~6GB
数学推論
日本語品質
マルチモーダルなし画像+音声画像なし
世代最新最新前世代2世代前
品質重視なら、Gemma 4 12B。12B帯の最新モデルで、日本語の生成品質が最も高く、構造化された回答を返します。速度は35 tok/sと控えめですが、12GBのGPU1枚に余裕で収まります。 速度重視なら、Gemma 4 8B。71 tok/sで実用的な速度が出ます。画像と音声の入力に対応しており、音声まで扱えるのはこのサイズ帯ではGemma 4 8Bだけです(Qwen 3.5 9Bは画像入力に対応)。日本語品質はGemma 4 12Bにやや劣りますが、チャット用途には十分です。

8GB以下のGPUで使うなら

VRAM 8GB以下(RTX 3050、GTX 1070など)では、Gemma 4 8B(VRAM ~6GB)またはQwen 3 8B(VRAM ~6GB)が現実的な選択肢です。Qwen 3 8Bは127 tok/sと最速ですが、最新世代ではないためベンチマーク性能では劣ります。マルチモーダル対応が不要なら、速度でQwen 3 8Bを選ぶのもありです。

日本語品質の実測比較

「ローカルLLMを自宅PCで動かすメリットとデメリットを500文字程度で」という同一プロンプトで比較しました。以下は24GB帯の主要2モデルの回答です。

Gemma 4 31Bの回答

$ ollama chat gemma4:31b
ローカルLLMを自宅PCで動かす最大のメリットは「プライバシーの完全な確保」と「カスタマイズ性」です。クラウドサービスとは異なり、データが外部サーバーに送信されないため、機密文書や個人情報を含むデータを安心して処理できます。また、検閲(フィルター)がないモデルを選べば、自由な表現での創作や特定の専門分野に特化させた微調整(ファインチューニング)が可能です。

一方、デメリットは「ハードウェアコスト」と「性能の限界」です。快適に動作させるには高性能なGPU(VRAM容量が大きいもの)が必要で、導入に数万〜数十万円の費用がかかります。(後略)

Qwen 3.6 27Bの回答

$ ollama chat qwen3.6:27b
ローカルLLMの最大メリットは、データプライバシーとオフライン動作です。例えば、企業の機密契約書や個人の医療記録をクラウドに送らず、PC内で安全に要約・分析できます。また、インターネット接続が不要なため、飛行機内や通信環境が悪い場所でも安定して利用可能です。コスト面では、初期投資後、サブスクリプション料金が掛からないため、長期的には経済的です。

一方、デメリットはハードウェア要件の高さと推論速度です。高性能なGPU(VRAM16GB以上推奨)と大容量メモリが必要であり、旧型PCでは動作しにくいです。(後略)
Gemma 4 31Bは太字・見出しで構造化する傾向があり、Qwen 3.6 27Bはより簡潔に要点をまとめます。どちらも自然な日本語で、敬語の書き換えテストでも実用的な品質でした。12B以下のモデルでも日本語としては問題ないレベルですが、回答の深さや具体例の豊かさでは27B以上のモデルに差がつきます。

有料モデルとの立ち位置

ベンチマークの読み方

この記事で引用しているベンチマークについて補足します。
ベンチマーク何を測るか問題数難易度の目安
GPQA Diamond博士課程レベルの科学推論。物理・化学・生物の専門家が作成した4択問題で、非専門家はGoogle検索しても正答率が低い198問ランダム正答率25%。専門家でも65%程度
SWE-bench Verified実際のGitHub上のPythonプロジェクトのイシュー(バグ報告)を読み、コードのパッチを生成して修正する。テストが通れば正解500問実務レベルのソフトウェアエンジニアリング能力を測定
MMLU / MMLU-Pro57分野(STEM・人文・社会科学など)にまたがる知識テスト。Proはより難易度が高い10選択肢版約14,000問 / 12,000問大学〜専門家レベルの幅広い知識
ローカル環境でGPQA Diamondのサンプル問題5問(生物・化学・物理)を実際に解かせた結果は以下の通りです。

GPQA Diamondサンプル5問の正答数(実測)

Gemma 4 31B
4/5 (80%)
Qwen 3.6 27B
4/5 (80%)
Gemma 4 26B MoE
4/5 (80%)
Qwen 3.6 35B-A3B MoE
4/5 (80%)
Gemma 4 12B
2/5 (40%)
Gemma 4 8B
2/5 (40%)
Gemini 2.5 Flash API
1/5 (20%)

Thinking ONで実行。サンプル数5問のため参考値。Gemini 2.5 FlashはAPI経由(thinking未指定)。

注目すべきは、MoEモデル(Gemma 4 26B MoE、Qwen 3.6 35B-A3B)もdenseモデルと同じ80%を記録した点です。MoEは稼働パラメータが3〜4Bと少ないものの、トークンごとに全パラメータの中から最適なエキスパートを選択して使うため、稼働数の小ささから想像するより高い推論精度が出ます。一方、12B以下では40%に落ち、モデルサイズの壁が明確です。以下の有料モデル比較では公式ベンチマーク結果を引用しています。 ローカルで動かせるモデルと有料クラウドAPIの差を、公開ベンチマークで整理しました。

有料モデルとの比較(公開ベンチマーク)

ベンチマークQwen 3.6 27BGemma 4 31BClaude Sonnet 4.6Claude Opus 4.8GPT-5.5Gemini 3 Pro
GPQA Diamond87.8%85.7%89.9%93.6%91.9%
SWE-bench Verified77.2%88.6%88.7%~78%
MMLU92.4%~90%
MMLU-Pro86.2%85.2%
利用料金無料(ローカル)無料(ローカル)API従量課金API従量課金API従量課金API従量課金

出典: BenchLM.ai, Anthropic, OpenAI, Google公式(2026年4〜6月)。緑ヘッダはローカルモデル。

GPQA Diamond(博士レベル科学推論)では、ローカルで動くQwen 3.6 27B(87.8%)やGemma 4 31B(85.7%)が、Claude Sonnet 4.6(89.9%)に肉薄する水準に達しています。Gemini 2.5 FlashはAPI経由でサンプル5問に挑戦させたところ1/5(20%)でした。Flashは速度重視モデルのため、推論精度では差が出ます。SWE-bench VerifiedではQwen 3.6 27Bの77.2%に対し、Claude Opus 4.8が88.6%、GPT-5.5が88.7%と、コーディング系では有料モデルがまだ10ポイント以上リードしています。

Thinkingモードの違い

Gemma 4 31BとQwen 3.6 27Bは両方ともThinkingモード(考えてから答える)を搭載しています。Ollamaでは"think": true/falseで制御できます。 挙動には差がありました。Gemma 4 31Bは約1,000文字の思考を生成してから回答します。Qwen 3.6 27Bは5,000文字を超える詳細な思考を生成する傾向があります。Thinkingトークンも生成上限(num_predict)に含まれるため、Qwen 3.6 27BでThinking ONにする場合はnum_predictを2048以上に設定しないと、思考だけで枠を使い切り回答が空になることがあります。

まとめ — VRAMごとのベストモデル

VRAMごとのおすすめモデル

VRAM品質重視速度重視備考
24GBQwen 3.6 27B(39 tok/s)Gemma 4 26B MoE(107 tok/s)dense品質重視ならGemma 4 31B
12GBGemma 4 12B(35 tok/s)Gemma 4 8B(71 tok/s)Qwen 3.6は12GBに収まらない
8GB以下Gemma 4 8B(71 tok/s)Qwen 3 8B(127 tok/s)音声入力まで使うならGemma 4 8B
24GBのGPUがあるなら、Qwen 3.6 27Bが総合的なベスト。速度・品質・ベンチマークのすべてでバランスが良く、SWE-benchでClaude Opus 4.8に迫る性能を持っています。速度が欲しい場面ではGemma 4 26B MoEと使い分けるのが理想的です。 12GBのGPUなら、Gemma 4 12Bが堅実。Qwen 3.6がこのVRAM帯にモデルを出していないため、実質的にGemma 4が最善の選択肢です。速度が必要な場面ではGemma 4 8Bに切り替えることで対応できます。

参考リンク

2026年のオープンウェイトモデルは、24GB GPUがあれば有料モデルに匹敵する水準で動きます。12GBでも実用的な品質が得られるようになりました。自分のGPUのVRAMを確認して、上の表からモデルを選ぶところから始めてみてください。

検証に使用した機材

[kimono_product id="15761″]

[kimono_product id="15759″]