Gemma 4とQwen 3.6、自分のGPUで使うならどっち？〜VRAM別おすすめモデルの実測比較

2026年6月16日

RTX 3090を積んだ自宅PCに、Google製のGemma 4とAlibaba製のQwen 3.6を入れて性能を比較しました。いずれも2026年4月リリースのオープンウェイトLLM（大規模言語モデル）で、複数のサイズ展開があります。本記事では、生成速度・日本語品質・数学推論・コーディング能力を実測し、「自分のGPUのVRAMに合うモデルはどれか」を検証しました。結論としては、24GB GPUならQwen 3.6 27B、12GB GPUならGemma 4 12Bが、品質と速度のバランスで最善でした。 ※ 測定日: 2026年6月。Ollama + Q4_K_M量子化で測定。

1. テスト環境
2. 比較したモデル一覧
3. 生成速度の全モデル比較
4. 24GB GPU（RTX 3090 / 4090）で使うなら
5. 12GB GPU（RTX 3060 / 4060）で使うなら
6. 8GB以下のGPUで使うなら
7. 日本語品質の実測比較
- 7.1. Gemma 4 31Bの回答
- 7.2. Qwen 3.6 27Bの回答
8. 有料モデルとの立ち位置
- 8.1. ベンチマークの読み方
9. Thinkingモードの違い
10. まとめ — VRAMごとのベストモデル
- 10.1. 参考リンク
- 10.2. 検証に使用した機材

テスト環境

GPU（メイン）

RTX 3090 24GB

GPU（サブ）

RTX 3060 12GB

CPU / メモリ

Ryzen 9 3950X / 64GB

推論エンジン / 量子化

Ollama / Q4_K_M

比較したモデル一覧

Gemma 4とQwen 3.6の全サイズに加え、前世代のQwen 3 / 3.5も含めて測定しました。

テスト対象モデル

モデル	種別	パラメータ	ファイルサイズ	必要VRAM目安
Gemma 4 8B	dense	8B	9.6GB	~6GB
Gemma 4 12B	dense	12B	7.4GB	~8GB
Gemma 4 26B	MoE（3.8B稼働）	26B	17GB	~18GB
Gemma 4 31B	dense	31B	19GB	~20GB
Qwen 3.6 27B	dense	27.8B	17GB	~19GB
Qwen 3.6 35B-A3B	MoE（3B稼働）	36B	23GB	~25GB
Qwen 3 8B	dense（前世代）	8B	5.2GB	~6GB
Qwen 3.5 9B	dense（前世代）	9B	6.6GB	~7GB
Qwen 3 14B	dense（前世代）	14B	9.3GB	~14GB

VRAM目安はQ4_K_M量子化時の実測値。MoEは全パラメータがVRAMに載るがパラメータ稼働数が推論ごとに少ない（＝速い）。

Qwen 3.6は27Bと35B-A3Bの2サイズのみで、8〜14B帯のモデルがありません。12GB以下のGPUではQwen 3.6は選択肢に入らず、前世代のQwen 3 / 3.5を使うことになります。

生成速度の全モデル比較

生成速度（tok/s）— 全モデル実測

Gemma 4 8B local

110 tok/s

Gemma 4 26B MoE local

107 tok/s

Qwen 3.6 35B-A3B MoE local

97 tok/s

GPT-5.5 API

~61 tok/s

Gemini 2.5 Flash API

58 tok/s

Claude Sonnet 4.6 API

~48 tok/s

Qwen 3.6 27B local

39 tok/s

Gemma 4 12B local

31 tok/s

Gemma 4 31B local

24 tok/s

Gemini 2.5 Pro API

15 tok/s

青=Gemma 4 / 緑=Qwen / オレンジ=Gemini / グレー=API公称値（Artificial Analysis）。ローカルはRTX 3090 + Q4_K_M + Thinking OFFで測定。API速度はネットワーク環境に依存。

MoE（Mixture of Experts）モデルは、全パラメータのうち一部だけが推論ごとに稼働するため、denseモデルよりはるかに高速です。Gemma 4 26B MoEは稼働パラメータが3.8Bで、107 tok/sを記録しました。これは有料APIのGPT-5.5（約61 tok/s）やClaude Sonnet 4.6（約48 tok/s）よりも速く、ローカルMoEモデルの速度優位が際立ちます。ただしAPI速度はサーバー負荷やネットワーク環境に依存するため、あくまで参考値です（速度データの出典: Artificial Analysis）。

24GB GPU（RTX 3090 / 4090）で使うなら

24GB VRAMがあれば、すべてのモデルが選択肢に入ります。主要な候補は以下の4つです。

24GB GPU向け — 全候補モデル比較

項目	Qwen 3.6 27B	Gemma 4 31B	Gemma 4 26B MoE	Qwen 3.6 35B-A3B MoE
種別	dense	dense	MoE（3.8B稼働）	MoE（3B稼働）
速度（実測）	39 tok/s	24 tok/s	107 tok/s	97 tok/s
GPQA 5問（実測）	4/5	4/5	4/5	4/5
VRAM使用量	~19GB	~20GB（2GPU）	~18GB	~25GB（2GPU）
コーディング	◎	○	○	○
マルチモーダル	画像	画像	画像	画像
BenchLM総合	73	64	−	−

品質重視なら、Qwen 3.6 27B。BenchLMの総合スコアは73対64でGemma 4 31Bを上回り、コーディング系ベンチマークでは平均70.6対41.6と大差がつきます。速度も39 tok/sと実用的で、24GBのGPU1枚に収まります。SWE-bench Verifiedでは77.2%を達成しています。有料のClaude Opus 4.8（88.6%）やGPT-5.5（88.7%）にはまだ差がありますが、ローカルの無料モデルとしては驚異的な水準です。 速度重視なら、Gemma 4 26B MoE。107 tok/sはQwen 3.6 27Bの約3倍です。MoEのため稼働パラメータは3.8Bですが、日本語品質・数学推論ともに実用上の問題はありませんでした。チャットや軽い文章生成には十分です。 denseモデルの品質を重視するなら、Gemma 4 31B。MoEではないフルパラメータ稼働のモデルで、ベンチマークではQwen 3.6 27Bに迫る水準です。ただし速度は24 tok/sで最も遅く、24GB GPUでも2GPU分割になるため、速度面の覚悟は必要です。

12GB GPU（RTX 3060 / 4060）で使うなら

12GBのVRAMでは、Qwen 3.6はどのサイズも収まりません（最小の27Bでも約19GB必要）。選択肢はGemma 4の小型モデルか、前世代のQwen 3 / 3.5になります。

12GB GPU向け — 候補モデル比較

項目	Gemma 4 12B	Gemma 4 8B	Qwen 3.5 9B	Qwen 3 8B
速度	35 tok/s	71 tok/s	99 tok/s	127 tok/s
VRAM使用量	~8GB	~6GB	~7GB	~6GB
数学推論	◎	◎	◎	◎
日本語品質	◎	○	○	○
マルチモーダル	なし	画像+音声	画像	なし
世代	最新	最新	前世代	2世代前

品質重視なら、Gemma 4 12B。12B帯の最新モデルで、日本語の生成品質が最も高く、構造化された回答を返します。速度は35 tok/sと控えめですが、12GBのGPU1枚に余裕で収まります。 速度重視なら、Gemma 4 8B。71 tok/sで実用的な速度が出ます。画像と音声の入力に対応しており、音声まで扱えるのはこのサイズ帯ではGemma 4 8Bだけです（Qwen 3.5 9Bは画像入力に対応）。日本語品質はGemma 4 12Bにやや劣りますが、チャット用途には十分です。

8GB以下のGPUで使うなら

VRAM 8GB以下（RTX 3050、GTX 1070など）では、Gemma 4 8B（VRAM ~6GB）またはQwen 3 8B（VRAM ~6GB）が現実的な選択肢です。Qwen 3 8Bは127 tok/sと最速ですが、最新世代ではないためベンチマーク性能では劣ります。マルチモーダル対応が不要なら、速度でQwen 3 8Bを選ぶのもありです。

日本語品質の実測比較

「ローカルLLMを自宅PCで動かすメリットとデメリットを500文字程度で」という同一プロンプトで比較しました。以下は24GB帯の主要2モデルの回答です。

Gemma 4 31Bの回答

$ ollama chat gemma4:31b
ローカルLLMを自宅PCで動かす最大のメリットは「プライバシーの完全な確保」と「カスタマイズ性」です。クラウドサービスとは異なり、データが外部サーバーに送信されないため、機密文書や個人情報を含むデータを安心して処理できます。また、検閲（フィルター）がないモデルを選べば、自由な表現での創作や特定の専門分野に特化させた微調整（ファインチューニング）が可能です。

一方、デメリットは「ハードウェアコスト」と「性能の限界」です。快適に動作させるには高性能なGPU（VRAM容量が大きいもの）が必要で、導入に数万〜数十万円の費用がかかります。（後略）

Qwen 3.6 27Bの回答

$ ollama chat qwen3.6:27b
ローカルLLMの最大メリットは、データプライバシーとオフライン動作です。例えば、企業の機密契約書や個人の医療記録をクラウドに送らず、PC内で安全に要約・分析できます。また、インターネット接続が不要なため、飛行機内や通信環境が悪い場所でも安定して利用可能です。コスト面では、初期投資後、サブスクリプション料金が掛からないため、長期的には経済的です。

一方、デメリットはハードウェア要件の高さと推論速度です。高性能なGPU（VRAM16GB以上推奨）と大容量メモリが必要であり、旧型PCでは動作しにくいです。（後略）

Gemma 4 31Bは太字・見出しで構造化する傾向があり、Qwen 3.6 27Bはより簡潔に要点をまとめます。どちらも自然な日本語で、敬語の書き換えテストでも実用的な品質でした。12B以下のモデルでも日本語としては問題ないレベルですが、回答の深さや具体例の豊かさでは27B以上のモデルに差がつきます。

有料モデルとの立ち位置

ベンチマークの読み方

この記事で引用しているベンチマークについて補足します。

ベンチマーク	何を測るか	問題数	難易度の目安
GPQA Diamond	博士課程レベルの科学推論。物理・化学・生物の専門家が作成した4択問題で、非専門家はGoogle検索しても正答率が低い	198問	ランダム正答率25%。専門家でも65%程度
SWE-bench Verified	実際のGitHub上のPythonプロジェクトのイシュー（バグ報告）を読み、コードのパッチを生成して修正する。テストが通れば正解	500問	実務レベルのソフトウェアエンジニアリング能力を測定
MMLU / MMLU-Pro	57分野（STEM・人文・社会科学など）にまたがる知識テスト。Proはより難易度が高い10選択肢版	約14,000問 / 12,000問	大学〜専門家レベルの幅広い知識

ローカル環境でGPQA Diamondのサンプル問題5問（生物・化学・物理）を実際に解かせた結果は以下の通りです。

GPQA Diamondサンプル5問の正答数（実測）

Gemma 4 31B

4/5 (80%)

Qwen 3.6 27B

4/5 (80%)

Gemma 4 26B MoE

4/5 (80%)

Qwen 3.6 35B-A3B MoE

4/5 (80%)

Gemma 4 12B

2/5 (40%)

Gemma 4 8B

2/5 (40%)

Gemini 2.5 Flash API

1/5 (20%)

Thinking ONで実行。サンプル数5問のため参考値。Gemini 2.5 FlashはAPI経由（thinking未指定）。

注目すべきは、MoEモデル（Gemma 4 26B MoE、Qwen 3.6 35B-A3B）もdenseモデルと同じ80%を記録した点です。MoEは稼働パラメータが3〜4Bと少ないものの、トークンごとに全パラメータの中から最適なエキスパートを選択して使うため、稼働数の小ささから想像するより高い推論精度が出ます。一方、12B以下では40%に落ち、モデルサイズの壁が明確です。以下の有料モデル比較では公式ベンチマーク結果を引用しています。ローカルで動かせるモデルと有料クラウドAPIの差を、公開ベンチマークで整理しました。

有料モデルとの比較（公開ベンチマーク）

ベンチマーク	Qwen 3.6 27B	Gemma 4 31B	Claude Sonnet 4.6	Claude Opus 4.8	GPT-5.5	Gemini 3 Pro
GPQA Diamond	87.8%	85.7%	89.9%	93.6%	−	91.9%
SWE-bench Verified	77.2%	−	−	88.6%	88.7%	~78%
MMLU	−	−	−	−	92.4%	~90%
MMLU-Pro	86.2%	85.2%	−	−	−	−
利用料金	無料（ローカル）	無料（ローカル）	API従量課金	API従量課金	API従量課金	API従量課金

出典: BenchLM.ai, Anthropic, OpenAI, Google公式（2026年4〜6月）。緑ヘッダはローカルモデル。

GPQA Diamond（博士レベル科学推論）では、ローカルで動くQwen 3.6 27B（87.8%）やGemma 4 31B（85.7%）が、Claude Sonnet 4.6（89.9%）に肉薄する水準に達しています。Gemini 2.5 FlashはAPI経由でサンプル5問に挑戦させたところ1/5（20%）でした。Flashは速度重視モデルのため、推論精度では差が出ます。SWE-bench VerifiedではQwen 3.6 27Bの77.2%に対し、Claude Opus 4.8が88.6%、GPT-5.5が88.7%と、コーディング系では有料モデルがまだ10ポイント以上リードしています。

Thinkingモードの違い

Gemma 4 31BとQwen 3.6 27Bは両方ともThinkingモード（考えてから答える）を搭載しています。Ollamaでは"think": true/falseで制御できます。挙動には差がありました。Gemma 4 31Bは約1,000文字の思考を生成してから回答します。Qwen 3.6 27Bは5,000文字を超える詳細な思考を生成する傾向があります。Thinkingトークンも生成上限（num_predict）に含まれるため、Qwen 3.6 27BでThinking ONにする場合はnum_predictを2048以上に設定しないと、思考だけで枠を使い切り回答が空になることがあります。

まとめ — VRAMごとのベストモデル

VRAMごとのおすすめモデル

VRAM	品質重視	速度重視	備考
24GB	Qwen 3.6 27B（39 tok/s）	Gemma 4 26B MoE（107 tok/s）	dense品質重視ならGemma 4 31B
12GB	Gemma 4 12B（35 tok/s）	Gemma 4 8B（71 tok/s）	Qwen 3.6は12GBに収まらない
8GB以下	Gemma 4 8B（71 tok/s）	Qwen 3 8B（127 tok/s）	音声入力まで使うならGemma 4 8B

24GBのGPUがあるなら、Qwen 3.6 27Bが総合的なベスト。速度・品質・ベンチマークのすべてでバランスが良く、SWE-benchでClaude Opus 4.8に迫る性能を持っています。速度が欲しい場面ではGemma 4 26B MoEと使い分けるのが理想的です。 12GBのGPUなら、Gemma 4 12Bが堅実。Qwen 3.6がこのVRAM帯にモデルを出していないため、実質的にGemma 4が最善の選択肢です。速度が必要な場面ではGemma 4 8Bに切り替えることで対応できます。

参考リンク

2026年のオープンウェイトモデルは、24GB GPUがあれば有料モデルに匹敵する水準で動きます。12GBでも実用的な品質が得られるようになりました。自分のGPUのVRAMを確認して、上の表からモデルを選ぶところから始めてみてください。

検証に使用した機材

[kimono_product id="15761″]

[kimono_product id="15759″]

ローカルAI

Home

スマホで撮った写真から3Dモデルを作れるのか〜フォトグラメトリの始め方を調べてみた