【2026年版】VR・AI・画像生成を1枚で兼ねるなら？〜用途の組み合わせ別に選んでみた

2026年5月12日2026年6月17日

ローカルLLM、AI画像生成、VRを1枚のGPUで兼ねたい。RTX 3090とRTX 3060の2枚挿し環境で各用途のVRAM消費を実測しながら、組み合わせ別のおすすめGPUを整理しました。

結論としては、RTX 5070 Ti 16GB（約16万円）が1枚マルチ用途の最も現実的な選択肢です。

各用途の基礎知識（VRAMの仕組み、用途ごとの入門情報）は個別記事にまとめています。

この記事の前提知識
・ローカルLLMの基礎 → 自宅でAIチャットボットを動かしたい
・AI画像生成の基礎 → AIで画像を生成したい
・VRの基礎 → VRChatでフルトラしたい
・GPUの全スペック比較 → GPU全機種スペック一覧

1. 用途ごとのVRAM消費の特徴
2. 用途の組み合わせ別おすすめGPU
- 2.1. この表の見方
3. 「同時に使う」vs「交互に使う」でVRAM要件が変わる
4. 組み合わせ別の具体的な選び方
5. 1枚に絞れないなら: 2枚挿しで用途を分ける
- 5.1. 2枚挿しが有効な例
- 5.2. 2枚挿しの注意点
6. まとめ: 1枚で兼ねるならこの3択
- 6.1. 記事で紹介したGPU

用途ごとのVRAM消費の特徴

1枚で兼ねるかどうかを判断するには、各用途がVRAMをどう使うかを知っておく必要があります。

用途	VRAM消費の傾向	ポイント
ローカルLLM（Ollama等）	モデル全体をVRAMに常駐。使用中ずっと占有	モデルサイズ＝必要VRAM。14Bで10〜12GB、32Bで20〜23GB
AI画像生成（ComfyUI等）	生成中だけ大量消費。終わればほぼ解放	SDXL+ControlNetで8〜12GB、FLUX Devで16〜24GB
VRゲーム	フレームバッファ＋テクスチャ。8〜12GBで十分	GPU演算性能とエンコーダ品質が重要。VRAMはあまりボトルネックにならない
3Dモデリング（Blender）	シーンの複雑さ次第。モデリングなら4〜8GB、Cyclesレンダリングは12GB以上	OptiXレイトレーシングはNVIDIA限定
3Dスキャン / Gaussian Splatting	学習時に12GB以上推奨。閲覧は8GBで可能	CUDA必須のソフトが多い

深掘り: LLM推論速度を決めるのはVRAM容量だけではない

LLMの推論速度（トークン生成速度）は、VRAM容量よりもVRAM帯域幅（Memory Bandwidth）に強く依存します。トークンを1つ生成するたびに、モデルの重み（Weight）全体をVRAMから読み出す必要があるためです。

計算の目安として「モデルサイズ（GB）÷ VRAM帯域幅（GB/s）＝ 1トークンあたりの最低所要時間（秒）」が成り立ちます。例えば14Bモデル（Q4量子化で約8GB）をRTX 5070 Ti（帯域幅 896GB/s）で動かすと、理論上は 8÷896 ≒ 0.009秒/トークン、毎秒およそ110トークンが上限です。RTX 3090（帯域幅 936GB/s）は帯域幅の数値自体はやや広いものの、Tensorコアの世代差（第3世代 vs 第5世代）もあり、実測では5070 Tiの方が速くなるケースもあります。

「VRAMに載るけど遅い」という状況は、帯域幅がボトルネックになっているケースがほとんどです。

深掘り: TensorコアとCUDAコアの役割分担

GPUには2種類の計算ユニットがあります。

CUDAコアは汎用計算ユニットで、VRゲームのレンダリングや3Dモデリングなど、あらゆる浮動小数点演算を処理します。「GPUの基礎体力」に相当します。

TensorコアはAI処理に特化した専用ユニットで、行列演算（Matrix Multiplication）を高速化します。LLMの推論も画像生成の拡散処理も、本質的には大規模な行列計算です。Tensorコアはこれを通常のCUDAコアの数十倍の効率で処理します。

RTX 50シリーズは第5世代Tensorコア（FP4/FP8対応）を搭載し、RTX 30シリーズの第3世代と比べてAI処理の効率が大きく向上しています。RTX 5090とRTX 3090でLLM推論速度に2倍以上の差がつくのは、帯域幅の差に加えて、このTensorコアの世代差が効いているためです。

用途別 VRAM消費量の目安

ローカルLLM 8B

6 GB

ローカルLLM 14B

10 GB

AI画像生成 SDXL

10 GB

AI画像生成 FLUX Dev

20 GB

VRゲーム

10 GB

3Dモデリング Blender

8 GB

3Dスキャン / Gaussian Splatting

12 GB

交互利用の場合。同時利用では合算が必要

GPU別 VRAM帯域幅の比較

RTX 5090 32GB

1792 GB/s

RTX 5080 16GB

960 GB/s

RTX 5070 Ti 16GB

896 GB/s

RTX 5070 12GB

672 GB/s

RTX 5060 Ti 16GB

448 GB/s

RTX 3090 24GB

936 GB/s

RTX 3060 12GB

360 GB/s

帯域幅が広いほどLLM推論やAI画像生成が高速。公称値

用途の組み合わせ別おすすめGPU

ここが本題です。やりたいことの組み合わせ別に、1枚で兼ねるために必要なGPUを整理しました。

やりたいこと	最低VRAM	おすすめGPU	理由
LLM + 画像生成	16GB以上	RTX 5070 Ti 16GB	両方VRAMを食う。14Bモデル＋SDXLを交互に使うなら16GBで足りる
LLM + VR	12GBでOK	RTX 5070 12GB	VRはVRAMをあまり食わない。LLMとVRを同時に使うことも少ない
画像生成 + VR	12GB以上	RTX 5070 12GB	SDXL中心なら12GBで快適。FLUX Devまで使うなら16GB
LLM + 画像生成 + VR	16GB以上	RTX 5070 Ti 16GB	3用途を1枚でカバーする現実的な最低ライン
全部（上記 + 3D + スキャン）	24GB	RTX 5090 32GB / 中古RTX 3090 24GB	Cyclesレンダリング＋3DGS学習まで含めると24GBが欲しい

この表の見方

左の列から自分のやりたいことの組み合わせを探してください。VRAMの数字は「交互に使う」前提です。同時に使う場合はこの後のセクションで説明します。

「同時に使う」vs「交互に使う」でVRAM要件が変わる

GPUのVRAMは1つの共有プールです。複数の用途で同時にVRAMを使うと取り合いが起きます。

交互に使う場合（片方を閉じてからもう片方を起動）

VRAMは使い終わったアプリが解放するので、最もVRAMを食う用途の分だけあれば足ります。

例: Ollamaで14Bモデル（約10GB使用）→ 閉じる → ComfyUIでSDXL（10GB使用）
必要VRAM: 12GB（大きい方だけでOK）

同時に使う場合（両方起動したまま）

VRAMが合算で必要です。足りなくなるとメインメモリ（システムRAM）にあふれ出します。VRAMの帯域幅が約900GB/sに対してシステムRAMは約50GB/sなので、速度は約18分の1に落ちます。「動くけど使い物にならない」状態です。

例: Ollamaで14Bモデル（約10GB常駐）＋ ComfyUIでSDXL（10GB）
必要VRAM: 22GB（合算）→ 16GBでは足りない

注意点: OllamaはデフォルトでモデルをVRAMに常駐させます。他の用途と切り替えるときは ollama stop モデル名 でVRAMを解放するか、OLLAMA_KEEP_ALIVE=0 で自動解放する設定にしておくと便利です。

同時利用を想定した場合のVRAM目安

組み合わせ	交互利用	同時利用
LLM（14B）+ 画像生成（SDXL）	12GB	22GB
LLM（8B）+ VR	8GB	12GB
LLM（14B）+ VR	12GB	16GB
画像生成（SDXL）+ VR	12GB	16GB
LLM（14B）+ 画像生成 + VR	16GB	28GB（非現実的）

3つ以上を同時に使うのは現実的ではありません。交互に使うか、後述の2枚挿しで用途を分けるのが無難です。

組み合わせ別の具体的な選び方

パターンA: LLM + 画像生成（VRはやらない）

VRAMが最優先。GPU演算性能はそこそこでよい。

予算10万円以下: RTX 5060 Ti 16GB（約9万円）。128bitバス幅で帯域幅448GB/sと控えめなため、画像生成はRTX 5070 Ti（896GB/s）の約半分の速度。ただし16GBのVRAMで14Bモデル＋SDXLが交互に使える。速度より容量優先の選択肢
予算16万円: RTX 5070 Ti 16GB。速度もVRAMも両立。実用的なベストバランス
予算を抑えたい: 中古RTX 3090 24GB（約13〜18万円）。VRAM 24GBと帯域幅936GB/sは今でも強力。ただし消費電力350W（RTX 5070 Tiの300Wと比べて50W多い）で、AI処理の電力効率はRTX 50世代の約6割。電気代と排熱対策も考慮が必要

パターンB: LLM + VR（画像生成はたまに）

VRにはGPU演算性能とNVENCエンコーダが重要。LLMにはVRAMが重要。両方満たすにはミドルクラス以上が必要。

予算10万円: RTX 5070 12GB。VR 90Hz快適＋8Bモデル常用。画像生成もSDXLなら問題なし
予算16万円: RTX 5070 Ti 16GB。VR 90Hz余裕＋14Bモデル常用。画像生成も快適

パターンC: 全部やりたい（LLM + 画像生成 + VR + 3D）

1枚で全部をカバーするなら、妥協点を決める必要があります。

GPU	価格帯	何ができて何ができないか
RTX 5070 Ti 16GB	約16万円	14Bモデル、SDXL、VR 90Hz、Blender中規模シーン。FLUX Devや32Bモデルは厳しい
RTX 5080 16GB	約20万円	上記＋VR 120Hz、Blender大規模シーン。VRAMは5070 Tiと同じ16GBなのでLLMの上限は変わらない
RTX 5090 32GB	約40万円〜（公式価格。実勢は60万円前後に高騰中）	32Bモデル、FLUX Dev、VR 120Hz、Cycles大規模レンダリング。全部1枚で完結するが高い

実体験: RTX 3090（24GB）とRTX 3060（12GB）の2枚挿しで運用しています。1枚で全部やろうとすると24GB以上が欲しくなりますが、現行世代で24GB以上はRTX 5090（32GB、約40万円）しかありません。予算的に厳しいなら、2枚に分ける選択肢も検討してみてください。

1枚に絞れないなら: 2枚挿しで用途を分ける

「1枚で全部」が理想ですが、予算とVRAMの現実から2枚に分ける方が合理的なケースもあります。

2枚挿しが有効な例

LLM用に中古RTX 3090（24GB）＋ VR/画像生成用にRTX 5070（12GB）
LLM専用に大VRAMカード＋それ以外を1枚で兼ねる構成
Ollamaの CUDA_VISIBLE_DEVICES で使用GPUを指定し、VRAMの取り合いを防ぐ

深掘り: 2枚挿し時のGPU間通信 ─ PCIe vs NVLink

Ollamaで2枚のGPUにモデルを分割ロードする場合、GPU間のデータ転送速度が推論速度に影響します。

PCIe 4.0 x16の帯域幅は片方向約32GB/s。一般的なデスクトップの2枚挿しではこれが上限です。14Bモデル程度なら実用上の影響は小さいですが、70B以上のモデルを2枚に分割すると、GPU間通信がボトルネックになりトークン生成速度が30〜50%低下するケースがあります。

NVLinkはGPU同士を直結する専用インターコネクトで、帯域幅はPCIeの数倍〜十数倍。ただしコンシューマー向けGPUではRTX 3090がNVLink対応の最後の世代で、RTX 40/50シリーズでは廃止されています。

コンシューマー環境の2枚挿しは「用途ごとにGPUを分ける」使い方が最も効率的です。1つのモデルを2枚に分割するのは、14B程度までなら実用的ですが、それ以上は速度低下を覚悟する必要があります。

2枚挿しの注意点

電源容量（850W以上推奨）、PCIeスロットの物理的な配置、排熱の確保が必要
Ollamaは2枚のGPUにモデルを分割ロードできる（VRAM合算で大きなモデルを動かせる）

詳しく知りたい方へ
・中古GPUの選び方と注意点 → 中古GPUでローカルAIを始める
・2枚挿しの具体的な設定方法 → GPU 2枚挿しでローカルAIを使い倒す

まとめ: 1枚で兼ねるならこの3択

予算	GPU	VRAM帯域幅	TDP	向いている組み合わせ
10万円	RTX 5070 12GB	672 GB/s	250W	LLM（8B）+ VR + 画像生成（SDXL）
16万円	RTX 5070 Ti 16GB	896 GB/s	300W	LLM（14B）+ VR + 画像生成（SDXL/FLUX Schnell）
40万円〜	RTX 5090 32GB	1,792 GB/s	575W	全用途を妥協なくカバー