【2026年版】VR・AI・画像生成を1枚で兼ねるなら?〜用途の組み合わせ別に選んでみた
ローカルLLM、AI画像生成、VRを1枚のGPUで兼ねたい。RTX 3090とRTX 3060の2枚挿し環境で各用途のVRAM消費を実測しながら、組み合わせ別のおすすめGPUを整理しました。
結論としては、RTX 5070 Ti 16GB(約16万円)が1枚マルチ用途の最も現実的な選択肢です。
各用途の基礎知識(VRAMの仕組み、用途ごとの入門情報)は個別記事にまとめています。
・ローカルLLMの基礎 → 自宅でAIチャットボットを動かしたい
・AI画像生成の基礎 → AIで画像を生成したい
・VRの基礎 → VRChatでフルトラしたい
・GPUの全スペック比較 → GPU全機種スペック一覧
用途ごとのVRAM消費の特徴
1枚で兼ねるかどうかを判断するには、各用途がVRAMをどう使うかを知っておく必要があります。
| 用途 | VRAM消費の傾向 | ポイント |
|---|---|---|
| ローカルLLM(Ollama等) | モデル全体をVRAMに常駐。使用中ずっと占有 | モデルサイズ=必要VRAM。14Bで10〜12GB、32Bで20〜23GB |
| AI画像生成(ComfyUI等) | 生成中だけ大量消費。終わればほぼ解放 | SDXL+ControlNetで8〜12GB、FLUX Devで16〜24GB |
| VRゲーム | フレームバッファ+テクスチャ。8〜12GBで十分 | GPU演算性能とエンコーダ品質が重要。VRAMはあまりボトルネックにならない |
| 3Dモデリング(Blender) | シーンの複雑さ次第。モデリングなら4〜8GB、Cyclesレンダリングは12GB以上 | OptiXレイトレーシングはNVIDIA限定 |
| 3Dスキャン / Gaussian Splatting | 学習時に12GB以上推奨。閲覧は8GBで可能 | CUDA必須のソフトが多い |
LLMの推論速度(トークン生成速度)は、VRAM容量よりもVRAM帯域幅(Memory Bandwidth)に強く依存します。トークンを1つ生成するたびに、モデルの重み(Weight)全体をVRAMから読み出す必要があるためです。
計算の目安として「モデルサイズ(GB)÷ VRAM帯域幅(GB/s)= 1トークンあたりの最低所要時間(秒)」が成り立ちます。例えば14Bモデル(Q4量子化で約8GB)をRTX 5070 Ti(帯域幅 896GB/s)で動かすと、理論上は 8÷896 ≒ 0.009秒/トークン、毎秒およそ110トークンが上限です。RTX 3090(帯域幅 936GB/s)は帯域幅の数値自体はやや広いものの、Tensorコアの世代差(第3世代 vs 第5世代)もあり、実測では5070 Tiの方が速くなるケースもあります。
「VRAMに載るけど遅い」という状況は、帯域幅がボトルネックになっているケースがほとんどです。
GPUには2種類の計算ユニットがあります。
CUDAコアは汎用計算ユニットで、VRゲームのレンダリングや3Dモデリングなど、あらゆる浮動小数点演算を処理します。「GPUの基礎体力」に相当します。
TensorコアはAI処理に特化した専用ユニットで、行列演算(Matrix Multiplication)を高速化します。LLMの推論も画像生成の拡散処理も、本質的には大規模な行列計算です。Tensorコアはこれを通常のCUDAコアの数十倍の効率で処理します。
RTX 50シリーズは第5世代Tensorコア(FP4/FP8対応)を搭載し、RTX 30シリーズの第3世代と比べてAI処理の効率が大きく向上しています。RTX 5090とRTX 3090でLLM推論速度に2倍以上の差がつくのは、帯域幅の差に加えて、このTensorコアの世代差が効いているためです。
用途別 VRAM消費量の目安
交互利用の場合。同時利用では合算が必要
GPU別 VRAM帯域幅の比較
帯域幅が広いほどLLM推論やAI画像生成が高速。公称値
用途の組み合わせ別おすすめGPU
ここが本題です。やりたいことの組み合わせ別に、1枚で兼ねるために必要なGPUを整理しました。
| やりたいこと | 最低VRAM | おすすめGPU | 理由 |
|---|---|---|---|
| LLM + 画像生成 | 16GB以上 | RTX 5070 Ti 16GB | 両方VRAMを食う。14Bモデル+SDXLを交互に使うなら16GBで足りる |
| LLM + VR | 12GBでOK | RTX 5070 12GB | VRはVRAMをあまり食わない。LLMとVRを同時に使うことも少ない |
| 画像生成 + VR | 12GB以上 | RTX 5070 12GB | SDXL中心なら12GBで快適。FLUX Devまで使うなら16GB |
| LLM + 画像生成 + VR | 16GB以上 | RTX 5070 Ti 16GB | 3用途を1枚でカバーする現実的な最低ライン |
| 全部(上記 + 3D + スキャン) | 24GB | RTX 5090 32GB / 中古RTX 3090 24GB | Cyclesレンダリング+3DGS学習まで含めると24GBが欲しい |
この表の見方
左の列から自分のやりたいことの組み合わせを探してください。VRAMの数字は「交互に使う」前提です。同時に使う場合はこの後のセクションで説明します。
「同時に使う」vs「交互に使う」でVRAM要件が変わる
GPUのVRAMは1つの共有プールです。複数の用途で同時にVRAMを使うと取り合いが起きます。
交互に使う場合(片方を閉じてからもう片方を起動)
VRAMは使い終わったアプリが解放するので、最もVRAMを食う用途の分だけあれば足ります。
例: Ollamaで14Bモデル(約10GB使用)→ 閉じる → ComfyUIでSDXL(10GB使用)
必要VRAM: 12GB(大きい方だけでOK)
同時に使う場合(両方起動したまま)
VRAMが合算で必要です。足りなくなるとメインメモリ(システムRAM)にあふれ出します。VRAMの帯域幅が約900GB/sに対してシステムRAMは約50GB/sなので、速度は約18分の1に落ちます。「動くけど使い物にならない」状態です。
例: Ollamaで14Bモデル(約10GB常駐)+ ComfyUIでSDXL(10GB)
必要VRAM: 22GB(合算)→ 16GBでは足りない
ollama stop モデル名 でVRAMを解放するか、OLLAMA_KEEP_ALIVE=0 で自動解放する設定にしておくと便利です。
同時利用を想定した場合のVRAM目安
| 組み合わせ | 交互利用 | 同時利用 |
|---|---|---|
| LLM(14B)+ 画像生成(SDXL) | 12GB | 22GB |
| LLM(8B)+ VR | 8GB | 12GB |
| LLM(14B)+ VR | 12GB | 16GB |
| 画像生成(SDXL)+ VR | 12GB | 16GB |
| LLM(14B)+ 画像生成 + VR | 16GB | 28GB(非現実的) |
3つ以上を同時に使うのは現実的ではありません。交互に使うか、後述の2枚挿しで用途を分けるのが無難です。
組み合わせ別の具体的な選び方
パターンA: LLM + 画像生成(VRはやらない)
VRAMが最優先。GPU演算性能はそこそこでよい。
- 予算10万円以下: RTX 5060 Ti 16GB(約9万円)。128bitバス幅で帯域幅448GB/sと控えめなため、画像生成はRTX 5070 Ti(896GB/s)の約半分の速度。ただし16GBのVRAMで14Bモデル+SDXLが交互に使える。速度より容量優先の選択肢
- 予算16万円: RTX 5070 Ti 16GB。速度もVRAMも両立。実用的なベストバランス
- 予算を抑えたい: 中古RTX 3090 24GB(約13〜18万円)。VRAM 24GBと帯域幅936GB/sは今でも強力。ただし消費電力350W(RTX 5070 Tiの300Wと比べて50W多い)で、AI処理の電力効率はRTX 50世代の約6割。電気代と排熱対策も考慮が必要
パターンB: LLM + VR(画像生成はたまに)
VRにはGPU演算性能とNVENCエンコーダが重要。LLMにはVRAMが重要。両方満たすにはミドルクラス以上が必要。
- 予算10万円: RTX 5070 12GB。VR 90Hz快適+8Bモデル常用。画像生成もSDXLなら問題なし
- 予算16万円: RTX 5070 Ti 16GB。VR 90Hz余裕+14Bモデル常用。画像生成も快適
パターンC: 全部やりたい(LLM + 画像生成 + VR + 3D)
1枚で全部をカバーするなら、妥協点を決める必要があります。
| GPU | 価格帯 | 何ができて何ができないか |
|---|---|---|
| RTX 5070 Ti 16GB | 約16万円 | 14Bモデル、SDXL、VR 90Hz、Blender中規模シーン。FLUX Devや32Bモデルは厳しい |
| RTX 5080 16GB | 約20万円 | 上記+VR 120Hz、Blender大規模シーン。VRAMは5070 Tiと同じ16GBなのでLLMの上限は変わらない |
| RTX 5090 32GB | 約40万円〜(公式価格。実勢は60万円前後に高騰中) | 32Bモデル、FLUX Dev、VR 120Hz、Cycles大規模レンダリング。全部1枚で完結するが高い |
1枚に絞れないなら: 2枚挿しで用途を分ける
「1枚で全部」が理想ですが、予算とVRAMの現実から2枚に分ける方が合理的なケースもあります。
2枚挿しが有効な例
- LLM用に中古RTX 3090(24GB)+ VR/画像生成用にRTX 5070(12GB)
- LLM専用に大VRAMカード+それ以外を1枚で兼ねる構成
- Ollamaの
CUDA_VISIBLE_DEVICESで使用GPUを指定し、VRAMの取り合いを防ぐ
Ollamaで2枚のGPUにモデルを分割ロードする場合、GPU間のデータ転送速度が推論速度に影響します。
PCIe 4.0 x16の帯域幅は片方向 約32GB/s。一般的なデスクトップの2枚挿しではこれが上限です。14Bモデル程度なら実用上の影響は小さいですが、70B以上のモデルを2枚に分割すると、GPU間通信がボトルネックになりトークン生成速度が30〜50%低下するケースがあります。
NVLinkはGPU同士を直結する専用インターコネクトで、帯域幅はPCIeの数倍〜十数倍。ただしコンシューマー向けGPUではRTX 3090がNVLink対応の最後の世代で、RTX 40/50シリーズでは廃止されています。
コンシューマー環境の2枚挿しは「用途ごとにGPUを分ける」使い方が最も効率的です。1つのモデルを2枚に分割するのは、14B程度までなら実用的ですが、それ以上は速度低下を覚悟する必要があります。
2枚挿しの注意点
- 電源容量(850W以上推奨)、PCIeスロットの物理的な配置、排熱の確保が必要
- Ollamaは2枚のGPUにモデルを分割ロードできる(VRAM合算で大きなモデルを動かせる)
まとめ: 1枚で兼ねるならこの3択
| 予算 | GPU | VRAM帯域幅 | TDP | 向いている組み合わせ |
|---|---|---|---|---|
| 10万円 | RTX 5070 12GB | 672 GB/s | 250W | LLM(8B)+ VR + 画像生成(SDXL) |
| 16万円 | RTX 5070 Ti 16GB | 896 GB/s | 300W | LLM(14B)+ VR + 画像生成(SDXL/FLUX Schnell) |
| 40万円〜 | RTX 5090 32GB | 1,792 GB/s | 575W | 全用途を妥協なくカバー |
16万円のRTX 5070 Tiが、1枚でマルチ用途をこなすバランスとしては最も現実的です。ここで足りなくなったら2枚挿しを検討する、という順番がコスト的にも合理的です。
- 自宅でAIチャットボットを動かしたい — VRAM別にできること整理
- AIで画像を生成したい — 予算別にどこまでできるか
- VRChatでフルトラしたい — ゼロから始める完全ガイド
- GPU全機種スペック一覧 2026年版 — 全GPUの価格・VRAM・帯域比較
- NVIDIA・AMD・Intel比較 — GPUメーカーごとの使い勝手の違い
- 中古GPUでローカルAIを始める — RTX 30/40世代のコスパ検証
この記事のスペック・価格情報は2026年4月時点のものです。










ディスカッション
コメント一覧
まだ、コメントがありません