【2026年版】VR・AI・画像生成を1枚で兼ねるなら?〜用途の組み合わせ別に選んでみた

2026年5月12日

ローカルLLM、AI画像生成、VRを1枚のGPUで兼ねたい。RTX 3090とRTX 3060の2枚挿し環境で各用途のVRAM消費を実測しながら、組み合わせ別のおすすめGPUを整理しました。

結論としては、RTX 5070 Ti 16GB(約16万円)が1枚マルチ用途の最も現実的な選択肢です。

各用途の基礎知識(VRAMの仕組み、用途ごとの入門情報)は個別記事にまとめています。

この記事の前提知識
・ローカルLLMの基礎 → 自宅でAIチャットボットを動かしたい
・AI画像生成の基礎 → AIで画像を生成したい
・VRの基礎 → VRChatでフルトラしたい
・GPUの全スペック比較 → GPU全機種スペック一覧

用途ごとのVRAM消費の特徴

1枚で兼ねるかどうかを判断するには、各用途がVRAMをどう使うかを知っておく必要があります。

用途 VRAM消費の傾向 ポイント
ローカルLLM(Ollama等) モデル全体をVRAMに常駐。使用中ずっと占有 モデルサイズ=必要VRAM。14Bで10〜12GB、32Bで20〜23GB
AI画像生成(ComfyUI等) 生成中だけ大量消費。終わればほぼ解放 SDXL+ControlNetで8〜12GB、FLUX Devで16〜24GB
VRゲーム フレームバッファ+テクスチャ。8〜12GBで十分 GPU演算性能とエンコーダ品質が重要。VRAMはあまりボトルネックにならない
3Dモデリング(Blender) シーンの複雑さ次第。モデリングなら4〜8GB、Cyclesレンダリングは12GB以上 OptiXレイトレーシングはNVIDIA限定
3Dスキャン / Gaussian Splatting 学習時に12GB以上推奨。閲覧は8GBで可能 CUDA必須のソフトが多い
深掘り: LLM推論速度を決めるのはVRAM容量だけではない

LLMの推論速度(トークン生成速度)は、VRAM容量よりもVRAM帯域幅(Memory Bandwidth)に強く依存します。トークンを1つ生成するたびに、モデルの重み(Weight)全体をVRAMから読み出す必要があるためです。

計算の目安として「モデルサイズ(GB)÷ VRAM帯域幅(GB/s)= 1トークンあたりの最低所要時間(秒)」が成り立ちます。例えば14Bモデル(Q4量子化で約8GB)をRTX 5070 Ti(帯域幅 896GB/s)で動かすと、理論上は 8÷896 ≒ 0.009秒/トークン、毎秒およそ110トークンが上限です。RTX 3090(帯域幅 936GB/s)は帯域幅の数値自体はやや広いものの、Tensorコアの世代差(第3世代 vs 第5世代)もあり、実測では5070 Tiの方が速くなるケースもあります。

「VRAMに載るけど遅い」という状況は、帯域幅がボトルネックになっているケースがほとんどです。

深掘り: TensorコアとCUDAコアの役割分担

GPUには2種類の計算ユニットがあります。

CUDAコアは汎用計算ユニットで、VRゲームのレンダリングや3Dモデリングなど、あらゆる浮動小数点演算を処理します。「GPUの基礎体力」に相当します。

TensorコアはAI処理に特化した専用ユニットで、行列演算(Matrix Multiplication)を高速化します。LLMの推論も画像生成の拡散処理も、本質的には大規模な行列計算です。Tensorコアはこれを通常のCUDAコアの数十倍の効率で処理します。

RTX 50シリーズは第5世代Tensorコア(FP4/FP8対応)を搭載し、RTX 30シリーズの第3世代と比べてAI処理の効率が大きく向上しています。RTX 5090とRTX 3090でLLM推論速度に2倍以上の差がつくのは、帯域幅の差に加えて、このTensorコアの世代差が効いているためです。

用途別 VRAM消費量の目安

ローカルLLM 8B
6 GB
ローカルLLM 14B
10 GB
AI画像生成 SDXL
10 GB
AI画像生成 FLUX Dev
20 GB
VRゲーム
10 GB
3Dモデリング Blender
8 GB
3Dスキャン / Gaussian Splatting
12 GB

交互利用の場合。同時利用では合算が必要

GPU別 VRAM帯域幅の比較

RTX 5090 32GB
1792 GB/s
RTX 5080 16GB
960 GB/s
RTX 5070 Ti 16GB
896 GB/s
RTX 5070 12GB
672 GB/s
RTX 5060 Ti 16GB
448 GB/s
RTX 3090 24GB
936 GB/s
RTX 3060 12GB
360 GB/s

帯域幅が広いほどLLM推論やAI画像生成が高速。公称値

用途の組み合わせ別おすすめGPU

ここが本題です。やりたいことの組み合わせ別に、1枚で兼ねるために必要なGPUを整理しました。

やりたいこと 最低VRAM おすすめGPU 理由
LLM + 画像生成 16GB以上 RTX 5070 Ti 16GB 両方VRAMを食う。14Bモデル+SDXLを交互に使うなら16GBで足りる
LLM + VR 12GBでOK RTX 5070 12GB VRはVRAMをあまり食わない。LLMとVRを同時に使うことも少ない
画像生成 + VR 12GB以上 RTX 5070 12GB SDXL中心なら12GBで快適。FLUX Devまで使うなら16GB
LLM + 画像生成 + VR 16GB以上 RTX 5070 Ti 16GB 3用途を1枚でカバーする現実的な最低ライン
全部(上記 + 3D + スキャン) 24GB RTX 5090 32GB / 中古RTX 3090 24GB Cyclesレンダリング+3DGS学習まで含めると24GBが欲しい

この表の見方

左の列から自分のやりたいことの組み合わせを探してください。VRAMの数字は「交互に使う」前提です。同時に使う場合はこの後のセクションで説明します。

「同時に使う」vs「交互に使う」でVRAM要件が変わる

GPUのVRAMは1つの共有プールです。複数の用途で同時にVRAMを使うと取り合いが起きます。

交互に使う場合(片方を閉じてからもう片方を起動)

VRAMは使い終わったアプリが解放するので、最もVRAMを食う用途の分だけあれば足ります。

例: Ollamaで14Bモデル(約10GB使用)→ 閉じる → ComfyUIでSDXL(10GB使用)
必要VRAM: 12GB(大きい方だけでOK)

同時に使う場合(両方起動したまま)

VRAMが合算で必要です。足りなくなるとメインメモリ(システムRAM)にあふれ出します。VRAMの帯域幅が約900GB/sに対してシステムRAMは約50GB/sなので、速度は約18分の1に落ちます。「動くけど使い物にならない」状態です。

例: Ollamaで14Bモデル(約10GB常駐)+ ComfyUIでSDXL(10GB)
必要VRAM: 22GB(合算)→ 16GBでは足りない

注意点: OllamaはデフォルトでモデルをVRAMに常駐させます。他の用途と切り替えるときは ollama stop モデル名 でVRAMを解放するか、OLLAMA_KEEP_ALIVE=0 で自動解放する設定にしておくと便利です。

同時利用を想定した場合のVRAM目安

組み合わせ 交互利用 同時利用
LLM(14B)+ 画像生成(SDXL) 12GB 22GB
LLM(8B)+ VR 8GB 12GB
LLM(14B)+ VR 12GB 16GB
画像生成(SDXL)+ VR 12GB 16GB
LLM(14B)+ 画像生成 + VR 16GB 28GB(非現実的)

3つ以上を同時に使うのは現実的ではありません。交互に使うか、後述の2枚挿しで用途を分けるのが無難です。

組み合わせ別の具体的な選び方

パターンA: LLM + 画像生成(VRはやらない)

VRAMが最優先。GPU演算性能はそこそこでよい。

  • 予算10万円以下: RTX 5060 Ti 16GB(約9万円)。128bitバス幅で帯域幅448GB/sと控えめなため、画像生成はRTX 5070 Ti(896GB/s)の約半分の速度。ただし16GBのVRAMで14Bモデル+SDXLが交互に使える。速度より容量優先の選択肢
  • 予算16万円: RTX 5070 Ti 16GB。速度もVRAMも両立。実用的なベストバランス
  • 予算を抑えたい: 中古RTX 3090 24GB(約13〜18万円)。VRAM 24GBと帯域幅936GB/sは今でも強力。ただし消費電力350W(RTX 5070 Tiの300Wと比べて50W多い)で、AI処理の電力効率はRTX 50世代の約6割。電気代と排熱対策も考慮が必要

パターンB: LLM + VR(画像生成はたまに)

VRにはGPU演算性能とNVENCエンコーダが重要。LLMにはVRAMが重要。両方満たすにはミドルクラス以上が必要。

  • 予算10万円: RTX 5070 12GB。VR 90Hz快適+8Bモデル常用。画像生成もSDXLなら問題なし
  • 予算16万円: RTX 5070 Ti 16GB。VR 90Hz余裕+14Bモデル常用。画像生成も快適

パターンC: 全部やりたい(LLM + 画像生成 + VR + 3D)

1枚で全部をカバーするなら、妥協点を決める必要があります。

GPU 価格帯 何ができて何ができないか
RTX 5070 Ti 16GB 約16万円 14Bモデル、SDXL、VR 90Hz、Blender中規模シーン。FLUX Devや32Bモデルは厳しい
RTX 5080 16GB 約20万円 上記+VR 120Hz、Blender大規模シーン。VRAMは5070 Tiと同じ16GBなのでLLMの上限は変わらない
RTX 5090 32GB 約40万円〜(公式価格。実勢は60万円前後に高騰中) 32Bモデル、FLUX Dev、VR 120Hz、Cycles大規模レンダリング。全部1枚で完結するが高い
実体験: RTX 3090(24GB)とRTX 3060(12GB)の2枚挿しで運用しています。1枚で全部やろうとすると24GB以上が欲しくなりますが、現行世代で24GB以上はRTX 5090(32GB、約40万円)しかありません。予算的に厳しいなら、2枚に分ける選択肢も検討してみてください。

1枚に絞れないなら: 2枚挿しで用途を分ける

「1枚で全部」が理想ですが、予算とVRAMの現実から2枚に分ける方が合理的なケースもあります。

2枚挿しが有効な例

  • LLM用に中古RTX 3090(24GB)+ VR/画像生成用にRTX 5070(12GB)
  • LLM専用に大VRAMカード+それ以外を1枚で兼ねる構成
  • Ollamaの CUDA_VISIBLE_DEVICES で使用GPUを指定し、VRAMの取り合いを防ぐ
深掘り: 2枚挿し時のGPU間通信 ─ PCIe vs NVLink

Ollamaで2枚のGPUにモデルを分割ロードする場合、GPU間のデータ転送速度が推論速度に影響します。

PCIe 4.0 x16の帯域幅は片方向 約32GB/s。一般的なデスクトップの2枚挿しではこれが上限です。14Bモデル程度なら実用上の影響は小さいですが、70B以上のモデルを2枚に分割すると、GPU間通信がボトルネックになりトークン生成速度が30〜50%低下するケースがあります。

NVLinkはGPU同士を直結する専用インターコネクトで、帯域幅はPCIeの数倍〜十数倍。ただしコンシューマー向けGPUではRTX 3090がNVLink対応の最後の世代で、RTX 40/50シリーズでは廃止されています。

コンシューマー環境の2枚挿しは「用途ごとにGPUを分ける」使い方が最も効率的です。1つのモデルを2枚に分割するのは、14B程度までなら実用的ですが、それ以上は速度低下を覚悟する必要があります。

2枚挿しの注意点

  • 電源容量(850W以上推奨)、PCIeスロットの物理的な配置、排熱の確保が必要
  • Ollamaは2枚のGPUにモデルを分割ロードできる(VRAM合算で大きなモデルを動かせる)
詳しく知りたい方へ
・中古GPUの選び方と注意点 → 中古GPUでローカルAIを始める
・2枚挿しの具体的な設定方法 → GPU 2枚挿しでローカルAIを使い倒す

まとめ: 1枚で兼ねるならこの3択

予算 GPU VRAM帯域幅 TDP 向いている組み合わせ
10万円 RTX 5070 12GB 672 GB/s 250W LLM(8B)+ VR + 画像生成(SDXL)
16万円 RTX 5070 Ti 16GB 896 GB/s 300W LLM(14B)+ VR + 画像生成(SDXL/FLUX Schnell)
40万円〜 RTX 5090 32GB 1,792 GB/s 575W 全用途を妥協なくカバー

16万円のRTX 5070 Tiが、1枚でマルチ用途をこなすバランスとしては最も現実的です。ここで足りなくなったら2枚挿しを検討する、という順番がコスト的にも合理的です。

関連記事

この記事のスペック・価格情報は2026年4月時点のものです。

記事で紹介したGPU

ASUS PRIME GeForce RTX 5070 Ti 16GB GDDR7

¥178,500 (2026-06-22時点)

【中古】MSI GeForce RTX 3090 GAMING X TRIO 24GB

【中古】MSI GeForce RTX 3090 GAMING X TRIO 24GB

¥148,000 (2026/5/1時点)

【中古】ELSA GeForce RTX 3060 12GB

【中古】ELSA GeForce RTX 3060 12GB

¥52,800 (2026-06-22時点)