AIで画像を生成したい〜コスパが良いのはどのあたりか

PCに画像生成AIを簡単に使えるアプリComfyUIを入れて、AI画像を楽しんでいます。ブログのアイキャッチ、SNS素材、アイデアの可視化——クラウドサービスも良いのですが、ちょっとした生成が気軽にできる点がローカルAIの魅力です。

本記事では、予算ごとに「どんな画像が、どれくらいの速さで作れるか」をまとめました。

※ この記事のスペック・価格情報は2026年5月時点のものです。

筆者環境での実測値(RTX 3090 24GB)

モデル 解像度 ステップ数 生成時間
SD 1.5 512×512 20 8.0秒
SDXL (Animagine) 1024×1024 20 26.0秒

計測環境: RTX 3090 (24GB) / ComfyUI / Linux / 2026年5月実測

自宅で画像生成するメリット

クラウド(Midjourney等) ローカル(ComfyUI等)
月額2,000〜6,000円 初期投資のみ
生成枚数に制限あり 無制限
モデルはサービス側が決定 好きなモデル・LoRAを使える
プロンプトがサーバーに送られる 完全ローカル
商用利用に制約がある場合も モデルのライセンス次第で自由

使うツール:ComfyUI

2026年現在、ローカル画像生成で多く使われているツールはComfyUIです。

  • ノードベースのワークフローで、処理の流れが視覚的にわかる
  • Stable Diffusion、FLUX、SDXLなど主要モデルに全対応
  • ControlNet、LoRA、アップスケーラーなどの拡張が豊富
  • NVIDIA GPU + CUDA が最も安定(AMD ROCmは一部対応)

インストールはComfyUI公式サイトからダウンロードして展開するだけ。Pythonの知識は不要です。

深掘り:なぜVRAMが画像生成の鍵になるのか — Latent Diffusionの仕組みComfyUIが使うStable DiffusionやFLUXは「Latent Diffusion Model(潜在拡散モデル)」という技術に基づいています。

512×512の画像をピクセル単位で処理すると約26万ピクセル分の計算が必要ですが、LDMはこれをVAE(Variational Autoencoder)で64×64の潜在空間に圧縮してからノイズ除去します。計算量はピクセル空間の約1/64。これがローカルGPUでも実用的に動く理由です。

処理の流れは以下の通りです。
1. テキストをCLIPモデルでベクトル化 → 2. 潜在空間でノイズ除去(U-Net / DiT)を繰り返す → 3. VAEデコーダーで潜在空間からピクセル画像に復元

VRAMに最も負荷がかかるのはステップ2のノイズ除去処理です。解像度を上げると潜在空間のサイズも比例して大きくなるため、1024×1024(SDXL標準)では512×512の約4倍のVRAMを消費します。

予算別:あなたのGPUでどんな画像が作れるか

予算6〜7万円帯(RTX 5060 8GB / RTX 5060 Ti 8GB)

Palit GeForce RTX 5060 Ti 8GB

Palit GeForce RTX 5060 Ti 8GB

¥67,800 (2026/5/1時点)

8GBでできること:

モデル 生成可能? 1枚の生成時間目安 品質
FLUX.1 Schnell(FP8) 10〜20秒 高い。テキスト描画も得意
SD 1.5 3〜8秒 定番。LoRAが豊富
SDXL 30〜60秒 動くが遅い。LoRA併用は厳しい
FLUX.1 Dev × VRAM不足

できること:

  • FLUX Schnellで高品質な画像を手軽に生成
  • SD 1.5 + LoRAでアニメ風・写実風など自在にスタイル調整
  • ブログのアイキャッチ画像作成
  • SNS投稿用の画像量産

できないこと:

  • SDXLの複雑なワークフロー(ControlNet + LoRA同時使用)
  • FLUX Devの高品質生成
  • 高解像度(2K+)の直接生成
深掘り:FP8量子化とは何かAIモデルの「重み」は通常FP32(32bit浮動小数点)で保存されます。これをFP16(16bit)に変換するとVRAM使用量は半分、FP8(8bit)なら4分の1になります。

FLUX.1のモデルサイズ例:
FP32: 約24GB → FP16: 約12GB → FP8: 約6GB

FP8では精度が落ちますが、画像生成では人間の目で判別できない程度の差に収まることがほとんどです。FLUX SchnellがVRAM 8GBで動くのは、このFP8量子化のおかげです。

FLUX Schnellが8GBで動くのは革命的。「とりあえずAI画像生成を体験したい」なら十分。ただしSDXLの本領を発揮するには足りない。

1万円あたりの生成枚数(FLUX Schnell基準): 無制限(初期投資のみなので、使えば使うほどコスパ向上)

コスパ: ★★★☆☆(体験用としてはOK)

予算10万円帯(RTX 5070 12GB)

12GBでできること:

モデル 生成可能? 1枚の生成時間目安 品質
FLUX.1 Schnell(FP8) 5〜10秒 高速
SD 1.5 2〜5秒 快適
SDXL 10〜20秒 快適。LoRAも併用可能
SDXL + ControlNet 15〜30秒 構図指定ができる
FLUX.1 Dev 動くがギリギリ FP8必須

できること:

  • SDXLが快適に動く → 高品質な画像が安定して作れる
  • ControlNetで構図やポーズを指定した画像生成
  • LoRAでスタイルを細かく制御
  • バッチ処理(連続生成)も実用的
深掘り:LoRAの仕組み — なぜ小さなファイルでスタイルが変わるのかSDXLのベースモデルは約35億パラメータ(約7GBファイル)です。新しい絵柄やキャラクターを学習させるとき、全パラメータを再学習するのは非現実的です。

LoRA(Low-Rank Adaptation)は、モデルの重み行列に「低ランクの差分行列」だけを追加する技術です。元の巨大な行列を直接変更せず、数百万パラメータ(元の0.1%以下)の小さなアダプタでスタイルを変えられます。

LoRAファイルのサイズは通常10〜200MB程度。VRAM上では元モデルに加えてLoRA分の数百MBが追加されるだけなので、12GBあればSDXLベースモデル + LoRA複数枚の同時使用が可能です。

画像生成のスイートスポット。 SDXLが快適に動く最小ラインが12GB。ここから「作りたいものが作れる」感覚が出てくる。

コスパ: ★★★★☆(画像生成メインなら最もバランスが良い)

予算9〜10万円帯 16GB(RTX 5060 Ti 16GB / RX 9070)

MSI GeForce RTX 5060 Ti 16GB VENTUS 2X OC PLUS

MSI GeForce RTX 5060 Ti 16GB VENTUS 2X OC PLUS

¥89,800 (2026/5/1時点)

16GBでできること:

モデル 生成可能? 1枚の生成時間目安 品質
SDXL + ControlNet + LoRA 15〜25秒 複雑なワークフローOK
FLUX.1 Dev 30〜60秒 動く。品質は最高クラス
SD 3.5 15〜25秒 新世代モデル
高解像度アップスケール 追加10〜30秒 2K〜4Kまで
深掘り:VRAM消費の計算方法画像生成時のVRAM消費は大まかに以下で見積もれます。

モデル本体(FP16の場合: パラメータ数 x 2バイト)
+ 潜在空間のバッファ(解像度に比例)
+ LoRA / ControlNet等の追加モジュール
+ VAEデコード時のピーク

計算例 — SDXLで1024×1024を生成する場合:
U-Net本体: 約5.1GB(FP16) + CLIP: 約1.3GB + VAE: 約0.3GB + 潜在空間バッファ: 約2GB
= 合計約8.7GB(LoRAやControlNetなしの最小構成)

ControlNetを追加すると+1.5〜2.5GB、LoRA1枚で+0.1〜0.3GB。12GBではControlNet1枚が限界ですが、16GBならControlNet + LoRA複数枚の同時使用に余裕が出ます。

RTX 5060 Ti 16GB vs RTX 5070 12GB:

比較 RTX 5060 Ti 16GB(9万円) RTX 5070 12GB(10万円)
VRAM 16GB 12GB
SDXL速度 やや遅い(128bitバス) 速い
FLUX Dev 動く ギリギリ
複雑ワークフロー 余裕 ギリギリ

VRAMの余裕を取るか、速度を取るか。 色々なモデルを試したい人・複雑なワークフローを組みたい人はVRAM 16GB、シンプルに速く大量生成したい人は12GBの方が向いています。

注意点:AMD RX 9070(16GB / 約10万円)について
VRAMあたりの価格は最安ですが、ComfyUIとの相性はNVIDIAに大きく劣ります。Windowsでの動作は不安定な場面があり、一部のカスタムノードが動かないことも。画像生成目的ならNVIDIA推奨。

コスパ: ★★★★★(VRAM単価が最も安い帯域)

予算16万円帯(RTX 5070 Ti 16GB)

ASUS PRIME GeForce RTX 5070 Ti 16GB GDDR7

ASUS PRIME GeForce RTX 5070 Ti 16GB GDDR7

¥169,800 (2026/5/1時点)

5060 Ti 16GBと同じVRAMですが、GPU性能が高いので生成速度が1.5〜2倍

比較 RTX 5060 Ti 16GB RTX 5070 Ti 16GB
SDXL 1枚 15〜25秒 8〜15秒
FLUX Dev 1枚 30〜60秒 20〜35秒

大量生成する人、ワークフローの試行錯誤を頻繁にする人には速度差が効いてきます。VRやローカルLLMとの兼用にも強い。

コスパ: ★★★★☆(兼用前提なら最適)

予算18万円〜(RX 7900 XTX 24GB / RTX 5090 32GB)

24GB以上でできること:

モデル 24GB 32GB
FLUX.1 Dev ◎ 快適 ◎ 余裕
SDXL 複雑ワークフロー
動画生成(Wan 2.1等) △ オフロード必要
超高解像度(4K+)

動画生成はまだ個人GPUでは厳しいですが、24GBあれば「できないことがほぼない」状態になります。

GPU別コスパグラフ

AI画像生成性能 vs 価格

このグラフの見方: 横軸が価格(万円)、縦軸がAI画像生成の総合性能スコア。左上に近いほどコスパが良い。点の大きさはVRAM容量を表します。

GPU名 価格(万円) 画像生成スコア VRAM 備考
RTX 5060 Ti 8GB 7 35 8GB
RTX 5060 6 30 8GB
RX 9070 8 40 16GB ※AMD=ComfyUI相性に難
RTX 5060 Ti 16GB 9 55 16GB
RTX 5070 10 65 12GB ★画像生成のスイートスポット
RTX 5070 Ti 16 80 16GB
RX 9070 XT 9 45 16GB ※AMD
RX 7900 XTX 18 85 24GB ※Linux推奨
RTX 5080 20 90 16GB
RTX 5090 40 98 32GB

※画像生成スコアの算出基準:

  • SDXL生成速度: 40%
  • 対応モデル範囲(VRAM依存): 35%
  • 複雑ワークフロー対応力: 25%

グラフから読み取れること

  1. RTX 5070(10万円)が画像生成のコスパ最強。12GBでSDXLが快適に動き、速度も十分
  2. RTX 5060 Ti 16GB(9万円)はVRAM重視派向け。FLUX Devまで手が届くが、速度はRTX 5070に劣る
  3. AMD(RX 9070系)はスコアの割にコスパが良く見えるが、ComfyUIとの相性問題でスコアが割り引かれている。Linux環境なら実質もう少し上
  4. RTX 5080以上は「量産」向け。1枚の品質に差はないが、大量生成時の速度差が効いてくる

おすすめの選び方

ケース1: 趣味で楽しみたい(月に数十枚〜数百枚)

→ RTX 5070(12GB / 10万円)

SDXLが快適、FLUX Schnellも速い。LoRAやControlNetも使える。「画像生成って楽しい」を存分に味わえる。月に数百枚程度なら、生成速度がボトルネックになることはない。

ケース2: ブログやSNS用に実用的に使いたい(週に数十枚)

→ RTX 5060 Ti 16GB(9万円)or RTX 5070(10万円)

1万円の差をどう見るか。色々なモデルを試したい・FLUX Devも触りたいなら5060 Ti 16GB。速度重視・SDXLメインなら5070。どちらも正解。

ケース3: 商用利用・大量生成(毎日数百枚〜)

→ RTX 5070 Ti(16GB / 16万円)

16GBのVRAM + 高速GPU。複雑なワークフローを組んでバッチ処理しても余裕。生成速度が5060 Tiの1.5〜2倍なので、大量生成では差額が回収できる。

ケース4: AI動画生成にも手を出したい

→ RX 7900 XTX(24GB / 18万円) ※Linux推奨
→ 待てるなら、RTX 5080 Ti(24GB?)の噂を待つ

動画生成はVRAMが命。16GBではオフロード必須で実用的ではない。24GBが最低ライン。

ケース5: ローカルLLM(Ollama)もやりたい

実体験: 筆者はRTX 3090(24GB)とRTX 3060(12GB)のデュアルGPU環境で、画像生成とローカルLLMを同時に動かしています。16GBあれば画像生成とLLMの両方で活きます。

→ RTX 5060 Ti 16GB(9万円)

画像生成とLLMの両方で16GBが活きる。「9万円で2つの用途をカバー」は最強のコスパ。

「何を作りたいか」で選ぶ

やりたいこと 必要なVRAM おすすめGPU 予算
ブログ用アイキャッチ 8GB RTX 5060 Ti 8GB 7万円
SNS投稿用の画像 8〜12GB RTX 5070 10万円
LoRAでスタイル制御 12GB+ RTX 5070 10万円
ControlNetで構図指定 12〜16GB RTX 5070 / 5060 Ti 16GB 9〜10万円
FLUX Devの最高品質 16GB+ RTX 5070 Ti 16万円
商用イラスト制作 16GB+ RTX 5070 Ti 16万円
AI動画生成 24GB+ RX 7900 XTX 18万円
深掘り:ControlNetが重い理由 — 「条件付き生成」のコストControlNetはポーズ画像や深度マップから「特徴マップ」を抽出し、U-Netのノイズ除去プロセスに注入します。ベースモデルのU-Netと同サイズの追加ネットワークが動くため、VRAM消費がほぼ2倍になります。

ComfyUIでメモリが厳しい場合、以下の対策が有効です。
1. Tiled VAE Decode — 画像を512×512のタイルに分割してデコード(VRAMピークを40%削減)
2. FP8量子化モデルの利用 — ControlNet自体もFP8版が利用可能
3. –lowvram オプション — 処理を段階的に行い、速度と引き換えにVRAMを節約

GPU別 AI画像生成の対応状況

VRAMFLUX SchnellSDXLFLUX Dev動画生成
8GB◎ FP8△ 遅い××
12GB△ FP8必須×
16GB
24GB

2026年5月時点。◎=快適 ○=動く △=制限あり ×=VRAM不足

まとめ:画像生成は「やってみる」のハードルが低い

AI画像生成は、ローカルAIの中でも「最も視覚的に楽しい」ジャンルです。テキストを入れて数秒〜数十秒で絵が出てくる体験は、一度味わうとハマります。

8GBのGPUでもFLUX Schnellが動く2026年は、入門のハードルがかつてなく低くなっています。

そして、生成した画像を3Dモデル化してVRで見たり、3Dプリンターで物理的に出力したり——仮想と現実をつなぐ最初の一歩として、AI画像生成はちょうどいい入口です。

関連記事

この記事のスペック・価格情報は2026年5月時点のものです。生成時間はモデル・設定・解像度により変動します。

記事で紹介したGPU

MSI GeForce RTX 5060 Ti 16GB VENTUS 2X OC PLUS

MSI GeForce RTX 5060 Ti 16GB VENTUS 2X OC PLUS

¥89,800 (2026/5/1時点)

ASUS PRIME GeForce RTX 5070 Ti 16GB GDDR7

ASUS PRIME GeForce RTX 5070 Ti 16GB GDDR7

¥169,800 (2026/5/1時点)

【中古】MSI GeForce RTX 3090 GAMING X TRIO 24GB

【中古】MSI GeForce RTX 3090 GAMING X TRIO 24GB

¥148,000 (2026/5/1時点)

記事で紹介したGPU

MSI GeForce RTX 5060 Ti 16GB VENTUS 2X OC PLUS

MSI GeForce RTX 5060 Ti 16GB VENTUS 2X OC PLUS

¥89,800 (2026/5/1時点)

ASUS PRIME GeForce RTX 5070 Ti 16GB GDDR7

ASUS PRIME GeForce RTX 5070 Ti 16GB GDDR7

¥169,800 (2026/5/1時点)

【中古】MSI GeForce RTX 3090 GAMING X TRIO 24GB

【中古】MSI GeForce RTX 3090 GAMING X TRIO 24GB

¥148,000 (2026/5/1時点)