AIで画像を生成したい〜コスパが良いのはどのあたりか
PCに画像生成AIを簡単に使えるアプリComfyUIを入れて、AI画像を楽しんでいます。ブログのアイキャッチ、SNS素材、アイデアの可視化——クラウドサービスも良いのですが、ちょっとした生成が気軽にできる点がローカルAIの魅力です。
本記事では、予算ごとに「どんな画像が、どれくらいの速さで作れるか」をまとめました。
※ この記事のスペック・価格情報は2026年5月時点のものです。
筆者環境での実測値(RTX 3090 24GB)
| モデル | 解像度 | ステップ数 | 生成時間 |
|---|---|---|---|
| SD 1.5 | 512×512 | 20 | 8.0秒 |
| SDXL (Animagine) | 1024×1024 | 20 | 26.0秒 |
計測環境: RTX 3090 (24GB) / ComfyUI / Linux / 2026年5月実測
自宅で画像生成するメリット
| クラウド(Midjourney等) | ローカル(ComfyUI等) |
|---|---|
| 月額2,000〜6,000円 | 初期投資のみ |
| 生成枚数に制限あり | 無制限 |
| モデルはサービス側が決定 | 好きなモデル・LoRAを使える |
| プロンプトがサーバーに送られる | 完全ローカル |
| 商用利用に制約がある場合も | モデルのライセンス次第で自由 |
使うツール:ComfyUI
2026年現在、ローカル画像生成で多く使われているツールはComfyUIです。
- ノードベースのワークフローで、処理の流れが視覚的にわかる
- Stable Diffusion、FLUX、SDXLなど主要モデルに全対応
- ControlNet、LoRA、アップスケーラーなどの拡張が豊富
- NVIDIA GPU + CUDA が最も安定(AMD ROCmは一部対応)
インストールはComfyUI公式サイトからダウンロードして展開するだけ。Pythonの知識は不要です。
512×512の画像をピクセル単位で処理すると約26万ピクセル分の計算が必要ですが、LDMはこれをVAE(Variational Autoencoder)で64×64の潜在空間に圧縮してからノイズ除去します。計算量はピクセル空間の約1/64。これがローカルGPUでも実用的に動く理由です。
処理の流れは以下の通りです。
1. テキストをCLIPモデルでベクトル化 → 2. 潜在空間でノイズ除去(U-Net / DiT)を繰り返す → 3. VAEデコーダーで潜在空間からピクセル画像に復元
VRAMに最も負荷がかかるのはステップ2のノイズ除去処理です。解像度を上げると潜在空間のサイズも比例して大きくなるため、1024×1024(SDXL標準)では512×512の約4倍のVRAMを消費します。
予算別:あなたのGPUでどんな画像が作れるか
予算6〜7万円帯(RTX 5060 8GB / RTX 5060 Ti 8GB)
[kimono_product id="15770″]
8GBでできること:
| モデル | 生成可能? | 1枚の生成時間目安 | 品質 |
|---|---|---|---|
| FLUX.1 Schnell(FP8) | ◎ | 10〜20秒 | 高い。テキスト描画も得意 |
| SD 1.5 | ◎ | 3〜8秒 | 定番。LoRAが豊富 |
| SDXL | △ | 30〜60秒 | 動くが遅い。LoRA併用は厳しい |
| FLUX.1 Dev | × | VRAM不足 | — |
できること:
- FLUX Schnellで高品質な画像を手軽に生成
- SD 1.5 + LoRAでアニメ風・写実風など自在にスタイル調整
- ブログのアイキャッチ画像作成
- SNS投稿用の画像量産
できないこと:
- SDXLの複雑なワークフロー(ControlNet + LoRA同時使用)
- FLUX Devの高品質生成
- 高解像度(2K+)の直接生成
FLUX.1のモデルサイズ例:
FP32: 約24GB → FP16: 約12GB → FP8: 約6GB
FP8では精度が落ちますが、画像生成では人間の目で判別できない程度の差に収まることがほとんどです。FLUX SchnellがVRAM 8GBで動くのは、このFP8量子化のおかげです。
FLUX Schnellが8GBで動くのは革命的。「とりあえずAI画像生成を体験したい」なら十分。ただしSDXLの本領を発揮するには足りない。
1万円あたりの生成枚数(FLUX Schnell基準): 無制限(初期投資のみなので、使えば使うほどコスパ向上)
コスパ: ★★★☆☆(体験用としてはOK)
予算10万円帯(RTX 5070 12GB)
12GBでできること:
| モデル | 生成可能? | 1枚の生成時間目安 | 品質 |
|---|---|---|---|
| FLUX.1 Schnell(FP8) | ◎ | 5〜10秒 | 高速 |
| SD 1.5 | ◎ | 2〜5秒 | 快適 |
| SDXL | ◎ | 10〜20秒 | 快適。LoRAも併用可能 |
| SDXL + ControlNet | ○ | 15〜30秒 | 構図指定ができる |
| FLUX.1 Dev | △ | 動くがギリギリ | FP8必須 |
できること:
- SDXLが快適に動く → 高品質な画像が安定して作れる
- ControlNetで構図やポーズを指定した画像生成
- LoRAでスタイルを細かく制御
- バッチ処理(連続生成)も実用的
LoRA(Low-Rank Adaptation)は、モデルの重み行列に「低ランクの差分行列」だけを追加する技術です。元の巨大な行列を直接変更せず、数百万パラメータ(元の0.1%以下)の小さなアダプタでスタイルを変えられます。
LoRAファイルのサイズは通常10〜200MB程度。VRAM上では元モデルに加えてLoRA分の数百MBが追加されるだけなので、12GBあればSDXLベースモデル + LoRA複数枚の同時使用が可能です。
画像生成のスイートスポット。 SDXLが快適に動く最小ラインが12GB。ここから「作りたいものが作れる」感覚が出てくる。
コスパ: ★★★★☆(画像生成メインなら最もバランスが良い)
予算9〜10万円帯 16GB(RTX 5060 Ti 16GB / RX 9070)
[kimono_product id="15760″]
16GBでできること:
| モデル | 生成可能? | 1枚の生成時間目安 | 品質 |
|---|---|---|---|
| SDXL + ControlNet + LoRA | ◎ | 15〜25秒 | 複雑なワークフローOK |
| FLUX.1 Dev | ○ | 30〜60秒 | 動く。品質は最高クラス |
| SD 3.5 | ◎ | 15〜25秒 | 新世代モデル |
| 高解像度アップスケール | ◎ | 追加10〜30秒 | 2K〜4Kまで |
モデル本体(FP16の場合: パラメータ数 x 2バイト)
+ 潜在空間のバッファ(解像度に比例)
+ LoRA / ControlNet等の追加モジュール
+ VAEデコード時のピーク
計算例 — SDXLで1024×1024を生成する場合:
U-Net本体: 約5.1GB(FP16) + CLIP: 約1.3GB + VAE: 約0.3GB + 潜在空間バッファ: 約2GB
= 合計約8.7GB(LoRAやControlNetなしの最小構成)
ControlNetを追加すると+1.5〜2.5GB、LoRA1枚で+0.1〜0.3GB。12GBではControlNet1枚が限界ですが、16GBならControlNet + LoRA複数枚の同時使用に余裕が出ます。
RTX 5060 Ti 16GB vs RTX 5070 12GB:
| 比較 | RTX 5060 Ti 16GB(9万円) | RTX 5070 12GB(10万円) |
|---|---|---|
| VRAM | 16GB | 12GB |
| SDXL速度 | やや遅い(128bitバス) | 速い |
| FLUX Dev | 動く | ギリギリ |
| 複雑ワークフロー | 余裕 | ギリギリ |
VRAMの余裕を取るか、速度を取るか。 色々なモデルを試したい人・複雑なワークフローを組みたい人はVRAM 16GB、シンプルに速く大量生成したい人は12GBの方が向いています。
VRAMあたりの価格は最安ですが、ComfyUIとの相性はNVIDIAに大きく劣ります。Windowsでの動作は不安定な場面があり、一部のカスタムノードが動かないことも。画像生成目的ならNVIDIA推奨。
コスパ: ★★★★★(VRAM単価が最も安い帯域)
予算16万円帯(RTX 5070 Ti 16GB)
[kimono_product id="15762″]
5060 Ti 16GBと同じVRAMですが、GPU性能が高いので生成速度が1.5〜2倍。
| 比較 | RTX 5060 Ti 16GB | RTX 5070 Ti 16GB |
|---|---|---|
| SDXL 1枚 | 15〜25秒 | 8〜15秒 |
| FLUX Dev 1枚 | 30〜60秒 | 20〜35秒 |
大量生成する人、ワークフローの試行錯誤を頻繁にする人には速度差が効いてきます。VRやローカルLLMとの兼用にも強い。
コスパ: ★★★★☆(兼用前提なら最適)
予算18万円〜(RX 7900 XTX 24GB / RTX 5090 32GB)
24GB以上でできること:
| モデル | 24GB | 32GB |
|---|---|---|
| FLUX.1 Dev | ◎ 快適 | ◎ 余裕 |
| SDXL 複雑ワークフロー | ◎ | ◎ |
| 動画生成(Wan 2.1等) | △ オフロード必要 | ○ |
| 超高解像度(4K+) | ◎ | ◎ |
動画生成はまだ個人GPUでは厳しいですが、24GBあれば「できないことがほぼない」状態になります。
GPU別コスパグラフ
AI画像生成性能 vs 価格
このグラフの見方: 横軸が価格(万円)、縦軸がAI画像生成の総合性能スコア。左上に近いほどコスパが良い。点の大きさはVRAM容量を表します。
| GPU名 | 価格(万円) | 画像生成スコア | VRAM | 備考 |
|---|---|---|---|---|
| RTX 5060 Ti 8GB | 7 | 35 | 8GB | |
| RTX 5060 | 6 | 30 | 8GB | |
| RX 9070 | 8 | 40 | 16GB | ※AMD=ComfyUI相性に難 |
| RTX 5060 Ti 16GB | 9 | 55 | 16GB | |
| RTX 5070 | 10 | 65 | 12GB | ★画像生成のスイートスポット |
| RTX 5070 Ti | 16 | 80 | 16GB | |
| RX 9070 XT | 9 | 45 | 16GB | ※AMD |
| RX 7900 XTX | 18 | 85 | 24GB | ※Linux推奨 |
| RTX 5080 | 20 | 90 | 16GB | |
| RTX 5090 | 40 | 98 | 32GB |
※画像生成スコアの算出基準:
- SDXL生成速度: 40%
- 対応モデル範囲(VRAM依存): 35%
- 複雑ワークフロー対応力: 25%
グラフから読み取れること
- RTX 5070(10万円)が画像生成のコスパ最強。12GBでSDXLが快適に動き、速度も十分
- RTX 5060 Ti 16GB(9万円)はVRAM重視派向け。FLUX Devまで手が届くが、速度はRTX 5070に劣る
- AMD(RX 9070系)はスコアの割にコスパが良く見えるが、ComfyUIとの相性問題でスコアが割り引かれている。Linux環境なら実質もう少し上
- RTX 5080以上は「量産」向け。1枚の品質に差はないが、大量生成時の速度差が効いてくる
おすすめの選び方
ケース1: 趣味で楽しみたい(月に数十枚〜数百枚)
→ RTX 5070(12GB / 10万円)
SDXLが快適、FLUX Schnellも速い。LoRAやControlNetも使える。「画像生成って楽しい」を存分に味わえる。月に数百枚程度なら、生成速度がボトルネックになることはない。
ケース2: ブログやSNS用に実用的に使いたい(週に数十枚)
→ RTX 5060 Ti 16GB(9万円)or RTX 5070(10万円)
1万円の差をどう見るか。色々なモデルを試したい・FLUX Devも触りたいなら5060 Ti 16GB。速度重視・SDXLメインなら5070。どちらも正解。
ケース3: 商用利用・大量生成(毎日数百枚〜)
→ RTX 5070 Ti(16GB / 16万円)
16GBのVRAM + 高速GPU。複雑なワークフローを組んでバッチ処理しても余裕。生成速度が5060 Tiの1.5〜2倍なので、大量生成では差額が回収できる。
ケース4: AI動画生成にも手を出したい
→ RX 7900 XTX(24GB / 18万円) ※Linux推奨
→ 待てるなら、RTX 5080 Ti(24GB?)の噂を待つ
動画生成はVRAMが命。16GBではオフロード必須で実用的ではない。24GBが最低ライン。
ケース5: ローカルLLM(Ollama)もやりたい
→ RTX 5060 Ti 16GB(9万円)
画像生成とLLMの両方で16GBが活きる。「9万円で2つの用途をカバー」は最強のコスパ。
「何を作りたいか」で選ぶ
| やりたいこと | 必要なVRAM | おすすめGPU | 予算 |
|---|---|---|---|
| ブログ用アイキャッチ | 8GB | RTX 5060 Ti 8GB | 7万円 |
| SNS投稿用の画像 | 8〜12GB | RTX 5070 | 10万円 |
| LoRAでスタイル制御 | 12GB+ | RTX 5070 | 10万円 |
| ControlNetで構図指定 | 12〜16GB | RTX 5070 / 5060 Ti 16GB | 9〜10万円 |
| FLUX Devの最高品質 | 16GB+ | RTX 5070 Ti | 16万円 |
| 商用イラスト制作 | 16GB+ | RTX 5070 Ti | 16万円 |
| AI動画生成 | 24GB+ | RX 7900 XTX | 18万円 |
ComfyUIでメモリが厳しい場合、以下の対策が有効です。
1. Tiled VAE Decode — 画像を512×512のタイルに分割してデコード(VRAMピークを40%削減)
2. FP8量子化モデルの利用 — ControlNet自体もFP8版が利用可能
3. –lowvram オプション — 処理を段階的に行い、速度と引き換えにVRAMを節約
[kimono_heatmap title="GPU別 AI画像生成の対応状況" note="2026年5月時点。◎=快適 ○=動く △=制限あり ×=VRAM不足"]
VRAM|FLUX Schnell|SDXL|FLUX Dev|動画生成
8GB|◎ FP8|△ 遅い|×|×
12GB|◎|◎|△ FP8必須|×
16GB|◎|◎|○|△
24GB|◎|◎|◎|○
[/kimono_heatmap]
まとめ:画像生成は「やってみる」のハードルが低い
AI画像生成は、ローカルAIの中でも「最も視覚的に楽しい」ジャンルです。テキストを入れて数秒〜数十秒で絵が出てくる体験は、一度味わうとハマります。
8GBのGPUでもFLUX Schnellが動く2026年は、入門のハードルがかつてなく低くなっています。
そして、生成した画像を3Dモデル化してVRで見たり、3Dプリンターで物理的に出力したり——仮想と現実をつなぐ最初の一歩として、AI画像生成はちょうどいい入口です。
- 自宅でAIチャットボットを動かしたい:予算別にできることガイド — ローカルLLMの始め方
- GPU全機種スペック一覧 2026年版 — 全GPUの価格・VRAM・帯域を比較
- 中古GPUでローカルAIを始める — RTX 30/40世代のコスパ検証
- 用途の組み合わせ別おすすめGPU — 1枚で兼ねるならどれか
この記事のスペック・価格情報は2026年5月時点のものです。生成時間はモデル・設定・解像度により変動します。
記事で紹介したGPU
[kimono_product id="15760″]
[kimono_product id="15762″]
[kimono_product id="15761″]
記事で紹介したGPU
[kimono_product id="15760″]
[kimono_product id="15762″]
[kimono_product id="15761″]