AIで画像を生成したい〜コスパが良いのはどのあたりか

2026年5月8日

PCに画像生成AIを簡単に使えるアプリComfyUIを入れて、AI画像を楽しんでいます。ブログのアイキャッチ、SNS素材、アイデアの可視化——クラウドサービスも良いのですが、ちょっとした生成が気軽にできる点がローカルAIの魅力です。

本記事では、予算ごとに「どんな画像が、どれくらいの速さで作れるか」をまとめました。

※ この記事のスペック・価格情報は2026年5月時点のものです。

- 0.1. 筆者環境での実測値（RTX 3090 24GB）
1. 自宅で画像生成するメリット
2. 使うツール：ComfyUI
3. 予算別：あなたのGPUでどんな画像が作れるか
4. GPU別コスパグラフ
- 4.1. AI画像生成性能 vs 価格
- 4.2. グラフから読み取れること
5. おすすめの選び方
6. 「何を作りたいか」で選ぶ
7. まとめ：画像生成は「やってみる」のハードルが低い
- 7.1. 記事で紹介したGPU
- 7.2. 記事で紹介したGPU

筆者環境での実測値（RTX 3090 24GB）

モデル	解像度	ステップ数	生成時間
SD 1.5	512×512	20	8.0秒
SDXL (Animagine)	1024×1024	20	26.0秒

計測環境: RTX 3090 (24GB) / ComfyUI / Linux / 2026年5月実測

自宅で画像生成するメリット

クラウド（Midjourney等）	ローカル（ComfyUI等）
月額2,000〜6,000円	初期投資のみ
生成枚数に制限あり	無制限
モデルはサービス側が決定	好きなモデル・LoRAを使える
プロンプトがサーバーに送られる	完全ローカル
商用利用に制約がある場合も	モデルのライセンス次第で自由

使うツール：ComfyUI

2026年現在、ローカル画像生成で多く使われているツールはComfyUIです。

ノードベースのワークフローで、処理の流れが視覚的にわかる
Stable Diffusion、FLUX、SDXLなど主要モデルに全対応
ControlNet、LoRA、アップスケーラーなどの拡張が豊富
NVIDIA GPU + CUDA が最も安定（AMD ROCmは一部対応）

インストールはComfyUI公式サイトからダウンロードして展開するだけ。Pythonの知識は不要です。

深掘り：なぜVRAMが画像生成の鍵になるのか — Latent Diffusionの仕組みComfyUIが使うStable DiffusionやFLUXは「Latent Diffusion Model（潜在拡散モデル）」という技術に基づいています。

512×512の画像をピクセル単位で処理すると約26万ピクセル分の計算が必要ですが、LDMはこれをVAE（Variational Autoencoder）で64×64の潜在空間に圧縮してからノイズ除去します。計算量はピクセル空間の約1/64。これがローカルGPUでも実用的に動く理由です。

処理の流れは以下の通りです。
1. テキストをCLIPモデルでベクトル化 → 2. 潜在空間でノイズ除去（U-Net / DiT）を繰り返す → 3. VAEデコーダーで潜在空間からピクセル画像に復元

VRAMに最も負荷がかかるのはステップ2のノイズ除去処理です。解像度を上げると潜在空間のサイズも比例して大きくなるため、1024×1024（SDXL標準）では512×512の約4倍のVRAMを消費します。

予算別：あなたのGPUでどんな画像が作れるか

予算6〜7万円帯（RTX 5060 8GB / RTX 5060 Ti 8GB）

[kimono_product id="15770″]

8GBでできること:

モデル	生成可能？	1枚の生成時間目安	品質
FLUX.1 Schnell（FP8）	◎	10〜20秒	高い。テキスト描画も得意
SD 1.5	◎	3〜8秒	定番。LoRAが豊富
SDXL	△	30〜60秒	動くが遅い。LoRA併用は厳しい
FLUX.1 Dev	×	VRAM不足	—

できること:

FLUX Schnellで高品質な画像を手軽に生成
SD 1.5 + LoRAでアニメ風・写実風など自在にスタイル調整
ブログのアイキャッチ画像作成
SNS投稿用の画像量産

できないこと:

SDXLの複雑なワークフロー（ControlNet + LoRA同時使用）
FLUX Devの高品質生成
高解像度（2K+）の直接生成

深掘り：FP8量子化とは何かAIモデルの「重み」は通常FP32（32bit浮動小数点）で保存されます。これをFP16（16bit）に変換するとVRAM使用量は半分、FP8（8bit）なら4分の1になります。

FLUX.1のモデルサイズ例:
FP32: 約24GB → FP16: 約12GB → FP8: 約6GB

FP8では精度が落ちますが、画像生成では人間の目で判別できない程度の差に収まることがほとんどです。FLUX SchnellがVRAM 8GBで動くのは、このFP8量子化のおかげです。

FLUX Schnellが8GBで動くのは革命的。「とりあえずAI画像生成を体験したい」なら十分。ただしSDXLの本領を発揮するには足りない。

1万円あたりの生成枚数（FLUX Schnell基準）: 無制限（初期投資のみなので、使えば使うほどコスパ向上）

コスパ: ★★★☆☆（体験用としてはOK）

予算10万円帯（RTX 5070 12GB）

12GBでできること:

モデル	生成可能？	1枚の生成時間目安	品質
FLUX.1 Schnell（FP8）	◎	5〜10秒	高速
SD 1.5	◎	2〜5秒	快適
SDXL	◎	10〜20秒	快適。LoRAも併用可能
SDXL + ControlNet	○	15〜30秒	構図指定ができる
FLUX.1 Dev	△	動くがギリギリ	FP8必須

できること:

SDXLが快適に動く → 高品質な画像が安定して作れる
ControlNetで構図やポーズを指定した画像生成
LoRAでスタイルを細かく制御
バッチ処理（連続生成）も実用的

深掘り：LoRAの仕組み — なぜ小さなファイルでスタイルが変わるのかSDXLのベースモデルは約35億パラメータ（約7GBファイル）です。新しい絵柄やキャラクターを学習させるとき、全パラメータを再学習するのは非現実的です。

LoRA（Low-Rank Adaptation）は、モデルの重み行列に「低ランクの差分行列」だけを追加する技術です。元の巨大な行列を直接変更せず、数百万パラメータ（元の0.1%以下）の小さなアダプタでスタイルを変えられます。

LoRAファイルのサイズは通常10〜200MB程度。VRAM上では元モデルに加えてLoRA分の数百MBが追加されるだけなので、12GBあればSDXLベースモデル + LoRA複数枚の同時使用が可能です。

画像生成のスイートスポット。 SDXLが快適に動く最小ラインが12GB。ここから「作りたいものが作れる」感覚が出てくる。

コスパ: ★★★★☆（画像生成メインなら最もバランスが良い）

予算9〜10万円帯 16GB（RTX 5060 Ti 16GB / RX 9070）

[kimono_product id="15760″]

16GBでできること:

モデル	生成可能？	1枚の生成時間目安	品質
SDXL + ControlNet + LoRA	◎	15〜25秒	複雑なワークフローOK
FLUX.1 Dev	○	30〜60秒	動く。品質は最高クラス
SD 3.5	◎	15〜25秒	新世代モデル
高解像度アップスケール	◎	追加10〜30秒	2K〜4Kまで

深掘り：VRAM消費の計算方法画像生成時のVRAM消費は大まかに以下で見積もれます。

モデル本体（FP16の場合: パラメータ数 x 2バイト）
+ 潜在空間のバッファ（解像度に比例）
+ LoRA / ControlNet等の追加モジュール
+ VAEデコード時のピーク

計算例 — SDXLで1024×1024を生成する場合:
U-Net本体: 約5.1GB（FP16） + CLIP: 約1.3GB + VAE: 約0.3GB + 潜在空間バッファ: 約2GB
= 合計約8.7GB（LoRAやControlNetなしの最小構成）

ControlNetを追加すると+1.5〜2.5GB、LoRA1枚で+0.1〜0.3GB。12GBではControlNet1枚が限界ですが、16GBならControlNet + LoRA複数枚の同時使用に余裕が出ます。

RTX 5060 Ti 16GB vs RTX 5070 12GB:

比較	RTX 5060 Ti 16GB（9万円）	RTX 5070 12GB（10万円）
VRAM	16GB	12GB
SDXL速度	やや遅い（128bitバス）	速い
FLUX Dev	動く	ギリギリ
複雑ワークフロー	余裕	ギリギリ

VRAMの余裕を取るか、速度を取るか。 色々なモデルを試したい人・複雑なワークフローを組みたい人はVRAM 16GB、シンプルに速く大量生成したい人は12GBの方が向いています。

注意点：AMD RX 9070（16GB / 約10万円）について
VRAMあたりの価格は最安ですが、ComfyUIとの相性はNVIDIAに大きく劣ります。Windowsでの動作は不安定な場面があり、一部のカスタムノードが動かないことも。画像生成目的ならNVIDIA推奨。

コスパ: ★★★★★（VRAM単価が最も安い帯域）

予算16万円帯（RTX 5070 Ti 16GB）

[kimono_product id="15762″]

5060 Ti 16GBと同じVRAMですが、GPU性能が高いので生成速度が1.5〜2倍。

比較	RTX 5060 Ti 16GB	RTX 5070 Ti 16GB
SDXL 1枚	15〜25秒	8〜15秒
FLUX Dev 1枚	30〜60秒	20〜35秒

大量生成する人、ワークフローの試行錯誤を頻繁にする人には速度差が効いてきます。VRやローカルLLMとの兼用にも強い。

コスパ: ★★★★☆（兼用前提なら最適）

予算18万円〜（RX 7900 XTX 24GB / RTX 5090 32GB）

24GB以上でできること:

モデル	24GB	32GB
FLUX.1 Dev	◎ 快適	◎ 余裕
SDXL 複雑ワークフロー	◎	◎
動画生成（Wan 2.1等）	△ オフロード必要	○
超高解像度（4K+）	◎	◎

動画生成はまだ個人GPUでは厳しいですが、24GBあれば「できないことがほぼない」状態になります。

GPU別コスパグラフ

AI画像生成性能 vs 価格

このグラフの見方: 横軸が価格（万円）、縦軸がAI画像生成の総合性能スコア。左上に近いほどコスパが良い。点の大きさはVRAM容量を表します。

GPU名	価格(万円)	画像生成スコア	VRAM	備考
RTX 5060 Ti 8GB	7	35	8GB
RTX 5060	6	30	8GB
RX 9070	8	40	16GB	※AMD=ComfyUI相性に難
RTX 5060 Ti 16GB	9	55	16GB
RTX 5070	10	65	12GB	★画像生成のスイートスポット
RTX 5070 Ti	16	80	16GB
RX 9070 XT	9	45	16GB	※AMD
RX 7900 XTX	18	85	24GB	※Linux推奨
RTX 5080	20	90	16GB
RTX 5090	40	98	32GB

※画像生成スコアの算出基準:

SDXL生成速度: 40%
対応モデル範囲（VRAM依存）: 35%
複雑ワークフロー対応力: 25%

グラフから読み取れること

RTX 5070（10万円）が画像生成のコスパ最強。12GBでSDXLが快適に動き、速度も十分
RTX 5060 Ti 16GB（9万円）はVRAM重視派向け。FLUX Devまで手が届くが、速度はRTX 5070に劣る
AMD（RX 9070系）はスコアの割にコスパが良く見えるが、ComfyUIとの相性問題でスコアが割り引かれている。Linux環境なら実質もう少し上
RTX 5080以上は「量産」向け。1枚の品質に差はないが、大量生成時の速度差が効いてくる

「何を作りたいか」で選ぶ

やりたいこと	必要なVRAM	おすすめGPU	予算
ブログ用アイキャッチ	8GB	RTX 5060 Ti 8GB	7万円
SNS投稿用の画像	8〜12GB	RTX 5070	10万円
LoRAでスタイル制御	12GB+	RTX 5070	10万円
ControlNetで構図指定	12〜16GB	RTX 5070 / 5060 Ti 16GB	9〜10万円
FLUX Devの最高品質	16GB+	RTX 5070 Ti	16万円
商用イラスト制作	16GB+	RTX 5070 Ti	16万円
AI動画生成	24GB+	RX 7900 XTX	18万円

深掘り：ControlNetが重い理由 — 「条件付き生成」のコストControlNetはポーズ画像や深度マップから「特徴マップ」を抽出し、U-Netのノイズ除去プロセスに注入します。ベースモデルのU-Netと同サイズの追加ネットワークが動くため、VRAM消費がほぼ2倍になります。

ComfyUIでメモリが厳しい場合、以下の対策が有効です。
1. Tiled VAE Decode — 画像を512×512のタイルに分割してデコード（VRAMピークを40%削減）
2. FP8量子化モデルの利用 — ControlNet自体もFP8版が利用可能
3. –lowvram オプション — 処理を段階的に行い、速度と引き換えにVRAMを節約

[kimono_heatmap title="GPU別 AI画像生成の対応状況" note="2026年5月時点。◎=快適 ○=動く △=制限あり ×=VRAM不足"]
VRAM|FLUX Schnell|SDXL|FLUX Dev|動画生成
8GB|◎ FP8|△ 遅い|×|×
12GB|◎|◎|△ FP8必須|×
16GB|◎|◎|○|△
24GB|◎|◎|◎|○
[/kimono_heatmap]

まとめ：画像生成は「やってみる」のハードルが低い

AI画像生成は、ローカルAIの中でも「最も視覚的に楽しい」ジャンルです。テキストを入れて数秒〜数十秒で絵が出てくる体験は、一度味わうとハマります。

8GBのGPUでもFLUX Schnellが動く2026年は、入門のハードルがかつてなく低くなっています。

そして、生成した画像を3Dモデル化してVRで見たり、3Dプリンターで物理的に出力したり——仮想と現実をつなぐ最初の一歩として、AI画像生成はちょうどいい入口です。

関連記事

自宅でAIチャットボットを動かしたい：予算別にできることガイド — ローカルLLMの始め方
GPU全機種スペック一覧 2026年版 — 全GPUの価格・VRAM・帯域を比較
中古GPUでローカルAIを始める — RTX 30/40世代のコスパ検証
用途の組み合わせ別おすすめGPU — 1枚で兼ねるならどれか

この記事のスペック・価格情報は2026年5月時点のものです。生成時間はモデル・設定・解像度により変動します。

記事で紹介したGPU

[kimono_product id="15760″]

[kimono_product id="15762″]

[kimono_product id="15761″]

記事で紹介したGPU

[kimono_product id="15760″]

[kimono_product id="15762″]

[kimono_product id="15761″]

AI画像生成

Home

ComfyUI入門：インストールから最初の1枚まで。2026年はDesktop版で簡単になった

AIで画像を生成したい〜コスパが良いのはどのあたりか

筆者環境での実測値（RTX 3090 24GB）

自宅で画像生成するメリット

使うツール：ComfyUI

予算別：あなたのGPUでどんな画像が作れるか

予算6〜7万円帯（RTX 5060 8GB / RTX 5060 Ti 8GB）

予算10万円帯（RTX 5070 12GB）

予算9〜10万円帯 16GB（RTX 5060 Ti 16GB / RX 9070）

予算16万円帯（RTX 5070 Ti 16GB）

予算18万円〜（RX 7900 XTX 24GB / RTX 5090 32GB）

GPU別コスパグラフ

AI画像生成性能 vs 価格

グラフから読み取れること

おすすめの選び方

ケース1: 趣味で楽しみたい（月に数十枚〜数百枚）

ケース2: ブログやSNS用に実用的に使いたい（週に数十枚）

ケース3: 商用利用・大量生成（毎日数百枚〜）

ケース4: AI動画生成にも手を出したい

ケース5: ローカルLLM（Ollama）もやりたい

「何を作りたいか」で選ぶ

まとめ：画像生成は「やってみる」のハードルが低い

記事で紹介したGPU

記事で紹介したGPU