ComfyUI入門:インストールから最初の1枚まで。2026年はDesktop版で簡単になった
PCにGPUを積んで、ローカルでAI画像を生成しています。ブログのアイキャッチ、SNS素材、アイデアの可視化——用途は様々です。
以前のComfyUIは「Pythonをインストールして、Gitでクローンして、pip installして、CUDAのバージョンを合わせて……」という環境構築が必要で、プログラミング経験がない人にはかなり敷居が高いツールでした。
それが2024年10月にDesktop版がリリースされたことで状況が一変しました。インストーラーをダウンロードして実行するだけと、プログラムの知識は一切不要となりました。本記事では、Desktop版のインストールから最初の1枚を生成するまでの手順をまとめます。
現在、Desktop版ならたった5ステップで始められます。
ComfyUIとは?
ComfyUIは、ノードベースのAI画像生成ツールです。
テキストから画像を生成するStable Diffusion、FLUX、SD3といったAIモデルを、ローカルPC上で動かすためのフロントエンドとして機能します。オープンソースで無料。商用利用も、使うモデルのライセンス次第で自由にできます。
特徴的なのは「ノード」と呼ばれるブロックを線でつないで処理の流れを組み立てる方式です。一見すると複雑に見えますが、この仕組みのおかげで「モデルを変えたい」「画像の一部だけ修正したい」「アップスケールを追加したい」といったカスタマイズが柔軟にできます。
同じようなツールとしてはAutomatic1111(WebUI)がありますが、違いは以下の通りです。
| 比較項目 | ComfyUI | Automatic1111 (WebUI) |
|---|---|---|
| UI方式 | ノードベース(線でつなぐ) | フォーム入力型 |
| カスタマイズ性 | 非常に高い | 中程度 |
| 初心者の取っ付きやすさ | やや分かりにくい | 直感的 |
| 新モデル対応速度 | 速い(FLUXなど即対応) | やや遅い |
| メモリ効率 | 良い | 普通 |
| 2026年の開発状況 | 活発(Desktop版リリース) | 更新頻度はComfyUIほどではない |
ComfyUIで使われるStable DiffusionやFLUXは「Latent Diffusion Model(潜在拡散モデル)」という仕組みで動いています。通常の画像(例:1024×1024ピクセル、約100万画素)をそのまま計算すると膨大な処理が必要ですが、Latent Diffusionでは画像を128×128程度の「潜在空間(Latent Space)」に圧縮してから処理します。計算量はピクセル空間の約1/64。これがローカルGPUでも実用的な速度で画像を生成できる理由です。
処理の流れは「ランダムなノイズ → 少しずつノイズを除去 → 画像が浮かび上がる」というもの。ノイズ除去を何回繰り返すかがKSamplerの「Steps」パラメータに対応しています。
2026年現在、新しく始めるならComfyUIが有力な選択肢というのが正直な実感です。新しいモデルへの対応が速く、開発も活発。Desktop版の登場で初心者の壁もほぼなくなりました。
インストール手順
2024年まではPython・Git・CUDAの手動設定が必要で、プログラミング未経験だと環境構築の段階で詰まることもありました。Desktop版ではインストーラーを実行するだけです。Windows / macOS対応で、所要時間はモデルのダウンロード込みで10〜30分程度。
Desktop版(Windows / Mac)
- comfy.org にアクセスして「Download」からDesktop版をダウンロード
- インストーラーを実行。特別な設定は不要で、基本的に「Next」を押していくだけ
- ComfyUIが起動すると、テンプレート選択画面が表示される
- 「Text to Image (FLUX)」テンプレートを選択。推奨モデル(FLUX Schnellなど)の自動ダウンロードが始まる
- ダウンロード完了後、プロンプト入力欄が使える状態になる
モデルのダウンロードサイズは選ぶモデルによって異なります。FLUX Schnellで約22GB(FP16)。光回線なら10〜15分程度です。
補足: Desktop版はComfyUI本体に加えて、Python環境やCUDAランタイムもパッケージに含まれています。そのため、既にPython環境がある人も干渉を気にする必要はありません。
Linux(従来方式)
Linuxユーザー向けに従来方式も記載しておきます。
# リポジトリをクローン git clone https://github.com/comfyanonymous/ComfyUI.git cd ComfyUI # 依存パッケージをインストール(venv推奨) python -m venv venv source venv/bin/activate pip install -r requirements.txt # 起動 python main.py
起動するとブラウザで http://127.0.0.1:8188 にアクセスできます。モデルファイルは models/checkpoints/ フォルダに手動で配置してください。
最初の1枚を生成する
Desktop版でインストールが終わったら、さっそく1枚生成してみます。
手順
- ComfyUIを起動
- テンプレートから 「Text to Image (FLUX)」 を選択(初回起動時に自動で表示される。2回目以降はメニューから選択可能)
- CLIP Text Encode ノード(プロンプト入力欄)に英語でテキストを入力
- 「Queue Prompt」ボタン(またはCtrl+Enter)を押す
- 数秒〜数十秒で画像が生成され、Save Image ノードに表示される
プロンプト例
最初は簡単なものから試してみてください。
a cat sitting on a wooden desk, soft lighting, photorealistic, 4k
a Japanese garden in autumn, golden leaves, pond reflection, cinematic
a futuristic city at night, neon lights, rain, cyberpunk style
プロンプトは英語が基本です。日本語は一部モデルで対応していますが、英語の方が安定して意図通りの画像が出やすいです。
生成時間の目安
初回生成時はモデルの読み込みがあるため時間がかかります。2回目以降はモデルがメモリに残るので高速になります。
| モデル | 解像度 | 初回生成 | 2回目以降 | 備考 |
|---|---|---|---|---|
| FLUX Schnell | 512×512 | 15〜20秒 | 3〜5秒 | Desktop版のデフォルト |
| FLUX Schnell | 1024×1024 | 25〜35秒 | 8〜12秒 | 実用的な解像度 |
| SDXL | 1024×1024 | 20〜30秒 | 10〜15秒 | ステップ数20の場合 |
| SD 1.5 | 512×512 | 10〜15秒 | 2〜4秒 | 最軽量 |
※生成時間はRTX 3090での目安。ステップ数20、VRAM 24GB環境。GPUによって大きく変動します。
モデル比較:どれを使えばいいか
ComfyUIでは複数のAIモデルを切り替えて使えます。2026年4月時点の主要モデルを比較します。
| モデル | ファイルサイズ | 必要VRAM | 生成時間(1024×1024) | 画質 | 特徴 |
|---|---|---|---|---|---|
| FLUX Schnell | 約22GB(FP16) | 8GB以上 | 8〜12秒 | ◎ | 高速かつ高品質。Desktop版のデフォルト。まずはこれ |
| FLUX Dev | 約23GB | 12GB以上 | 25〜35秒 | ◎◎ | 最高画質クラス。テキスト描画も得意。ただし重い |
| SDXL | 約6.5GB | 6GB以上 | 10〜15秒 | ○ | 軽量でカスタムモデル(LoRA等)が豊富 |
| SD 1.5 | 約4GB | 4GB以上 | 3〜5秒 | △ | 古いが最軽量。低VRAMでも動く |
※生成時間はRTX 3090、ステップ数20の場合(2026年4月時点)
最初はFLUX Schnellで十分です。 Desktop版のテンプレートで自動選択されるので、あえて変更する必要はありません。SDXLは「特定のスタイルで生成したい」「LoRAを使いたい」という段階になったら試してみてください。
ノードの基本概念
ComfyUIの画面を開くと、四角いブロック(ノード)が線でつながっている図が表示されます。最初は複雑に見えますが、基本は5つのノードだけです。
基本の5ノード
1. Checkpoint Loader(モデル読み込み)
AIモデルのファイルを読み込むノード。「どのモデルで絵を描くか」を決める起点です。
2. CLIP Text Encode(プロンプト変換)
入力したテキスト(プロンプト)を、AIモデルが理解できる数値データに変換します。ポジティブプロンプト(描きたいもの)とネガティブプロンプト(描きたくないもの)の2つを使います。
3. KSampler(画像生成の本体)
ノイズの塊から少しずつ画像を生成していく、いわば「絵を描くエンジン」です。設定項目がいくつかありますが、最初に覚えるべきは以下の3つです。
Steps(ステップ数): ノイズ除去を繰り返す回数。20が標準的な値です。増やすほど精細になりますが、30を超えると品質向上は逓減し、計算時間だけが線形に伸びます。実用上は15〜25の範囲で十分です。
CFG Scale(Classifier-Free Guidance): プロンプトへの忠実度を制御する数値。SDXLでは7.0前後が標準。1.0に近づけるとプロンプトの影響が薄れて「AIの自由な解釈」になり、15.0を超えるとプロンプトに過剰に引きずられて色が飽和したり輪郭が崩れたりします。FLUXモデルではCFGの仕組みが内部に組み込まれているため、1.0固定で使うのが一般的です。
Sampler(サンプラー): ノイズ除去の計算方法。「euler」「dpmpp_2m」「dpmpp_sde」などがあり、生成速度と画質のバランスが異なります。迷ったら「euler」(高速・安定)か「dpmpp_2m」(高品質・やや遅い)を選んでおけば問題ありません。
4. VAE Decode(画像への変換)
KSamplerが生成したのは人間には見えない「潜在空間」のデータです。VAE Decodeがそれを私たちが見られる画像に変換します。
5. Save Image(画像保存)
完成した画像を保存・表示するノード。
データの流れ
[モデル]
[潜在画像]
[画像]
(ポジティブ・ネガティブ)
ノード間の線は色分けされています。
| 線の色 | 流れるデータ | 意味 |
|---|---|---|
| 紫 | MODEL | AIモデル本体 |
| 黄 | CLIP | テキスト処理部分 |
| オレンジ | CONDITIONING | プロンプトの情報 |
| ピンク | LATENT | 潜在空間の画像データ |
| 青 | IMAGE | 人間が見られる画像 |
| 赤 | VAE | 画像変換エンジン |
テンプレートを使っている限り、この配線を自分でいじる必要はありません。「こういう仕組みで動いているんだな」と理解しておけば、エラーが起きたときに原因を推測しやすくなります。
VRAM別のおすすめ設定
お使いのGPUのVRAM容量によって、使えるモデルや設定が変わります。
| VRAM | おすすめモデル | 起動引数 | 体感 |
|---|---|---|---|
| 4GB | SD 1.5 | --lowvram |
遅いが動く。入門体験用 |
| 6〜8GB | SDXL / FLUX Schnell(FP8) | なし | 実用的。FLUX Schnellが動くのは大きい |
| 12GB | FLUX Schnell / SDXL + ControlNet | なし | 快適。LoRA併用も余裕 |
| 16GB | FLUX Dev (FP16) | なし | 快適。ほぼすべてのモデルが動く |
| 24GB | FLUX Dev (フル精度) | --highvram |
最高品質。モデル常駐で切替も高速 |
--lowvram や --highvram はComfyUI起動時の引数です。Desktop版では設定画面から変更できます。Linux版では python main.py --lowvram のように指定します。
--lowvram はVRAMが足りないときにモデルの一部をメインメモリに退避させる機能です。動作は遅くなりますが、本来動かないモデルを無理やり動かせます。逆に --highvram はモデルをすべてVRAMに常駐させて高速化する引数で、24GB以上のGPUで効果を発揮します。
画像生成中のVRAM消費は、大きく3つに分かれます。
1. モデルの重み: FLUX Schnell(FP16)で約12GB、SDXL(FP16)で約3.5GB。VRAMの大部分を占めます。
2. 中間計算データ: 生成中にKSamplerが保持するテンソル。解像度に比例して増加し、1024×1024で約1〜2GB。
3. ControlNet等の追加モデル: ControlNetを併用すると+1〜2GB。LoRAは追加消費がごくわずか(数十MB)。
--lowvram は「1. モデルの重み」をCPUメモリ(System RAM)に退避させ、計算に必要な部分だけGPUに転送する仕組みです。GPU-CPU間のデータ転送が発生するため、生成速度は2〜5倍程度遅くなります。
--highvram を使ってFLUX Devをフル精度で常駐させています。モデルの切り替え時に再読み込みが不要になるので、試行錯誤がとても楽です。よくあるエラーと対処法
ComfyUIを使い始めると、ほぼ全員が一度は遭遇するエラーがあります。対処法をまとめておきます。
| エラー・症状 | 原因 | 対処法 |
|---|---|---|
| CUDA out of memory | VRAM不足 | --lowvram 引数を追加する。または解像度を下げる(1024→768→512) |
| ノードが赤く表示される | ノード間の接続ミス、またはカスタムノードが未インストール | 接続を確認する。Manager → Install Missing Nodesで不足ノードをインストール |
| Checkpoint not found | モデルファイルが正しい場所にない | models/checkpoints/ フォルダにモデルファイルを配置。Desktop版はManagerから直接ダウンロード可能 |
| 生成結果が真っ黒 | VAEの読み込みに失敗、またはFP8モデルとVAEの不整合 | Checkpoint Loaderの設定でVAEを明示的に指定する。FP8版モデルを使っている場合は対応するVAEを別途ダウンロードして指定する |
| 生成が異常に遅い | GPUではなくCPUで計算している | NVIDIAドライバが正しくインストールされているか確認。Desktop版は通常自動認識される |
| Queue Promptを押しても反応しない | ノードの接続が不完全 | すべてのノードの入力ポートが接続されているか確認。未接続のポートがあると実行されない |
Desktop版を使っている限り、環境構築に起因するエラーはほぼ起きません。一番多いのは CUDA out of memory(VRAM不足) です。解像度を下げるか、--lowvram を試すのが最初の一手です。
ComfyUI Manager:拡張機能を簡単にインストール
ComfyUIの強みの一つが、ComfyUI Managerという拡張管理ツールです。Desktop版にはプリインストールされています。
Managerを使うと、以下のことがGUI上で完結します。
- カスタムノードのインストール・更新・削除
- モデルファイルの検索・ダウンロード
- 不足ノードの自動検出とインストール(他人のワークフローを読み込んだとき便利)
- ComfyUI本体のアップデート
他の人が作ったワークフロー(.jsonファイル)をComfyUIに読み込むと、使われているカスタムノードが足りなくて赤く表示されることがあります。そんなときはManagerの 「Install Missing Custom Nodes」 を押すだけで、必要なノードが一括インストールされます。
次のステップ
最初の1枚が生成できたら、次に試してみたい機能を紹介します。
| 機能 | できること | 難易度 |
|---|---|---|
| ControlNet | ポーズや構図を指定して画像を生成。「このポーズで」「この構図で」が可能に | ★★☆ |
| LoRA | 特定のスタイル・キャラクター・画風を学習したモデルを追加。SDXLとの組み合わせが強力 | ★★☆ |
| img2img | 既存の画像をベースに、スタイルや内容を変換 | ★☆☆ |
| Inpainting | 画像の一部だけを選択して描き直す。「顔だけ修正」「背景だけ変更」ができる | ★★☆ |
| アップスケール | 生成した画像を高解像度化。512×512→2048×2048など | ★☆☆ |
| 動画生成 | AnimateDiff、Wan 2.1等で短い動画を生成(VRAM 16GB以上推奨) | ★★★ |
個人的なおすすめは、まず img2img と アップスケール を試すことです。どちらもテンプレートが用意されていて、基本のText to Imageの延長線上で使えます。
ControlNetとLoRAは「自分が作りたい画像の方向性」が見えてきてから手を出すと、「ああ、こういうことがしたかったんだ」という実感が得やすいと思います。
Text to Imageでは構図やポーズをプロンプトで指示しますが、細かい制御には限界があります。ControlNetは入力画像から「輪郭(Canny)」「深度(Depth)」「ポーズ(OpenPose)」などの構造情報を抽出し、その構造を維持したまま新しい画像を生成する技術です。
例えば、手描きのラフスケッチからCannyエッジを検出し、そのエッジに沿った画像を生成できます。VRAM消費は+1〜2GB程度。ComfyUI ManagerからControlNet用のモデルをダウンロードすれば、ノードを2〜3個追加するだけで使えます。
筆者環境での実測値(RTX 3090 24GB)
[kimono_product id="15761″]
[kimono_bar title="モデル別生成時間(RTX 3090実測)" unit="秒" color="#2196f3″ max="30″ note="ComfyUI / Linux / 2026年5月実測。ステップ数20″]
SD 1.5 (512×512)|8.0
SDXL (1024×1024)|26.0
[/kimono_bar]
まとめ
2026年のComfyUIは、Desktop版の登場で「インストールして5分で最初の1枚」が現実になりました。
インストーラーを実行してテンプレートを選ぶだけ。Python、Git、CUDAの知識は不要です。
最初の1枚を生成したら、プロンプトを変えてみたり、モデルを切り替えてみたり、ControlNetで構図を指定してみたり。ComfyUIのノードベースの仕組みは、慣れてくると「自分だけのワークフロー」を組み上げる楽しさがあります。
GPUの選び方については、別記事でVRAM容量別のおすすめをまとめていますので、これから購入を検討している方はそちらも参考にしてみてください。
この記事のスペック・生成時間はRTX 3090環境での目安です。GPUによって大きく変動します。価格・対応状況は2026年4月時点の情報です。
関連記事
検証に使用した機材
[kimono_product id="15761″]
[kimono_product id="15759″]
[kimono_product id="15760″]