Stable Diffusionとは?
仕組み・使い方・UIツール・
拡張機能を徹底解説【2026年版】
オープンソースの画像生成AI「Stable Diffusion」の全容を解説。HBLab記事では触れられていないFLUX・AUTOMATIC1111・ComfyUI・LoRA・ControlNet・GPU要件・Civitai・商用ライセンスの詳細まで、2026年最新情報で網羅する。
1. Stable Diffusionとは——仕組みと特徴
Stable Diffusion(ステーブルディフュージョン)は、英Stability AI社が2022年8月に公開したオープンソースの画像生成AIモデルだ。テキストプロンプトを入力するだけで、高品質な画像を自動生成できる。オープンソースとして公開されたことで、世界中の開発者・クリエイターが自由にカスタマイズ・改造・再配布できる点が最大の特徴だ。
技術的な核心は「潜在拡散モデル(Latent Diffusion Model)」というアーキテクチャだ。純粋なランダムノイズから始めて、少しずつノイズを取り除いていく(逆拡散)ことで画像を生成する。この処理を「潜在空間」という圧縮された空間で行うことで、従来の拡散モデルより大幅に計算効率を改善した。
なぜ「ノイズから画像を作る」のか:
- ランダムノイズ(砂嵐のような画像)から出発する
- テキストエンコーダー(CLIP・T5等)がプロンプトを数値ベクトルに変換する
- Unetと呼ばれるネットワークが「このノイズはプロンプトに近づくためにどう変えるべきか」を計算する
- これをステップ数(20〜50回程度)繰り返してノイズを少しずつ取り除いていく
- VAE(変分オートエンコーダー)が潜在空間の画像を人が見える画像に変換する
- 結果として、プロンプトに沿った高品質な画像が完成する
Stable Diffusion最大の強み——完全オープンソース:
- ソースコードが公開されているため誰でも改造・改良できる
- 世界中のエンジニアが拡張機能(LoRA・ControlNet等)を開発してきた
- ローカル環境で動作させれば画像がサーバーに送信されない(プライバシー保護)
- API不要・月額料金なし——ローカル環境なら生成コスト(電気代のみ)が極小
- Midjourneyと違いAPIが公開されているため、プログラムへの統合が容易
2. 2026年のモデル状況——SD1.5からFLUXまでの系譜
HBLab記事ではSD3.5のみ触れているが、2026年時点ではFLUXという重要な新世代モデルが台頭しており、Stable Diffusionのエコシステムは急速に変化している。
2022年10月・旧世代・現役
最も普及した旧世代モデル。軽量(2GB程度)で動作が速く、VRAM6GB以上あれば動く。何万ものLoRAやファインチューニングモデルがCivitaiに公開されており、エコシステムが最も豊富。アニメ・マンガ調の生成に強い専用モデルが多数存在する。
2023年7月・SD1.5の後継
SD1.5比で大幅な画質向上。学習解像度が512×512→1024×1024に向上し、フォトリアルな画像や複雑な構図の精度が向上した。ファイルサイズはSD1.5の3倍以上になりVRAM要件も増加。SDXLベースのLoRAや専用モデルも普及している。
2024年10月・テキスト描画が大幅改善
Multimodal Diffusion Transformer(MMDiT)という新アーキテクチャを採用。テキストのレンダリング(画像内に文字を正確に描く)が大幅に改善された。CLIP-G/14・CLIP-L/14・T5 XXLという3つのモデルでテキストをエンコードするため、プロンプトの再現性が向上した。
2024年8月〜・2026年の主流候補
Black Forest Labs(Stability AI元コアメンバー設立)が開発した次世代モデル。SD3.5を超えプロンプト忠実度と細部描写が優秀。AUTOMATIC1111ではForge(改良版)、ComfyUIで動作する。2026年のオープンソース画像生成AIの事実上のトップランナーとなりつつある。VRAM12GB以上推奨。
| モデル | リリース | 画質 | VRAM目安 | LoRA豊富さ | 2026年の立ち位置 |
|---|---|---|---|---|---|
| SD1.5 | 2022年10月 | 標準 | 6GB〜 | 最多(何万種類) | LoRA活用・アニメ調に依然として強い |
| SDXL | 2023年7月 | 高品質 | 8GB〜 | 豊富 | 高品質フォトリアル・イラストの安定した選択肢 |
| SD3.5 | 2024年10月 | 高品質 | 8GB〜 | 発展中 | テキスト入り画像・精密プロンプト再現 |
| FLUX.1 | 2024年8月〜 | 最高峰 | 12GB〜 | 急速に増加中 | 2026年最高品質のオープンソース選択肢 |
3. Midjourney・DALL-E 3との違い——3ツール比較
| 比較項目 | Stable Diffusion | Midjourney(V8) | DALL-E 3(OpenAI) |
|---|---|---|---|
| オープンソース | 完全オープンソース(MIT系) | クローズドモデル | クローズドモデル |
| ローカル動作 | 自分のPCで動かせる | クラウドのみ | クラウドのみ |
| 料金 | ローカルなら基本無料 | $10〜$120/月(無料プランなし) | ChatGPT Plus等($20〜/月) |
| API | 利用可能(Stability AI API等) | 公式APIなし | OpenAI APIで利用可能 |
| カスタマイズ性 | 最高(LoRA・ControlNet・モデル切替等) | 低い(パラメータ調整のみ) | 中程度 |
| プライバシー | ローカルなら外部送信なし | クラウド処理(画像が保存される) | クラウド処理 |
| アート表現力 | モデル次第で多様なスタイルに対応 | 独自の美的センス・芸術性が高い | 高品質だが表現のクセが強い |
| 初心者の使いやすさ | 環境構築が必要(学習コストあり) | Webアプリで即使える | ChatGPT経由で即使える |
| 大量生成・自動化 | ローカルなら制限なし・API自動化可 | プランの生成上限に縛られる | API経由で可能(コスト増) |
4. 4つの利用方法——どこから始めるか
| 利用方法 | 概要 | 難易度 | コスト | 向いている人 |
|---|---|---|---|---|
| ローカル環境(AUTOMATIC1111 / ComfyUI) | 自分のPCにインストール。GPU必須。VRAM6GB以上推奨 | 高め——環境構築に知識が必要 | 基本無料(電気代のみ) | エンジニア・ヘビーユーザー・コスト重視 |
| DreamStudio(Stability AI公式) | Stability AI公式のWebサービス。クレジット制 | 低い——ブラウザだけで使える | クレジット購入制(1クレジット≒0.01ドル) | 手軽に試したい・SDの機能を探りたい初心者 |
| Stable Diffusion Online等の無料Webサービス | 無料でブラウザからStable Diffusionを使えるサービス群 | 最も低い | 基本無料(枚数制限あり) | とにかく今すぐ試したい初心者 |
| API(Stability AI API・FLUX API等) | プログラムからAPIを呼び出して自動で画像を生成する | 高め——開発知識が必要 | 使用量課金(1枚数円〜) | アプリ・システムへの統合・自動化・大量生成 |
5. UIツール比較——AUTOMATIC1111・ComfyUI・Forge・InvokeAI
HBLab記事では全く触れられていないが、Stable Diffusionをローカルで動かす場合、どのUIツール(フロントエンド)を使うかが使い勝手を大きく左右する。2026年時点の主要UIツールを解説する。
初心者〜中級者向け
AUTOMATIC1111氏が開発したWeb UIで、Stable Diffusionの事実上の標準フロントエンドとして普及した。タブベースの直感的なUIで、設定項目を上から順番に入力するだけで使える。2022年から蓄積された拡張機能(Extensions)が豊富で、ControlNet・LoRA・Upscaler等をExtensionsタブからワンクリックでインストールできる。SD1.5・SDXLとの相性が良いが、FLUX.1にはForgeを使う必要がある。
プロ・上級者向け
ノードベースのワークフローで画像生成プロセスを視覚的に設計できるUIツール。処理の流れを「ノード」と「接続」で表現するため、学習コストは高いが習得すると非常に柔軟なワークフローを構築できる。FLUX.1との相性が良く、2026年時点でプロ・研究者の間で急速に普及している。ワークフローをJSONで保存・共有できる点も強み。2024〜2025年の大幅UIアップデートで初心者でも使いやすくなった。
A1111後継・FLUX対応
AUTOMATIC1111の操作性を維持しながらバックエンドをComfyUI準拠に変更した改良版。特にVRAM使用量を大幅に削減し、ミドルレンジGPUでの生成速度を改善。現在、AUTOMATIC1111系WebUIでFLUX.1を動かす唯一の選択肢がForge。A1111に慣れていてFLUXを使いたい場合はForgeへ移行するのが現実的。
クリエイター向け
クリエイター向けのUIを重視したStable Diffusion向けのツール。インペインティング・アウトペインティング等の編集機能が充実しており、画像の部分編集が直感的にできる。UI/UXが洗練されており、Photoshopに近い感覚で使えると評判。ただしA1111やComfyUIより拡張機能のエコシステムは小さい。
| UIツール | 学習コスト | FLUX対応 | 拡張機能 | 2026年の推奨度 |
|---|---|---|---|---|
| AUTOMATIC1111 | 低い | 非対応(Forgeが必要) | 最も豊富 | SD1.5・SDXL中心なら引き続き有力 |
| ComfyUI | 高い | ネイティブ対応 | 豊富(カスタムノード) | FLUXや最新モデル・プロ用途に最適 |
| Stable Diffusion Forge | A1111と同等 | 対応 | A1111より少ない | A1111慣れユーザーがFLUXを使う場合に推奨 |
| InvokeAI | 中程度 | 限定対応 | 少ない | 編集・インペインティング重視のクリエイター向け |
6. ローカル環境のセットアップ手順(概要)
AUTOMATIC1111とComfyUI、いずれも基本的なセットアップの流れは共通している。
| ステップ | AUTOMATIC1111(A1111) | ComfyUI |
|---|---|---|
| 前提条件 | Python 3.10〜3.11・Git・NVIDIA GPU(CUDA対応)またはApple Silicon Mac | Python 3.10〜3.11・Git・NVIDIA GPU(CUDA対応)またはApple Silicon Mac |
| ダウンロード | GitHubからstable-diffusion-webuiリポジトリをgit cloneまたはZIPでダウンロード | GitHubからComfyUIリポジトリをgit cloneまたはZIPでダウンロード |
| 起動(Windows) | webui-user.batをダブルクリック——初回は依存パッケージを自動インストール(5〜15分) | python main.pyを実行——初回は依存パッケージをインストール |
| 起動(Mac) | webui.shを実行 | python main.pyを実行(–force-fp16オプション推奨) |
| モデルの配置 | stable-diffusion-webui/models/Stable-diffusion/に.safetensorsファイルを配置 | ComfyUI/models/checkpoints/に.safetensorsファイルを配置 |
| ブラウザアクセス | http://127.0.0.1:7860 にアクセス | http://127.0.0.1:8188 にアクセス |
7. Stable Diffusionの強力な拡張機能
HBLab記事では拡張機能の具体的な解説が全くないが、これらがMidjourneyやDALL-Eに対するStable Diffusionの最大の強みだ。
LoRA(Low-Rank Adaptation)
特定のキャラクター・スタイル・人物の顔を追加学習させた小型モデル(50〜300MB)。Civitaiから何万種類もダウンロードして使える。「このアニメキャラの絵柄で新しいシーンを描く」「特定の芸術家のタッチを再現する」等が可能。SDのエコシステム最大の強み。
ControlNet
既存画像の「構図・ポーズ・輪郭・深度」を抽出して別ビジュアルで再現する。「この人物のポーズを維持したまま別キャラに描き直す」「線画スケッチを着色して完成させる」等が可能。Midjourneyより圧倒的に細かく構図をコントロールできる。
img2img(画像から画像)
既存画像をベースに新しい画像を生成する。「写真をアニメ調に変換」「ラフスケッチを完成イラストに」「製品写真の背景を差し替える」等。元画像の構造をどれだけ維持するかを0〜1で制御できる(ノイズ強度)。
Inpainting / Outpainting
Inpainting:画像の一部をマスクしてAIに補完させる。「人物の服だけ変える」「背景の不要物を消す」等。Outpainting:画像の外側を広げて拡張する。Photoshopの生成塗りつぶしに相当する機能で、商品写真の背景拡張等に有用。
ネガティブプロンプト
生成してほしくない要素を専用欄に入力する機能。「ugly, blurry, deformed, extra fingers」と入力することで変形・ぼやけた画像が出にくくなる。重み(weight)を付けることができ高精度に除外できる。MidjourneyのNOパラメータより精度が高い。
Upscaler(高解像度化)
生成した画像を4K〜8Kレベルに高解像度化する。ESRGAN・Real-ESRGAN等のアップスケーラーをUIツールに組み込んで使う。低解像度で高速生成→アップスケーラーで高解像度化するワークフローが一般的でコスパが良い。
8. プロンプトのコツ——5つのポイント
Stable DiffusionはSD3.5以降は日本語もある程度対応しているが、英語での入力が圧倒的に精度が高い。日本語でイメージを作ったら、DeepLやChatGPTで英訳してからStable Diffusionに入力するのが実践的な対処法。「1girl, beautiful, standing on beach, sunset, detailed, masterpiece」のように英単語をカンマで区切って入力する。
Stable Diffusionはプロンプトの先頭に近いキーワードほど優先度が高くなる傾向がある。「画質・スタイル」→「人物」→「服装・特徴」→「背景・構図」の順で入力するのが基本。重要な要素が後ろに埋もれると画像に反映されにくくなる。
「masterpiece, best quality, highly detailed, 8k」等のキーワードを先頭に加えると画質が向上しやすい。ただしモデルによって効果が異なる。FLUX.1ではこれらのキーワードが不要な場合もある(モデルのドキュメントを確認すること)。
「ugly, deformed, bad anatomy, extra limbs, extra fingers, blurry, low quality, worst quality, watermark, text」等をネガティブプロンプトに入力すると品質が向上する。人物を生成する場合の「手の変形」問題には「deformed hands, extra fingers」の追加が有効。
SD1.5・SDXLはプロンプトを75トークン(単語)を1単位として処理する。75トークン超のプロンプトは75トークンのまとまりに分割されて送信されるため、境界をまたぐキーワードが正しく反映されない場合がある。SD3.5・FLUXはこの制限がなく長いプロンプトも扱いやすい。
9. 必要なGPU要件——スペック別ガイド
Stable Diffusionをローカルで動かす場合、GPUのVRAM(ビデオメモリ)が最重要スペックだ。HBLab記事には全く記載がないが、GPU選択を誤ると動かないか非常に遅い状態になる。
VRAM 6〜8GB(RTX 3060等)
SD1.5が快適に動く。SDXL・SD3.5は低解像度(768×768)なら動作可能。FLUX.1はほぼ動かない。LoRAやControlNetはSD1.5ベースなら使える。コスパが良い入門GPU。
VRAM 12〜16GB(RTX 3090 / 4070 Ti等)
SD1.5・SDXL・SD3.5が快適に動く。FLUX.1も動作可能(1024px前後)。LoRA・ControlNet・Upscalerもすべて快適に使える。プロ向けのスタンダード。
VRAM 24GB以上(RTX 4090 / A100等)
すべてのモデルが最高速度で動作。高解像度生成・バッチ処理・独自モデルのファインチューニングも実用的。業務・商業利用・研究目的向け。
| スペック | 推奨値 | 注意点 |
|---|---|---|
| GPU VRAM(最重要) | 8GB以上(快適には12GB以上) | VRAM不足は深刻なエラーや極端な低速化を招く。MacのApple Silicon(M2 Ultra・M3等)は統合メモリをVRAMとして使用でき動作する |
| RAM | 16GB以上(32GB推奨) | GPUオフロード時にRAMを使う。不足すると生成が遅くなる |
| ストレージ | SSD 50GB以上(モデルが大きい) | SDXLモデル1つ約6〜7GB・FLUXは12〜24GB。LoRAや複数モデルを追加すると100GB超になることも |
| OS | Windows・Linux・macOS | NVIDIA GPU(CUDA)が最も対応が良い。AMD GPU(ROCm)は一部のツールで動作可能 |
10. Civitaiとは——モデル・LoRAを入手する場所
HBLab記事では全く触れられていないが、Civitai(シビタイ)はStable Diffusionユーザーが知らなければならない最重要サイトの一つだ。
| 項目 | 内容 |
|---|---|
| Civitaiとは | Stable Diffusion向けのモデル・LoRA・Textual Inversion・Hypernetwork等を無料で共有できるコミュニティサイト(civitai.com) |
| 公開されているもの | カスタムモデル(.safetensors)・LoRAファイル・Embedding等、何万種類もが無料公開されている |
| 主な活用方法 | アニメキャラ専用モデル・特定の芸術家スタイルLoRA・フォトリアル特化モデル等をダウンロードして自分のA1111やComfyUIで使用する |
| 注意点 | 成人向けコンテンツ(NSFWコンテンツ)も含まれるため、職場環境や未成年者のいる環境でのアクセスに注意。アカウント設定でフィルタリングが可能 |
| 利用制限 | 一部のモデルはダウンロードにアカウント作成・ログインが必要。モデルごとにライセンスが異なる場合があるため商用利用前に確認が必要 |
| Hugging Faceとの違い | Hugging Faceは研究者・企業の公式モデル中心。Civitaiはコミュニティが作ったカスタムモデル・LoRAが中心。用途に応じて使い分ける |
11. 商用利用のライセンスと注意点
| ライセンス | 適用モデル | 商用利用 | 注意点 |
|---|---|---|---|
| CreativeML Open RAIL-M | SD1.5・SDXL等の主要モデル | 可能 | Stability AIの定めた使用制限(有害コンテンツの生成禁止等)を守ること。モデルの改変・再配布も可能だが同じライセンスを引き継ぐ必要がある |
| SD3 Research License | SD3初期バージョン等 | 研究目的のみ・商用不可 | 商用利用にはStability AIの商用ライセンスが必要 |
| Apache 2.0 | 一部のFLUXモデル等 | 可能 | ほぼ無制限に利用可能。ただしFLUX.1 Proは別の商用ライセンス |
| カスタムライセンス | Civitaiの各コミュニティモデル | モデルにより異なる | Civitaiの各モデルページでライセンスを必ず確認すること。商用可・不可・クレジット表記必須等様々 |
12. ビジネス活用事例5選
アサヒビール:参加型プロモーション
「アサヒスーパードライ ドライクリスタル」のプロモーションにStable Diffusionを活用。ユーザーが自分の写真とテキストを入力すると、商品の世界観に合わせたアート作品を生成する「Create Your DRY CRYSTAL ART」サービスを展開。SNS拡散を狙った参加型プロモーションとして成功。
レベルファイブ:ゲーム制作効率化
「イナズマイレブン」等のゲーム開発でStable Diffusionを多段階に活用。タイトル画面のレイアウト案生成・建築物の背景画像・企画段階のイメージ出力に利用。手作業で多くのバリエーションを作成する工数を大幅削減し、デザイン検討の速度を改善した。
UNIQLO:アパレルデザイン支援
トレンド分析データと過去売上データをAIと組み合わせてデザインアイデアを迅速に生成。「カジュアルなTシャツ、夏、海岸の風景」等のプロンプトから無数のデザインバリエーションを生成してデザインチームのインスピレーションを刺激。特定デザインの色・柄・素材感をAIでシミュレートし最適な組み合わせを効率的に探索。
ECサイト・商品写真の背景生成
商品の白背景写真をimg2imgとInpaintingで加工し、様々なシーン(自然・インテリア・スタジオ等)の背景を自動生成する活用事例が増加。撮影スタジオへの依頼コストを削減しながら、バリエーション豊富な商品ビジュアルを効率的に制作できる。
広告クリエイティブの大量生成
デジタル広告(SNS広告・バナー等)のクリエイティブをStable DiffusionのAPIで自動大量生成し、A/Bテストに活用する事例。ターゲット別・訴求別に異なるビジュアルを低コストで量産できるため、広告費対効果の改善に貢献している。
