Stable Diffusion を触り始めたが、正直よくわからないままUIをクリックしてるだけで、全然思い通りにいかないので全体像を把握するために調べたことまとめ
生成AIの理論をざっくり理解する
GAN(敵対的生成ネットワーク)
- 画像生成AIの初期に使われた仕組み
- Generator(生成器)と Discriminator(識別器)が競い合う形で学習
- リアルな画像を生成できるが、学習が不安定でモード崩壊が起きやすい
VAE(変分オートエンコーダ)
- 画像を「潜在空間」に圧縮し、そこから復元する手法
- Stable Diffusion では 画像を低次元に圧縮する役割として使われている
- VAEファイルを入れ替えると生成画像の色味や質感が変化する
Diffusion Models(拡散モデル)←自分が使っていたもの
- 現在の主流?
- ノイズを加えて学習 → ノイズを除去しながら画像を生成
- Stable Diffusionはこの仕組みを採用
- 特徴:高品質・多様な画像を生成でき、テキスト指示との相性が良い
- 「ノイズからだんだん絵を浮かび上がらせる」イメージ
LoRA(Low-Rank Adaptation)
- 学習済みモデルに「追加で軽量学習」を行う仕組み
- キャラクターや画風を後から追加できる
- フルモデルを再学習するより軽量で扱いやすい
Stable Diffusionを動かすUIの種類
Stable Diffusion自体は「仕組み」であり、実際に触るにはUIが必要
自分が触ったUIを比較
ComfyUI
- ノードをつなげてワークフローを構築する方式
- 自動化・再利用・外部連携に強い
- ControlNetやLoRAなどを自由に組み合わせ可能
- 【デメリット】初心者には分かりづらい
Automatic1111(WebUI)
- 最も利用者が多く、情報が豊富
- 拡張機能が充実(ControlNet, LoRA, 動画拡張など)
- RTX 50シリーズではPyTorch対応が必要(→別記事で解説)
- 【デメリット】UIがやや古い、機能が多すぎて迷うこともある
InvokeAI
- セットアップが簡単で直感的に操作できる
- 軽量・安定性重視
- 【デメリット】機能や拡張性はA1111やComfyUIに劣る
自分なりの結論
- 理論はざっくりでOK
- UIはAutomatic1111から
- → ユーザー数が多く、解説記事も豊富。安心感がある。
- 慣れたらComfyUIに挑戦
- → ワークフローを保存・再利用でき、量産や自動化に強い。
- InvokeAI
- 軽く試したい人、余計な機能が不要な人向け。
「どれを選んでもいいんだ」と思えるだけで、だいぶ肩の力が抜けました。
まとめ
- 画像生成AIは現在、拡散モデル(Diffusion)が主流
- LoRAを使えばキャラや画風を軽量に追加できる
- UIは用途で選ぶ
- 最初は Automatic1111
- カスタマイズしたいなら ComfyUI
- シンプルに触るなら InvokeAI
初心者はまず「ざっくり理論を理解」して、どれか1つのUIを試してみるのがおすすめです。
コメント