Stability AIが最新モデル「Stable Diffusion XL」を正式公開
Stable Diffusion XL(SDXL)とは?
Stable Diffusion XL(SDXL)は、画像生成AI「Stable Diffusion」のモデルの一つで、Stability AI社が公開する公式のモデルです。
2023年6月23日に発表された最新バージョンSDXL 0.9は、35億のパラメータを持つ単一モデルと、58億のパラメータを持つ複合モデルから成り立っており、これによりオープンソースモデル中でもトップレベルのパラメータ数を有することになります。
引用元:arXiv
SDXLは単一のモデルではなく、二段階のモデルを採用しています。一つ目のモデルは「画像の大部分」を取得するように訓練され、二つ目のモデルは「一つ目のモデルの出力を改良し、テクスチャーや細部を修正するモデル」となっています。これらのモデルは別々に訓練可能であり、その結果学習効率が上がっています。
引用元:arXiv
次の画像は、Stable Diffusionの各モデルがユーザーにどの程度評価されたかを示したグラフです。縦軸の値が大きいほどユーザーが好みの画像を生成できたことになります。この結果を見ると、SDXLのパフォーマンスは既存のStable Diffusion 1.5や2.1を上回っており、ユーザーの好みに合致した画像を生成する能力が高いことがわかります。
引用元:arXiv
SDXLの詳しい技術は、現在公開されている技術レポートをご覧ください。
現在SDXL 0.9が使用できるPCスペックは、Windows 10/11またはLinux、RAM 16GB、最低8GB VRAMを搭載したNvidia GeForce RTX 20シリーズ(もしくはそれ以上)となっています。Linuxの場合、16GBのVRAMを有するAMD製のグラフィックボードを使用できます。
Stable Diffusionを利用する上でのPCスペックに関してはこちらの記事で詳しく解説しています。
「Stable Diffusionを使いたいけど今のPCではスペックが足りない…」「Stable Diffusionを使うにはどんなスペックが必要なの?」そう思う方もいるのではないでしょうか。Stable Diffusionを効果的に使用[…]
SDXLの利用方法
SDXL 0.9のモデルを利用する
現在SDXL0.9のモデルは、研究者向けの早期アクセスが可能となっています。
Hugging Faceにアクセスして申請を行い、許可が下りたらWebUI等で利用することができます。
「ClipDrop」でデモ版を利用する
Stability AIの子会社であるInit ML社のWebサービス「ClipDrop」にアクセスすることでSDXLのデモ版を体験できます。
ClipDropにアクセスします。トップページに”STABLE DIFFUSION XL”と表示されています。
“Enter your prompt”に生成した画像のプロンプトを入力します。デモ版のため、ネガティブプロンプト等は指定できません。今回はコーヒーカップを持つ日本人女性の画像を生成します。
入力したプロンプト:
(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),(shiny skin),detailed skin,detailed face,detailed eyes,1girl,looking at viewer,Japanese idol,extremely beautiful face, holding a coffee cup
“Generate”をクリックすると、数分ほど待つと画像が4枚生成されます。
様々なタッチで画像が生成されました。プロンプトの指示通り、4枚ともコーヒーを持っています。特に右上の画像は充分リアルな女性が描かれています。
画像をクリックしたあと、右上の”Download HD”から画像をダウンロードできます。
SDXL 1.0のリリースは延期に→2023年7月27日にリリース
SDXL1.0は7月中旬にリリースされる予定でしたが、リリースが延期されることが開発元のStability AIから発表されました。SDXL 1.0の公開は、1週間程度遅れるようです。この延期の理由として、Stability AIのJoe Penna氏は、「いくつかの”遅咲き”の微調整モデルが社内で驚くほどの結果を出しているが、どのモデルが優れているかを明確にするためにもう少し時間が必要だ」と説明しています。モデルの評価に時間がかかっており、そのためSDXLの公開が延期されているようです。
SDXL0.9はAIアート愛好家の間で大きな話題となっておりことから、SDXL1.0の公開にも大きな注目が厚集まることが期待されます。
追記:SDXL 1.0は7月27日に公開されました。SDXL 1.0の特徴や利用方法についてはこちらの記事で詳しく解説しています。
「Stable Diffusionの最新モデルが知りたい...」「Stable Diffusion XL って何?」そう思う方もいるのではないでしょうか。 これまで研究目的で公開されていたStable Diffusion XLアップ[…]
【2023年7月最新版】Stable Diffusionのおすすめモデル8選!
リアル・実写系の画像が生成できるモデル
① BRA(Beautiful Realistic Asians) v6.0
現在、日本で非常に人気なモデルで、リアルなアジア人女性の生成が得意な実写系モデルです。
2023年7月9日に最新バージョンであるv6.0がリリースされています。
② yayoi_mix v2.0
アジア人女性に特化したモデルです。2023年6月にリリースされた後、継続的にアップデートされています。
2023年7月8日に最新バージョンであるv2.0がリリースされています。
③ mutsuki_mix v2
アジア系女性に特化したモデルです。BRAなどに比べて、年齢の低い女性が生成できる印象があります。
2023年6月15日に最新バージョンであるv2がリリースされています。
④ kisaragi_mix v2.2
kisaragi mixもアジア人女性が得意なモデルで、日本人っぽい顔が生成しやすい印象です。
2023年6月16日に最新バージョンであるv2.2がリリースされています。
アニメ・イラスト風の画像が生成できるモデル
⑤ Meina Mix v11
アニメイラスト風の美少女を生成できるモデルで、非常に人気のあるモデルです。
現在も更新中であり、2023年7月17日に最新バージョンであるv11がリリースされています。
⑥ BrainDance_BD051
2023年7月に公開された最新のアニメ系モデルです。このモデルの利用には、vae-ft-mse-840000-ema-pruned.ckptというVAEが推奨されています。
2023年7月19日に最新バージョンであるBD051がリリースされています。
⑦ LastpieceCore_S0680
LastpieceMixというモデルの後作で、柔らかいタッチと強い色彩が特徴です。クオリティ系のLoRA等を使用しなくてもクオリティの高い画像が生成できます。
2023年7月19日に最新バージョンであるS0680がリリースされています。
⑧ Flat-2D Animerge v3.0
2023年6月に公開された2Dのイラストに特化したモデルです。比較的短いプロンプトでクオリティの高い画像が生成できます。
2023年6月25日に最新バージョンであるv2.0がリリースされています。
その他のモデルについてもこちらの記事で解説しています。
「Stable Diffusionのモデルは何を使えばいい?」「リアルな画像やアニメ風の画像を生成できるモデルを知りたい!」 このような疑問をお持ちの方は多いのではないでしょうか? Stable Diffusionのモデルとは[…]
~Stable Diffusionで素早く画像生成するには~
Stable Diffusionの画像生成スピードや画像サイズは、グラフィックボード(GPU)の性能によって大きく変わります。
このため、より効率的かつ快適な画像生成を望むユーザーにとって、最適なグラフィックボードの選択が重要となります。
推論処理やLoRAなどの追加学習処理といった大量の計算を効率よく行うためには、12GB以上のVRAMを持つグラフィックボードを選ぶことを強くおすすめします。
2GBや4GBのVRAMを持つグラフィックボードでは、学習プロセスや高解像度の画像生成に支障が出る可能性が高いです。
コスパを重視する方は、RTX 3060を選ぶと良いでしょう。
このグラフィックボードを使えば、Stable Diffusionの画像生成機能を最大限に活用することが可能となります。