Stable Diffusion 2.1とは?
Stable Diffusion 2.1は、2022年12月7日にStable Diffusion 2.0からアップデートされた新しいモデルです。
Stable Diffusion 2.0がリリースされた2022年11月24日から約2週間後にリリースされました。
Stable Diffusion 2.0には、NSFW画像の生成を防止するフィルターが強いため、これまで有効だったプロンプトが使えないといった問題が生じました。その結果、Stable Diffusion 2.0の評価は芳しくありませんでした。このことから、Stable Diffusion 2.1のリリースが早急に新しいバージョンがリリースされたと考えられます。
Stable Diffusion 2.1の公式リンク:
stability ai
https://stability.ai/blog/stablediffusion2-1-release7-dec-2022
hugging face
https://huggingface.co/stabilityai/stable-diffusion-2-1
Stable Diffusion Prompt Bookの公開リンク(現在停止中)
https://stability.ai/sdv2-prompt-book
Stable Diffusion 2.1の特徴
Stable Diffusion 2.1では、Stable Diffusion 2.0で採用したデータセットのフィルタ基準が見直され、データとトレーニングの量が増えました。改良版では、基本構造はStable Diffusion 2.0を維持しながら、基準を大規模に見直したデータセットで55,000ステップ、基準を若干修正したデータセットでさらに155,000ステップ調整を行いました。
手の描写が改良され、Stable Diffusion 2.0に比べてさまざまなアートスタイルで、適切な描写が可能となりました。
引用元:Stability AI
非標準の解像度でのレンダリング機能が追加されました。壮大な景色やワイドスクリーン画像など極端なアスペクト比でも画像を生成することができます。
引用元:Stability AI
Stable Diffusion 2.0からネガティブプロンプトが改良を受けました。ネガティブプロンプトは、指や手が不整合であったり、焦点が合っていない場合など、生成する画像からを避けたい要素を指定するものです。
例えば、DreamStudioでは「|<negative prompt>: -1.0」という形でプロンプトに追記します。例えば、指が多い画像を避けたいときは、「| disfigured, ugly:-1.0, too many fingers:-1.0」という形でネガティブプロンプトを指定します。このようにネガティブプロンプトを指定することで、指が多くなってしまう問題を解決できます。
Stable Diffusison 2.1 をWeb UIで利用する方法
(1)AUTOMATIC 1111でStable Diffusion 2.1を利用する
Stable Diffusion Web UIとして代表的なものがAUTOMATIC 1111です。AUTOMATIC1111版のStable Diffusion Web UIを導入することで、Stable Diffusion 2.1を利用することができます。
https://github.com/AUTOMATIC1111/stable-diffusion-webui
Google Colabからを利用することで簡単にAUTOMATIC 1111を使うことができます。
Stable Diffusion Web UIの導入方法は、こちらの記事で詳しく解説しています。
自由自在に画像生成ができるStable DiffusionのUIである「Stable Diffusion web ui」の始め方からそれぞれの機能やパラメータなど、より精度の高い画像生成を行うための使い方をご紹介します。 Stabl[…]
「Stable Diffusionを使用したいが、どのように始めれば良いのだろう...」「低スペックPCでもStable Diffusionを使用できるの?...」 そう思う方もいるのではないでしょうか。 実は、高性能なPCを持っ[…]
その他のWeb UIを利用する
その他のWeb UIでStable Diffusion 2.1を利用する例として、qunash氏のStable Diffusion v 2.1 web UIが挙げられます。
こちらのURLからColabのノートブックを開くことで利用できます。
https://colab.research.google.com/github/qunash/stable-diffusion-2-gui/blob/main/stable_diffusion_2_0.ipynb
このWeb UIは、text to imageだけでなく、image to image、部分的な修正(inpainting)、画像の拡大(upscaling)等も扱うことができます。
Stable Diffusion 2.1で実際に画像を生成する
リアルな女性の画像
プロンプト:
(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),(shiny skin),whole face,detailed skin,detailed face,detailed eyes,1girl,looking at viewer, idol,extremely beautiful face
ネガティブプロンプト:
(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples
Sampling method:Euler a
Sampling steps:20
Width:512
Height:512
Batch count:6
Batch size:1
CFG Scale:7
Seed:-1
Script:None
生成した画像
Stable Diffusion 1.5の場合:
Stable Diffusion 2.1の場合:
様々なタッチで女性の画像が生成されました。どちらも不整合な描写はなく、それぞれの魅力がありますが、「実写に近い描写かどうか」という観点で2つを比較すると、Stable Diffusion 2.1の方が肌の質感がリアルで目の描写も自然になっています。
アニメ風の風景
プロンプト:
beautiful, masterpiece,landscape,woods, green weeds,blue sky
ネガティブプロンプト:
peple,worst quality,low quality,painting,sketch,flat color,monochrome,grayscale
Sampling method:Euler a
Sampling steps:20
Width:512
Height:512
Batch count:6
Batch size:1
CFG Scale:7
Seed:-1
Script:None
生成した画像
Stable Diffusion 1.5の場合:
Stable Diffusion 2.1の場合:
1.5と2.1どちらの画像も色彩、光と影のバランス、構図など、プロンプトで指示した内容を高いレベルで描写できており、全体としてクオリティが高い画像が生成されました。
まとめ
今回PROMPTYでは、Stable Diffusion 2.1の特徴と利用方法を紹介しました。また、実際に画像を生成して旧バージョンのモデル(Stable Diffusion 1.5)との比較を行いました。
最新バージョンのStable Diffusionをチェックしておくことで、よりハイクオリティな画像生成に役立てることができます。
皆様もStabe Diffusion Web UIなどを活用して、Stable Diffusion 2.1で画像生成に挑戦してみてはいかがでしょうか。
~Stable Diffusionで素早く画像生成するには~
Stable Diffusionの画像生成スピードや画像サイズは、グラフィックボード(GPU)の性能によって大きく変わります。
このため、より効率的かつ快適な画像生成を望むユーザーにとって、最適なグラフィックボードの選択が重要となります。
推論処理やLoRAなどの追加学習処理といった大量の計算を効率よく行うためには、12GB以上のVRAMを持つグラフィックボードを選ぶことを強くおすすめします。
2GBや4GBのVRAMを持つグラフィックボードでは、学習プロセスや高解像度の画像生成に支障が出る可能性が高いです。
コスパを重視する方は、RTX 3060を選ぶと良いでしょう。
このグラフィックボードを使えば、Stable Diffusionの画像生成機能を最大限に活用することが可能となります。