Stable Diffusion XL 1.0がリリース!特徴と利用方法をご紹介

「Stable Diffusionの最新モデルが知りたい…」「Stable Diffusion XL って何?」そう思う方もいるのではないでしょうか。

これまで研究目的で公開されていたStable Diffusion XLアップデートされ、7月27日に正式にリリースされました。

今回PROMPTYでは、新たにリリースされた「Stable Diffusion XL 1.0」の特徴とその利用方法を詳しくご紹介します。

Stability AIがStable Diffusion XL(SDXL) 1.0をリリース

7月27日、Stable Diffusionの開発元であるStability AIは「Stable Diffusion XL 1.0(SDXL 1.0)」のモデルをリリースしました。SDXL 1.0は、2023年6月に研究者向けに公開された「SDXL 0.9」を更に進化させたもので、既にモデルデータは公開されています。さらにSDXL 1.0を簡単に試すことができるウェブサービスが利用可能です。

これまで、Stable Diffsuionで生成される画像のデフォルトの解像度は512×512でしたが、SDXL 1.0で出力可能な解像度は1,024×1,024となりました。また、前バージョンと比較してコントラスト、照明、影が改善され、より鮮やかな描写が可能となっています。

また、生成に必要なプロンプトにおいては、「masterpiece」のような修飾語が不要になり、単語の違いによる細かな概念の違いを理解することも可能になりました。

SDXL1.0はカスタムデータへの微調整も容易にでき、カスタムLoRAやチェックポイントの生成について、データの調整の必要性を軽減できるようになりました。これらの機能は現在ベータ版プレビューとなっているため、今後のアップデートに期待できます。

AmazonのAIサービス「Amazon Bedrock」で、SDXL 1.0のAPIが使用可能になると発表されています。

Stable Diffusion XLとは?

Stable Diffusion XL(SDXL)は、画像生成AI「Stable Diffusion」のモデルの一つで、Stability AI社が公開する公式のモデルです。

2023年6月23日に発表された最新バージョンSDXL 0.9は、35億のパラメータを持つ単一モデルと、58億のパラメータを持つ複合モデルから成り立っており、これによりオープンソースモデル中でもトップレベルのパラメータ数を有することになります。

引用元:arXiv

SDXLは単一のモデルではなく、二段階のモデルを採用しています。一つ目のモデルは「画像の大部分」を取得するように訓練され、二つ目のモデルは「一つ目のモデルの出力を改良し、テクスチャーや細部を修正するモデル」となっています。これらのモデルは別々に訓練可能であり、その結果、学習効率が上がっています。

引用元:arXiv

次の画像は、Stable Diffusionの各モデルがユーザーにどの程度評価されたかを示したグラフです。縦軸の値が大きいほどユーザーが好みの画像を生成できたことになります。この結果を見ると、SDXLのパフォーマンスは既存のStable Diffusion 1.5や2.1を上回っており、ユーザーの好みに合致した画像を生成する能力が高いことがわかります。

引用元:github

SDXLの詳しい技術は、現在公開されている技術レポートをご覧ください。

ClipdropでSDXL1.0を試す

Clipdropで画像を生成する方法

Stability AIの子会社であるInit ML社のWebサービス「ClipDrop」にアクセスすることでSDXL1.0での画像生成を試すことができます。

ClipDropにアクセスします。トップページに”STABLE DIFFUSION XL”と表示されています。

“Enter your prompt”にプロンプトを入力します。SDXL1.0では、簡単なプロンプトで高画質の画像を生成することができます。今回は、”1girl,holding coffee cup”と入力します。

また、”Generate”の左のメニューをクリックすると、スタイル、アスペクト比、ネガティブプロンプトを指定できます。SDXL1.0では様々なスタイルを選択することができます。今回は”Photographic”を選択します。

“Generate”をクリックしてしばらく待つと、4枚の画像が生成されます。

プロンプト通り、コーヒーカップを持った女性の画像が生成されました。比較的実写に近い画像が生成されています。右上の”Download”から画像を保存することができます。

Styleによる生成画像の違い

SDXL 1.0ではスタイルを選択することで、様々なテーマの画像を生成することができます。ここでは、2種類のプロンプトでスタイルによる生成画像の違いを比較します。

(1)プロンプト”1girl,holding coffee cup”

様々なタッチでコーヒーカップを持つ女性の画像が生成されました。この3つからもSDXL1.0は幅広いスタイルで画像を生成できることが分かります。

(2)プロンプト”dog,samurai”

非常にシンプルなプロンプトでしたが、プロンプトに沿って刀や鎧を携えた犬の画像が生成されました。こちらも漫画風や3Dモデルまで幅広いスタイルで画像を生成できることが分かります。

まとめ

今回PROMPTYでは、最新の「Stable Diffusion XL(SDXL) 1.0」の特徴と利用方法を紹介しました。

SDXL1.0では、これまでよりも高解像疎な1024×1024で画像を生成できます。また、二段階の学習モデルを採用することで、学習効率が上がっています。

SDXL1.0はClipdropで簡単に利用することができます。単純なプロンプトかつ様々なスタイルで、ハイクオリティな画像を生成することができます。

今回の解説を参考に、皆さまもStable Diffusionの最新モデルであるSDXL1.0を使って画像生成を試してみてはいかがでしょうか。

~Stable Diffusionで素早く画像生成するには~

Stable Diffusionの画像生成スピードや画像サイズは、グラフィックボード(GPU)の性能によって大きく変わります。

このため、より効率的かつ快適な画像生成を望むユーザーにとって、最適なグラフィックボードの選択が重要となります。

推論処理やLoRAなどの追加学習処理といった大量の計算を効率よく行うためには、12GB以上のVRAMを持つグラフィックボードを選ぶことを強くおすすめします。

2GBや4GBのVRAMを持つグラフィックボードでは、学習プロセスや高解像度の画像生成に支障が出る可能性が高いです。

コスパを重視する方は、RTX 3060を選ぶと良いでしょう。

このグラフィックボードを使えば、Stable Diffusionの画像生成機能を最大限に活用することが可能となります。