【無料の画像生成AI】Stable Diffusionの使い方やモデルについて徹底解説

Stable Diffusionは、ユーザーがテキストを入力するだけで様々な画像を生成することが可能なAIモデルです。

今回PROMPTYでは、Stable Diffusionとは何か、Stable Diffusionの利用方法、Stable Diffusionを提供しているwebサービスとその利用方法、Stable Diffusionのプロンプトを考える時のポイント、Stable Diffusionの活用事例などについて解説します。

画像生成AIとは

画像生成AIは、画像やイラストを自動的に生み出す革新的な技術として注目を集めており、Stable Diffusionもそのうちの一つです。

具体的には、「森の中を歩くクマ」のような特定のテキストを与えると、それに応じた画像を自動的に生成します。

画像生成AIの技術は大量の時間やリソースが必要とされる「画像作成のコスト削減」に大いに貢献すると予想されています。

画像生成AIのツールが増え、普及してきたことで、誰もがこの技術を簡単に利用できるようになってきています。

関連記事

「最近聞くようになった画像生成AIについて詳しく知りたい」「画像生成AIにはどんなサービスがある?」 このような疑問をお持ちの方は多いのではないでしょうか。 今回PROMPTYでは、画像生成AIとは何か、画像生成AIブームにつ[…]

Stable Diffusionとは

Stable Diffusionは、ユーザーがテキストを入力するだけで様々な画像を生成することが可能なAIモデルです。

例えば、「金髪で青い目をした女性」や「公園で遊ぶ女の子」など生成したい画像の情報を、英語のテキストで入力するだけで、それに対応する画像を生成することができます。

Stable Diffusionは無料で利用可能で、そのコードは一般に公開されています。

Stable Diffusionは商用利用できる?

画像生成AI「Stable Diffuision」は、基本的に商用利用することができます。

しかし下記の3つ該当する場合は商用利用できない場合があるので注意しましょう。

①img2img(元画像から画像を生成する機能)で画像生成を行った場合
②商用利用を認めていないモデルを使用した場合
③商用利用を認めていないモデルをLoraで学習させた場合

この3つの詳しい内容についてはこちらの記事で詳しく解説しています。

関連記事

「Stable Diffusionの商用利用できるの?」「画像生成AIを商用利用する上で注意することは?」そう思う方もいるのではないでしょうか。 今回PROMPTYでは、Stable Diffusionの商用利用についてのライセンス[…]

Stable Diffusionの利用方法は2通り

Stable Diffusionの利用方法は、①Webで利用する②ローカル環境で利用するの2通りです。

基本的に、「とりあえずStable Diffusionを使って簡単に画像生成をしてみたい」という方は①Webで利用する方を、「これからStable Diffusionについて勉強をし長期的に使っていきたい」という方は②ローカル環境で利用する方をおすすめします。

それぞれ解説していきます。

①Webで利用する

Stable Diffusionは、Stable Diffusion公式が用意した「DreamStudio」や、「Hugging Face」など、複数のWebサービス上で利用することができ、インターネット接続があれば誰でも簡単にアクセスできます。

それぞれのWebサービスで生成される画像や設定には微妙な違いがあります。

まずは簡単にStable Diffusionを試してみたいという方は、Webサービス上からStable Diffusionを利用することをおすすめします。

②ローカル環境で利用する

「Stable Diffusion web UI」をパソコンにダウンロードすることでローカル環境でStable Diffusionを利用することができます。

このツールを使えば、画像の生成や各種機能の利用に制限がなく、自由に操作できます。

しかし、「Stable Diffusion web UI」を適切に動作させるためには、RAM16GB以上、VRAM12GB以上の性能のPCが求められます。

また、ソフトウェアのダウンロードと必要な設定には一定の時間がかかる上に、GitHubやコマンドプロンプトの使用といった、少し難しい操作が必要になります。

初心者の方にとっては少し難易度が高いかもしれません。

しかしながら、一度設定が完了すれば、画像の生成速度が早く、詳細な設定も可能となります。

このため、Stable Diffusionを使った画像生成をしっかりと学んでいきたいという方は、「Stable Diffusion web UI」をダウンロードすることをおすすめします。

「Stable Diffusion web UI」をローカル環境で利用する方法についてはこちらの記事で詳しく解説しています。

関連記事

自由自在に画像生成ができるStable DiffusionのUIである「Stable Diffusion web ui」の始め方からそれぞれの機能やパラメータなど、より精度の高い画像生成を行うための使い方をご紹介します。 Stabl[…]

関連記事

「Stable Diffusionを使用したいが、どのように始めれば良いのだろう...」「低スペックPCでもStable Diffusionを使用できるの?...」 そう思う方もいるのではないでしょうか。 実は、高性能なPCを持っ[…]

Stable Diffusionを提供している3つのwebサービス

Stable Diffusionを提供しているwebサービスとして、

①Hugging Face
②Dream Studio
③Mage.space

の3つが挙げられます。それぞれ解説していきます。

①Hugging Face

Hugging Faceは、AIや自然言語処理領域に特化した米国の企業が提供しているオープンソースコミュニティで、無数の自然言語処理データセットが提供されています。

「Stable Diffusion 2 Demo」はその中のデータセットの一つで、テキスト入力欄に指示文を入力し、実行ボタンを押すだけで手軽に画像生成を体験することが可能です。

そのシンプルさから、Stable Diffusionを試してみたいと考えている人々、または気軽に画像生成を試したい人々におすすめのサービスです。

使い方は下記の通りです。

(1)Hugging Face上の「Stable Diffusion 2 Demo」の画面を開きます。

(2)「Enter your prompt」に出力したい画像のプロンプトを入力し、「Enter a negative prompt」には、出力画像に含めたくない要素を入力して「Generate image」をクリックすると、画像が出力されます。

②Dream Studio

Dream Studioはその画像生成の速さが評価されており、Stable Diffusionを迅速に体験したいユーザーから高く評価されています。

またDream Studioは、画像のスタイル、縦横比、枚数を自由にカスタマイズできるという特徴があります。

Dream Studioを利用するためには、無料のアカウント作成が必要です。

初回には25クレジットが付与され、これにより最大で125枚の画像を生成できます。

ただし、プロンプトの複雑さや生成する画像の枚数など、いくつかの条件により消費するクレジット量は変動します。

クレジットが尽きた場合は、10ドル(約1,450円)で1,000クレジットを購入して利用を続けることができます。

基本的にはDream Studioの使用は無料ですが、使用回数には制限がある点にご注意ください。

使い方は下記の通りです。

(1)Dream Studioの画面を開きます。

(2)「Prompt」に出力したい画像のプロンプトを入力し、「Negative prompt」には、出力画像に含めたくない要素を入力します。また、「Style」からアニメ風や漫画風などスタイルを選ぶことができます。

(3)「Dream」をクリックすると画像を出力します。

③Mage.space

Mage.spaceは、Stable Diffusionを回数無制限、ログインなしかつ無料で提供しています。

画面中央のテキスト欄にプロンプトを入力するだけで、簡単に画像を作成することができます。

Mage.spaceでは有料プランも用意されています。

有料プランの「ベーシックプラン」は月額4ドル(約577円)で利用することができます。

このプランでは、複数のセッションを同時に実行することができ、効率的に多くの画像を作成することができます。

プロプランは月額15ドル(約2,170円)で利用することができます。

プロプランでは、バナー広告の非表示やさまざまな生成モデルの選択、GIF画像の生成、元画像から別の画像を作成するなどの機能も利用することができます。

Mage.spaceの使い方は下記の通りです。

(1)Mage.spaceの画面を開きます。

(2)中央のテキスト入力欄にプロンプトを入力し、一番右のオレンジ色の「→」をクリックすると画像を出力します。

(3)「toy poodle」と入力すると、下記のような画像が出力されました。

Stable Diffusionの「呪文(プロンプト)」とは

呪文(プロンプト)とは、AIモデルに対して入力する入力分や命令文のことです。

Stable Diffusionでは、画像を生成するための入力文、つまり「beautifulgirl eating pancakes」や「cat sleeping in the park」が呪文(プロンプト)になります。

要するに、Stable Diffusionにおける「呪文(プロンプト)」とは、Stable Diffusionに生成してほしい画像の内容を伝えるメッセージで、適切な画像が生成されるために大変重要になります。

Stable Diffusionのネガティブプロンプトとは

「ネガティブプロンプト」とは、AIによるイラスト制作において「描いてほしくない要素」を管理するためのものです。

この指示方法は、通常のプロンプトが示す「描きたい内容」の要求とは逆の、除外すべき要素を指示する方法です。(「low quality」「bad face」など)

ネガティブプロンプトの活用により、例えば4本指になったり、目が崩れたりといったような問題を避けて、意図したイラストをより明確に制作することが可能となります。(「missing finger」「crumbled eyes」)

ネガティブプロンプトについてはこちらの記事で詳しく解説しています。

Stable Diffusionのモデルとは

Stable Diffusionのモデルとは、AIが学習した画像生成を行うためのモデルのことであり、モデルダウンロードして、Stable Diffusionに導入することで、高品質な画像を簡単に生成することができます。

Stable Diffusionのモデルには、リアルなアジア系の顔が得意なモデルやリアルな欧米系の顔が得意なモデル、アニメ風が得意なモデルなど様々な種類があります。

自分が生成したい画像に近いモデルを導入することで、思い通りの画像生成を生成することができます。

アジア系の顔が得意なモデルが生成した画像

アニメ風が得意なモデルが生成した画像

Stable Diffusionのモデルの導入方法やおすすめのモデルについてはこちらの記事で詳しく解説しています。

関連記事

「Stable Diffusionのモデルは何を使えばいい?」「リアルな画像やアニメ風の画像を生成できるモデルを知りたい!」 このような疑問をお持ちの方は多いのではないでしょうか? Stable Diffusionのモデルとは[…]

Stable DiffusionのLoraとは

Stable DiffusionのLoraとは、「Low-Rank Adaptation」の略で、低コストでAIの追加学習を行い、好みの画像を簡単に出力できるようにするツールです。

Loraで画像を追加学習させることで、AIの生成結果を自分の思った通りのものにコントロールすることが可能となります。

例えばラーメンを食べる姿を学習させて作られたLoraを使うことで、ラーメンを食べる女性の画像を正確に出力することができます。

通常AIの追加学習には大量の計算能力と高性能なPC、そして長い時間を必要としますが、Loraを用いれば、それらを大幅に節約することができます。

Stable DiffusionのLoraのダウンロード方法や導入方法についてはこちらの記事で詳しく解説しています。

関連記事

「Stable DiffusionのLoRAって何?」「Stable DiffusionのLoRAをダウンロードして導入するにはどうしたらいい?」 このような疑問をお持ちの方は多いのではないでしょうか? Stable Diff[…]

Stable Diffusionでリアル・実写系の画像を生成するプロンプト

PROMPTYで作成したStable Diffusionでリアル・実写系の画像を生成するための呪文(プロンプト)のテンプレートは下記の通りです。

プロンプト:

(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),shiny skin,detailed skin,detailed face,detailed eyes,1girl,Japanese idol,beautiful face,~{表情,髪型,目の色,服装,背景など}

ネガティブプロンプト

(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples

このリアルな画像を生成するための呪文(プロンプト)のテンプレートを作成するときに下記の6つのカテゴリーのプロンプトを使用しています。

①画像を高品質にするプロンプト
②高画質・高解像度にするプロンプト
③画像のリアルさを高めるプロンプト
④画像の描写を繊細にするプロンプト
⑤画像の人物を美しくするプロンプト
⑥ネガティブプロンプト

プロンプトが持つ意味をしっかりと理解することで、自分なりにアレンジを加えたり、画像がうまく作れない時に画像にプロンプトに問題がないか確かめることができます。

Stable Diffusionでリアル・実写系の画像を生成するプロンプトについては、こちらの記事で詳しく解説しています。

関連記事

「Stable Diffusionでリアルな画像を生成するにはどうしたらいい?」「Stable Diffusionでリアルな画像を生成する呪文(プロンプト)にはどのようなものがある?」 このような疑問をお持ちの方は多いのではないでし[…]

Stable Diffusionでアニメ風のイラストを生成するプロンプト

PROMPTYで作成したStable Diffusionでアニメ風のイラストを生成する呪文(プロンプト)のテンプレートは下記の通りです。

プロンプト:

(masterpiece,best quality:1.4),super fine illustration,shiny skin,detailed skin,detailed face,detailed eyes,an extremely cute and beautiful girl,cowboy shot,beautiful face,~{表情,髪型,目の色,服装,背景など}

ネガティブプロンプト:

(worst quality,low quality:2),(painting,sketch,flat color),(nsfw,nude,exposed skin,exposed chest,nipples,naked,bare navel),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes

アニメプロンプトで重要になるのが、「super fine illustration」(超精細なイラストレーション)のように、アニメ風の質の高いイラストを出力してくれるようなプロンプトを入力することです。

また、モデルにもよりますがアニメ風が得意なモデルで画像を生成するときは露出が多くなることが多いので、それらを抑えるネガティブプロンプトが重要になります。

Stable Diffusionでアニメ風のイラストを生成するプロンプトについてはこちらの記事で詳しく解説しています。

関連記事

「Stable Diffusionでアニメ風のイラストを作りたいけどうまくできない」「Stable Diffusionでアニメ風イラストを作るためのテンプレートが欲しい」 このような悩みをお持ちの方は多いのではないでしょうか? […]

Stable Diffusionのプロンプトを考える時のポイント

Stable Diffusionのプロンプトを考える時のポイントとして、

①優先度の高いKWから入力する
②括弧や数字を使って単語の重みづけをする
③ネガティブプロンプトを指定する

の3つが挙げられます。それぞれ解説していきます。

①優先度の高いKWから入力する

Stable Diffusionでは、優先度の高い要素や重要なKWは、入力の最初や左側に配置することが推奨されます。

なぜなら、この配置はStable Diffusionによって優先的に認識・扱われるからです。

同じキーワード群を使っても、その順番を変えることで生成される画像や絵柄が変わる可能性があります。

また、思い通りに反映されない部分や全体に関わる要素、そしてメインの被写体(例えば動物や建物など)を最初に指定することを考えてみてください。

その後に、より詳細な構図やニュアンスを指定すると、より効果的な出力を得られるでしょう。

②括弧や数字を使って単語の重みづけをする

特定の言葉やフレーズの影響力を高める方法として、その部分を括弧で囲むという手法があります。

例えば、ある単語Aをより強調したい場合は、”(A:1.3)”と記述することで、その単語が通常より1.3倍の強さで強調されます。

反対に、単語Bの影響を抑えたい場合は、”(B:0.7)”と記述して、その単語が通常の0.7倍の強さで表示されるようにします。

このように、括弧や数字を使って言葉の強弱を調節することは、特に重要な部分を強調したい場合や、逆に影響を弱めたい場合に有効です。

関連記事

Stable Diffusionで画像生成を行う際に、思った通りの画像が出力されないことはないでしょうか。 Stable Diffusionでは、プロンプトを入力する際にAIに特に注目させたい点の目印として括弧を用いることがあります[…]

③ネガティブプロンプトを指定する

ネガティブプロンプトは、望ましくない成分を生成結果から排除するための有効な手段となります。

これは、一般的なプロンプトの指定範囲が広いため、低品質な要素が結果に混じってしまう可能性があるからです。

しかし、ネガティブプロンプトであらかじめこのような要素を含まないように指定することで、このような問題を上手く回避し、理想とする出力だけを得られます。

Stable Diffusionを活用するメリット

Stable Diffusionを活用するメリットとして、

①創造的なアイデアの視覚化
②リソース節約
③個別化
④無限のバリエーション
⑤迅速なフィードバック

の5つが挙げられます。それぞれ解説していきます。

①創造的なアイデアの視覚化

Stable Diffusionは、テキスト入力を元に画像を生成します。

これにより、具体的な視覚が存在しない抽象的なアイデアや複雑なコンセプトを視覚化することが可能になります。

デザインの初期段階でのコンセプト探索、アートプロジェクトでの新しい表現方法の探求、マーケティング戦略での視覚的コミュニケーションなど、多くの領域でこの機能は非常に有用です。

②リソース節約

Stable Diffusionは高品質の画像を生成する能力を持ち、その過程で専門的なグラフィックデザインスキルや時間を必要としません。

これにより、ビジネスはコストと時間の両方を節約できます。

これらの節約されたリソースは、より重要な業務への投資や新たなプロジェクトへの割り当てなど、他の価値ある活動に使用することができます。

③個別化

Stable Diffusionは、ユーザーが指定したテキストに基づいて画像を生成します。

これにより、ユーザーの個別のニーズや好みに合わせた画像を生成することが可能です。

これは、特定の顧客に対するパーソナライズされたマーケティングキャンペーンや、個々のユーザー体験の向上に大いに役立ちます。

④無限のバリエーション

Stable Diffusionは、指定されたパラメータに基づいて無数の画像バリエーションを生成する能力を持っています。

これにより、ユーザーは新しいアイデアを自由に追求したり、自分だけの視覚的スタイルを探求したりすることができます。

これは、既存の視覚的表現から逸脱し、独自のアイデンティティを確立するのに役立ちます。

⑤迅速なフィードバック

AIモデルは即座に画像を生成するため、ユーザーはアイデアを迅速に試すことができ、すぐにフィードバックを得ることができます。

この即時性は、製品開発の早期段階での迅速なイテレーションと改善を可能にします。

全体的な製品開発プロセスを加速し、時間とコストを節約するだけでなく、ユーザーがアイデアを最適化し、市場への投入を早めることを可能にします。

Stable Diffusionを活用する時の注意点

Stable Diffusionを活用する時の注意点として、

①データのプライバシーとセキュリティ
②品質と一貫性
③倫理的な使用

の3つが挙げられます。それぞれ解説していきます。

①データのプライバシーとセキュリティ

AIモデルは、トレーニングに使用されたデータの特性を反映します。

そのため、個人的または機密性の高い情報をモデルに入力する際には注意が必要です。

②品質と一貫性

Stable Diffusionは、指定されたテキストに基づいて画像を生成しますが、その結果は常に期待通りであるとは限りません。

一貫性と品質の保証は、AI生成ツールの一般的な課題であり、Stable Diffusionも例外ではありません。

同じプロンプトでも全く違う画像が生成されたり、指が4本になったりなどがたまにあります。

③倫理的な使用

AIツールの使用は、適切な倫理的指針に従う必要があります。

例えば、法律や人権、著作権に抵触するコンテンツや個人情報を広めるコンテンツなどを作成することは利用規約によって禁止されています。

Stable Diffusionで素早く画像生成するには

Stable Diffusionの画像生成スピードや画像サイズは、グラフィックボード(GPU)の性能によって大きく変わります。

このため、より効率的かつ快適な画像生成を望むユーザーにとって、最適なグラフィックボードの選択が重要となります。

推論処理やLoRAなどの追加学習処理といった大量の計算を効率よく行うためには、12GB以上のVRAMを持つグラフィックボードを選ぶことを強くおすすめします。

2GBや4GBのVRAMを持つグラフィックボードでは、学習プロセスや高解像度の画像生成に支障が出る可能性が高いです。

コスパを重視する方は、RTX 3060を選ぶと良いでしょう。

このグラフィックボードを使えば、Stable Diffusionの画像生成機能を最大限に活用することが可能となります。

まとめ

今回PROMPTYでは、Stable Diffusionとは何か、Stable Diffusionの利用方法、Stable Diffusionを提供しているwebサービスとその利用方法、Stable Diffusionのプロンプトを考える時のポイント、Stable Diffusionの活用事例などについて解説しました。

Stable Diffusionは自由度が高いですが、その反面、画像を作成することが難しいです。

PROMPTYでは、Stable Diffusionで使えるプロンプトをたくさんご紹介しているので、是非参考にしてみてください!