【Stable Diffusonのコツ10選】高品質な画像を生成しよう!

「Stable Diffusionでなかなか思い通りの画像が生成できない」「Stable Diffusionで生成できる画像の質が低い」

このような悩みをお持ちの方は多いのではないでしょうか?

Stable Diffusionは生成できる画像の自由度が高い分、思った通りの高品質な画像を生成することは簡単ではなく、しっかりとコツを抑えて使う必要があります。

今回PROMPTYでは、Stable Diffusionを使って高品質な画像を生成するためのコツを10個ご紹介します!

Stable Diffusionのコツ10選

Stable Diffusionのコツとして主に下記の10個が挙げられます。

①優先順位の高いプロンプトは先に入力する
②トークン数は75以内に抑える
③括弧を使って重みづけをする
④ネガティブプロンプトを入力する
⑤生成したい画像に近いモデルを選ぶ
⑥生成したい画像に近いLoraを選ぶ
⑦画像から画像を生成できる「img2img」を使う
⑧「MultiDiffusion」や「Hires.fix」を使って高画質化する
⑨「ADetailer」を使って表情差分を作る
⑩他人のプロンプトを参考にする

それぞれ解説していきます。

①優先順位の高いプロンプトは先に入力する

Stable Diffusionにプロンプトを入力する時は、優先度の高いプロンプトから入力するようにしましょう。

なぜなら、Stable Diffusionは上から順にプロンプトを認識するため、先に入力されている言葉が優先的に扱われるからです。

同じプロンプトしか使っていなくても、順番が違えば生成される画像が変わることが多々あります。

基本的には、masterpiece, best quality, high qualityなどの品質を高めるプロンプトや、Japanese woman in her twenties, holding a coffee cup(20代の女性、コーヒーカップを持っている)のように全体の構図に関わる(何の画像を生成するのか示す)プロンプトを先に入力すると良いでしょう。

例①(パンケーキを食べる女性のプロンプト)

(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),(shiny skin),detailed skin,detailed face,detailed eyes,1girl,looking at viewer,Japanese idol,extremely beautiful face,girl eating pancakes,smile,at the cafe

例②(コーヒーカップを持つ女性のプロンプト)

Japanese woman in her 30s, holding a coffee cup, long straight black hair (high quality:1.2), black eyes, wearing a red blouse and black skirt, in deep thought, realistic, raw photo (high quality:1.4), 4K, high res (high quality:1.5), detailed skin, shiny skin (high quality:1.2), masterpiece, best quality (high quality:1.6)

②トークン数は75以内に抑える

Stable Diffusionの単語の数は、トークンという単位でカウントされます。

トークン数はプロンプト入力欄の左側に表示されています。(画像赤枠)

トークン数は75を超えて入力することもできますが、あまりおすすめしません。

Stable Diffusionは75トークンを超えて入力すると、

①~75トークンまで
②76~150トークン
③76~150トークン
・・・

といったように、75トークンごとのまとまりとして認識します。

75トークン目と76トークン目がつながっている場合、例えば、

75トークン目:eating 76トークン目:pancakes

となっている場合は思った通りの画像を生成することができなくってしまいます。

BREAK構文を使うといった対策方法はありますが、Stable Diffsuionの入力するプロンプトはなるべく75トークン以内にすると良いでしょう。

③括弧を使って重みづけをする

特定のプロンプトの影響力を高めたり弱めたりする方法として、プロンプトを括弧で囲って重みづけをするという方法があります。

例えば、ある単語Aをより強調したい場合は、”(A:1.3)”と記述することで、その単語が通常より1.3倍の強さで強調されます。

反対に、単語Bの影響を抑えたい場合は、”(B:0.7)”と記述して、その単語が通常の0.7倍の強さで表示されるようにします。

このように、括弧や数字を使って言葉の強弱を調節することは、特に重要な部分を強調したい場合や、逆に影響を弱めたい場合に有効です。

例:黒髪と指定していたのに白髪が出た時に、()を付けて強調する

masterpiece,high quality,1 girl,(black medium hair),blue eyes,t-shirt,skirt,choker,blush,from above,frontal face

Stable Diffusionで括弧を使って重みづけする方法については、こちらの記事で詳しく解説しています。

関連記事

Stable Diffusionで画像生成を行う際に、思った通りの画像が出力されないことはないでしょうか。 Stable Diffusionでは、プロンプトを入力する際にAIに特に注目させたい点の目印として括弧を用いることがあります[…]

④ネガティブプロンプトを入力する

ネガティブプロンプトとは、Stable Diffusionに描いてほしくない要素を指定するためのプロンプトです。

ネガティブプロンプトには大きく分けて「品質の低下を防ぐネガティブプロンプト」「不要な要素の排除するネガティブプロンプト」の2種類があります。

「品質の低下を防ぐネガティブプロンプト」は、low quality, worst quality, blurry(ぼやけた)など品質の低い画像の特徴を描かない要素として指定することで、生成される画像の質を高めることができます。

「不要な要素の排除するネガティブプロンプト」は、glasses(メガネ)や、text(文字)など、必要ない要素を指定することで、生成する画像に余計な要素が入り込まないようにすることができます。

ネガティブプロンプトは基本的にテンプレートを使いまわして、生成した画像に問題があれば付け足すようにするといいでしょう。

PROMPTYが作成したネガティブプロンプトのテンプレート↓↓↓

リアルな画像生成用ネガティブプロンプト

(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples

アニメ風画像生成用ネガティブプロンプト

(worst quality,low quality:2),(painting,sketch,flat color),(nsfw,nude,exposed skin,exposed chest,nipples,naked,bare navel),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes

⑤生成したい画像に近いモデルを選ぶ

Stable Diffusionのモデルとは、画像生成を行うためにAIが学習したモデルのことであり、モデルをダウンロードして、Stable Diffusionに導入することで、高品質な画像を簡単に生成することができます。

Stable Diffusionのモデルには、アジア系の顔が得意なモデルや欧米系の顔が得意なモデル、アニメ風が得意なモデルなど様々な種類があり、生成したい画像に合わせて選択すると良いでしょう。

アジア系の顔が得意なモデル(BRA)

アニメ風の画像が得意なモデル(MeinaMix)

Stable Diffsuionのモデルの探し方やダウンロード方法、おすすめのモデルについてはこちらの記事で詳しく解説しています。

関連記事

「Stable Diffusionのモデルは何を使えばいい?」「リアルな画像やアニメ風の画像を生成できるモデルを知りたい!」 このような疑問をお持ちの方は多いのではないでしょうか? Stable Diffusionのモデルとは[…]

⑥生成したい画像に近いLoraを選ぶ

Stable DiffusionのLoraとは、「Low-Rank Adaptation」の略で、低コストでAIの追加学習を行うことで好みの画像を簡単に出力できるようにするツールです。

たくさんの人によって作られたLoraが公開されており、それらを使えば、ラーメンを食べる女性(下記画像)のように普通のプロンプトではなかなか生成することができないポーズや、画風、背景などを簡単に生成することができます。

Stable DiffusionのLoraの探し方とダウンロード方法についてはこちらの記事で詳しく解説しています。

関連記事

「Stable DiffusionのLoRAって何?」「Stable DiffusionのLoRAをダウンロードして導入するにはどうしたらいい?」 このような疑問をお持ちの方は多いのではないでしょうか? Stable Diff[…]

⑦画像から画像を生成できる「img2img」を使う

Stable Diffusionの「img2img」とは、AIに対して参考画像を提供して、そこから新しい画像を生成できる機能です。

従来は「txt2img」といって、AIに対して文章形式で指令を与えて画像を生成する方法が一般的でした。

img2imgによって、文字のプロンプトでは具現化しきれない細かい要素を、初めから存在する写真や画像を活用することで表現できるようになりました。

参考画像↓↓↓

img2imgを使って参考画像から精製した画像↓↓↓

img2img機能の詳しい説明や使い方については、こちらの記事で詳しく解説しています。

関連記事

「Stable Diffusionのプロンプトを入力するときに、こんな感じの画像がいい!とイメージは浮かんでいるけど、言語化するのが難しい、、、」 このような悩みをお持ちの方は多いのではないでしょうか? 実は、Stable D[…]

⑧「MultiDiffusion」や「Hires.fix」を使って高画質化する

Stable Diffusionで高画質化(アップスケール)する方法として、①img2imgで使える拡張機能「MultiDiffusion」を使う②「Hires.fix」を使うの2つが挙げられます。

①「MultiDiffusion」は、img2imgを用いて画像を生成する際に、画像のレイアウトを維持したまま、より高精細にアップスケールできる機能です。

「MultiDiffusion」により、より高精細な(画素数が多い)画像を出力することができます。

元の画像 ↓↓↓

MultiDiffusionを使って高画質化(アップスケール)した画像 ↓↓↓

②「Hires.fix」は、サイズが大きい高解像度の画像生成をする時に、画像が崩れてしまうことを避けることを目的として設計されています。

※画像サイズが大きくても画質がいい=解像度が高い

「Hires.fix」を使わずに生成したサイズの大きな画像↓↓↓

「Hires.fix」を使って生成したサイズの大きな画像↓↓↓

「MultiDiffusion」や「Hires.fix」を使って高画質化する方法について、こちらの記事で詳しく解説しています。

関連記事

「Stable Diffusionで画像を生成したけど拡大すると画質が悪い、、、」「大きいサイズの画像を生成しようとすると構図が崩れてしまう、、、」 このような悩みをお持ちの方は多いのではないでしょうか? 今回PROMPTYで[…]

⑨「ADetailer」を使って表情差分を作る

「ADetailer」とはStable Diffusionで使うことのできる拡張機能で、生成した人物の顔の作りや表情を修正、補正することができます。

ADetailerを使えば、下記画像のように同じ人物の画像で表情差分(様々な表情)を作ることができます。

ADetailerの導入方法や、ADetailerを使って表情差分を作る方法について、こちらの記事で詳しく解説しています。

関連記事

Stable Diffusionを使っていて、「顔が崩れてしまった」「顔さえ良ければこの画像を使いたいのに」と言ったことはないでしょうか。 そんな時は「ADetailer」を使うことで、顔や表情のつくりを補正することができます。 […]

⑩他人のプロンプトを参考にする

Stable Diffsuionで1から自分でプロンプトを考えるには、それなりの労力がかかります。

そこでおすすめなのが、他人のプロンプトを参考にして、そこから自分なりにアレンジしていくという方法です。

PROMPTYでは下記記事のように、Stable Diffusionの様々なプロンプトをテンプレート形式で発信しているので、ぜひ参考にしてみてください。

関連記事

「Stable Diffusionでアニメ風のイラストを作りたいけどうまくできない」「Stable Diffusionでアニメ風イラストを作るためのテンプレートが欲しい」 このような悩みをお持ちの方は多いのではないでしょうか? […]

関連記事

「Stable Diffusionでリアルな画像を生成するにはどうしたらいい?」「Stable Diffusionでリアルな画像を生成する呪文(プロンプト)にはどのようなものがある?」 このような疑問をお持ちの方は多いのではないでし[…]

関連記事

[blogcard url=https://bocek.co.jp/media/stable-diffusion-formula/] 「画像生成AIで立ち絵を生成する方法がわからない...」「Stable Diffusionを使って[…]

まとめ

今回PROMPTYでは、Stable Diffusionを使って高品質な画像を生成するためのコツを10個ご紹介しました。

Stable Diffsuionは自由度高く画像が生成できる分、しっかりとコツを抑えて使う必要があります。

ぜひ今回ご紹介したコツをしっかりと身に着けて、Stable Diffusionで高品質な画像を生成してください!

~Stable Diffusionで素早く画像生成するには~

Stable Diffusionの画像生成スピードや画像サイズは、グラフィックボード(GPU)の性能によって大きく変わります。

このため、より効率的かつ快適な画像生成を望むユーザーにとって、最適なグラフィックボードの選択が重要となります。

推論処理やLoRAなどの追加学習処理といった大量の計算を効率よく行うためには、12GB以上のVRAMを持つグラフィックボードを選ぶことを強くおすすめします。

2GBや4GBのVRAMを持つグラフィックボードでは、学習プロセスや高解像度の画像生成に支障が出る可能性が高いです。

コスパを重視する方は、RTX 3060を選ぶと良いでしょう。

このグラフィックボードを使えば、Stable Diffusionの画像生成機能を最大限に活用することが可能となります。