「Stable Diffusionでリアルな画像を生成するにはどうしたらいい?」「Stable Diffusionでリアルな画像を生成する呪文(プロンプト)にはどのようなものがある?」
このような疑問をお持ちの方は多いのではないでしょうか?
今回PROMPTYではそのような方のために、Stable Diffusionのリアル・実写系が得意なモデル、Stable Diffusionでリアル・実写系の画像を生成するための呪文、実際にStable Diffusionで生成したリアル・実写系の画像、Stable Diffusionでリアル・実写系の画像を生成するときのおすすめの方法について解説します。
Stable Diffusionのリアル・実写系が得意なモデル
Stable Diffusionのモデルとは、AIが学習した画像生成を行うためのモデルのことであり、モデルダウンロードして、Stable Diffusionに導入することで、高品質な画像を簡単に生成することができます。
Stable Diffusionのリアル・実写系が得意なモデルとしておすすめするのは下記の5つです。
①Chilloutmix
②Realistic Vision
③BRA(Beautiful Realistic Asians)
④OrangeChillMix
⑤Deliberate
Stable Diffusionのリアル系が得意なモデルについて、詳しくはこちらの記事で解説しています。
「Stable Diffusionのモデルは何を使えばいい?」「リアルな画像やアニメ風の画像を生成できるモデルを知りたい!」 このような疑問をお持ちの方は多いのではないでしょうか? Stable Diffusionのモデルとは[…]
Stable Diffusionでリアル・実写系の画像を生成するための呪文解説
PROMPTYで作成したStable Diffusionでリアル・実写系の画像を生成するための呪文(プロンプト)のテンプレートは下記の通りです。
プロンプト:
(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),shiny skin,detailed skin,detailed face,detailed eyes,1girl,Japanese idol,beautiful face,~{表情,髪型,目の色,服装,背景など}
ネガティブプロンプト
(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples
このリアルな画像を生成するための呪文(プロンプト)のテンプレートを作成するときに下記の6つのカテゴリーのプロンプトを使用しています。
①画像を高品質にするプロンプト
②高画質・高解像度にするプロンプト
③画像のリアルさを高めるプロンプト
④画像の描写を繊細にするプロンプト
⑤画像の人物を美しくするプロンプト
⑥ネガティブプロンプト
プロンプトが持つ意味をしっかりと理解することで、自分なりにアレンジを加えたり、画像がうまく作れない時に画像にプロンプトに問題がないか確かめることができます。
プロンプトが持つ意味をしっかりと理解しましょう!
①画像を高品質にするプロンプト
プロンプト | 意味 |
---|---|
masterpiece | 傑作 |
best quality | 最高品質 |
high quality | 高品質 |
exquisite | この上なく素晴らしい |
beautiful | 美しい |
「masterpiece」は傑作という意味の言葉でよく使用するので覚えておきましょう!
今回ご紹介したプロンプトのテンプレートのように、(masterpiece,best quality:1.4)と括弧を使って品質系のプロンプトをまとめて強調する表現はよく使われます
括弧を使って強調する表現についてはこちらの記事で詳しく解説しています。
Stable Diffusionで画像生成を行う際に、思った通りの画像が出力されないことはないでしょうか。 Stable Diffusionでは、プロンプトを入力する際にAIに特に注目させたい点の目印として括弧を用いることがあります[…]
②高画質・高解像度にするプロンプト
プロンプト | 意味 |
---|---|
4k | 4K画像を意識した画質 |
8k | 8K画像を意識した画質 |
16k | 16K画像を意識した画質 |
high res | 高解像度 |
absurdres | とても高解像度 |
「8k」と「high res」は高い画質/解像度を表す言葉でよく使用されるので、覚えておきましょう!
③画像のリアルさを高めるプロンプト
プロンプト | 意味 |
---|---|
realistic | 写真・リアルな雰囲気 |
raw photo | |
real person | |
portrait photography | |
photo realistic |
生写真を表す「raw photo」と、リアルな写真を表す「photo realistic」はよく使われるので覚えておきましょう!
④画像の描写を繊細にするプロンプト
プロンプト | 意味 |
---|---|
shiny skin | 光沢のある肌 |
detailed skin | 繊細な肌 |
detailed face | 細部まで描写された顔 |
detailed eyes | 細部まで描写された顔 |
detailed background | 細部まで描写された背景 |
「shiny skin」はリアルな光沢感を出してくれて、イラストと差別化しやすいプロンプトなので筆者は毎回使用しています。
「detailed~顔のパーツ」でそれぞれのパーツを細かく描写してくれます。
「extremely detailed skin」のように副使を使ってさらにクオリティーを上げようとするプロンプトもよく使われます。
⑤画像の人物を美しくするプロンプト
プロンプト | 意味 |
---|---|
stunning face | 素晴らしい顔 |
Japanese idol(actress) | 日本人アイドル(女優) |
Korean idol(actress) | 韓国人アイドル(女優) |
beautiful | 美しい |
cute | 可愛い |
flat chest | 平たい胸(胸が大きくなりすぎるとき使う) |
単に「Japanese woman」とするよりも、「Japanese idol(actress)」とした方が美しい顔の女性の画像が生成されやすいようで。
胸がかなり大きく書かれる場合が多いので、「flat chest」を頻繁に使う方もいます。
⑥ネガティブプロンプト
今回使用した「品質の低下を防ぐ」「特定の画風を避ける」「作画崩壊や奇形を避ける」のカテゴリーに分類されるネガティブプロンプトを表形式にまとめました。
その他のカテゴリーのネガティブプロンプトについてはこちらの記事で解説します。
「ネガティブプロンプト」とは、Stable Diffusionなどの画像生成AIによるイラスト制作において「描いてほしくない要素」を管理するためのものです。 今回PROMPTYでは、ネガティブプロンプトとは何か、ネガティブプロンプト[…]
品質の低下を防ぐネガティブプロンプト
ネガティブプロンプト | 意味 |
---|---|
worst quality | 最悪の品質 |
low quality | 品質が低い |
out of focus | ピントが合っていない |
ugly | 醜い |
error | エラー |
JPEG artifacts | JPEGの圧縮による劣化 |
low resolution | 低解像度 |
blurry | ぼやけた |
bokeh | ボケた |
「worst quality」と「low quality」は高品質を表す「masterpiece」「best quality」と重ねて使うことで、より品質の高い画像を生成することができます。
また、「masterpiece」「best quality」と同様、(worst quality,low quality:2)とまとめて強調する表現がよく使われます。
特定の画風を避けるネガティブプロンプト
ネガティブプロンプト | 意味 |
---|---|
painting | 絵画のような表現 |
sketch | スケッチ風 |
watercolor | 水彩画 |
2D | 2次元 |
painting | 影をつけない平坦な色塗り |
monochrome | 白黒画像を避ける |
grayscale |
リアル・実写系の画像を生成する場合は、特に「painting」「sketch」「painting」といったイラストのような画風を避けるプロンプトを入力する必要があります。
作画崩壊や奇形を避けるネガティブプロンプト
ネガティブプロンプト | 意味 |
---|---|
bad anatomy | 人体の形状・構造が不正確 |
long_neck | 異常に長い首 |
long_body | 異常に長い身体 |
longbody | 長身の体型 |
deformed mutated disfigured | 変形している |
missing arms | 腕が欠けている |
extra_arms | 追加の腕がある |
mutated hands | 手が変形している |
extra_legs | 追加の足がある |
bad hands | 手の形が不自然または不正確 |
poorly_drawn_hands | 手が下手に描かれている |
malformed_hands | 手が奇形 |
missing_limb | 四肢が欠けている |
floating_limbs | 空中に浮いている四肢 |
disconnected_limbs | 繋がっていない四肢 |
extra_fingers | 追加の指がある |
bad fingers | 最悪の状態の手 |
liquid fingers | 溶けているような指 |
poorly drawn fingers | 指の描写が下手 |
missing fingers | 指が欠けている |
extra digit | 通常より多い数の指がある |
fewer digits | 通常より少ない数の指がある |
ugly face | 容姿が醜い顔 |
deformed eyes | 目が歪んでいる |
partial face | 半分の顔 |
partial head | 半分の頭 |
bad face | 最悪の状態の顔 |
inaccurate limb | 四肢の形状が不正確 |
cropped | 切り取られている |
too much muscle | 筋肉の付きすぎ |
Stable Diffusionで画像を生成していると、指が四本になったり、目が崩れてしまうことがよくあります。
これらのプロンプトを使うことで、こういった作画の崩壊を減らすことができます。
Stable Diffusionでリアル・実写系の画像を生成してみた!
ご紹介したプロンプトのテンプレートを使って、Stable Diffusionでリアル・実写系の画像を生成してみました。
条件は以下の通りです。(これより下の画像はすべてこの条件で生成しています)
モデル:Brav5
Sampling method:DPM++ 2M Karras
Sampling steps:30
Batch count:1
Batch size:1
CFG Scale:9
Script:None
①パンケーキを食べる女性
プロンプト:
(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),(shiny skin),detailed skin,detailed face,detailed eyes,1girl,looking at viewer,Japanese idol,extremely beautiful face,girl eating pancakes,smile,at the cafe
ネガティブプロンプト:
(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples
「looking at viewer」というプロンプトを加えることで、こちらを見ているような画像を生成することができます。
②ランニングをする女性
プロンプト:
(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),(shiny skin),detailed skin,detailed face,detailed eyes,1girl,upper body,Japanese idol,extremely beautiful face,girl running,wearing sportswear and sports cap,outdoor
ネガティブプロンプト:
(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples
Stable Diffusionで人物の画像を出力する際に、顔によりすぎてしまうことがあります。
「full body」というプロンプトを付け加えると全身を描写してくれますが、構図が崩れやすくなってしまいます。
「upper body」という上半身を描写してくれるプロンプトを入力することをおすすめします。
③ビールを飲む女性
プロンプト:
(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),(shiny skin),detailed skin,detailed face,detailed eyes,1girl,upper body,Japanese idol,extremely beautiful face,brown hair,a girl holding beer mug,at the tavern
ネガティブプロンプト:
(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples
ビールジョッキを両手に持ってしまう画像も出力されてしまったので、「holding beer mug with right hand」のように持つ手を指定してもよいでしょう。
④スノボをする女性
プロンプト:
(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),(shiny skin),detailed skin,detailed face,detailed eyes,1girl,upper body,Japanese idol,extremely beautiful face,brown hair,a girl skiing,wearing a pink snow helmet and goggles,at the ski slopes with snow,smile
ネガティブプロンプト:
(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples
ゴーグルに映り込む太陽の光まで描写されていて、かなりクオリティが高いなと思いました。
⑤オフィスで働く女性
プロンプト:
(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),(shiny skin),detailed skin,detailed face,detailed eyes,1girl,upper body,Japanese idol,extremely beautiful face,black hair,a woman sitting at a table with a laptop computer,at the office
ネガティブプロンプト:
(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples
かなりカジュアルな恰好なので、「wearing a suit」や「office casual clothing」などのプロンプトを足してみてもいいかもしれませんね!
Stable Diffusionでリアル・実写系の画像を生成するときのおすすめの方法
Stable Diffusionでリアル・実写系の画像を生成したいけど、イメージが浮かばなかったり、服装や背景を考えることがめんどくさいという方は多いのではないでしょうか?
そんな方にお勧めの方法が、①フリー画像を用意する②フリー画像をプロンプト化する③プロンプトを完成させるという方法です。
詳しく解説していきます。
①フリー画像を用意する
pixabayなどのフリー画像サイトで、生成したい画像の元となるような画像を用意します。
(1)pixabayを開き、生成したい画像に近い画像を検索します。今回はコーヒーを飲む女性の画像を生成したいので、「woman drinking coffee」と検索します。
(2)気に入った画像があったらダウンロードします。
②フリー画像をプロンプト化する
次にダウンロードした画像をプロンプト化します。
(1)Stable Diffusionを起動し、「img2img」タブを開いて、ダウンロードした画像をアップロードします。
(2)「Interrogate CLIP」をクリックすると、画像のプロンプト化が始まります。
(3)すると画像をプロンプトにしたものが生成されます。(画像赤枠)
③プロンプトを完成させる
画像をもとに生成したプロンプトを活用してプロンプトを完成させましょう。
今回は、「a woman drinking from a cup in front of a carnival ride at night time with lights in the background」の箇所をテンプレートに貼り付けました。
入力したプロンプト:
(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),(shiny skin),detailed skin,detailed face,detailed eyes,1girl,Japanese idol,extremely beautiful face,a woman drinking from a cup in front of a carnival ride at night time with lights in the background
ネガティブプロンプト:
(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples
生成結果 ↓
なかなか参考にした画像に近い画像が生成できました!
単に、「コーヒーを飲む女性の画像」や「ランニングをする女性の画像」を生成したいだけで、服装や構図など考えるのはめんどくさい!という方にはおすすめの方法です。
まとめ
今回PROMPTYではそのような方のために、Stable Diffusionのリアル・実写系が得意なモデル、Stable Diffusionでリアル・実写系の画像を生成するための呪文、実際にStable Diffusionで生成したリアル・実写系の画像、Stable Diffusionでリアル・実写系の画像を生成するときのおすすめの方法にについて解説しました。
プロンプトの意味を理解することで、自分の好みの画像を生成できるようになります。
ぜひ今回の記事を参考にしてみてください!
~Stable Diffusionで素早く画像生成するには~
Stable Diffusionの画像生成スピードや画像サイズは、グラフィックボード(GPU)の性能によって大きく変わります。
このため、より効率的かつ快適な画像生成を望むユーザーにとって、最適なグラフィックボードの選択が重要となります。
推論処理やLoRAなどの追加学習処理といった大量の計算を効率よく行うためには、12GB以上のVRAMを持つグラフィックボードを選ぶことを強くおすすめします。
2GBや4GBのVRAMを持つグラフィックボードでは、学習プロセスや高解像度の画像生成に支障が出る可能性が高いです。
コスパを重視する方は、RTX 3060を選ぶと良いでしょう。
このグラフィックボードを使えば、Stable Diffusionの画像生成機能を最大限に活用することが可能となります。