Stable Diffusionでリアル・実写系の画像を生成するための呪文(プロンプト)を解説!

「Stable Diffusionでリアルな画像を生成するにはどうしたらいい?」「Stable Diffusionでリアルな画像を生成する呪文(プロンプト)にはどのようなものがある?」

このような疑問をお持ちの方は多いのではないでしょうか?

今回PROMPTYではそのような方のために、Stable Diffusionのリアル・実写系が得意なモデル、Stable Diffusionでリアル・実写系の画像を生成するための呪文、実際にStable Diffusionで生成したリアル・実写系の画像、Stable Diffusionでリアル・実写系の画像を生成するときのおすすめの方法について解説します。

Stable Diffusionのリアル・実写系が得意なモデル

Stable Diffusionのモデルとは、AIが学習した画像生成を行うためのモデルのことであり、モデルダウンロードして、Stable Diffusionに導入することで、高品質な画像を簡単に生成することができます。

Stable Diffusionのリアル・実写系が得意なモデルとしておすすめするのは下記の5つです。

①Chilloutmix
②Realistic Vision
③BRA(Beautiful Realistic Asians)
④OrangeChillMix
⑤Deliberate

Stable Diffusionのリアル系が得意なモデルについて、詳しくはこちらの記事で解説しています。

関連記事

「Stable Diffusionのモデルは何を使えばいい?」「リアルな画像やアニメ風の画像を生成できるモデルを知りたい!」 このような疑問をお持ちの方は多いのではないでしょうか? Stable Diffusionのモデルとは[…]

Stable Diffusionでリアル・実写系の画像を生成するための呪文解説

PROMPTYで作成したStable Diffusionでリアル・実写系の画像を生成するための呪文(プロンプト)のテンプレートは下記の通りです。

プロンプト:

(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),shiny skin,detailed skin,detailed face,detailed eyes,1girl,Japanese idol,beautiful face,~{表情,髪型,目の色,服装,背景など}

ネガティブプロンプト

(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples

このリアルな画像を生成するための呪文(プロンプト)のテンプレートを作成するときに下記の6つのカテゴリーのプロンプトを使用しています。

①画像を高品質にするプロンプト
②高画質・高解像度にするプロンプト
③画像のリアルさを高めるプロンプト
④画像の描写を繊細にするプロンプト
⑤画像の人物を美しくするプロンプト
⑥ネガティブプロンプト

プロンプトが持つ意味をしっかりと理解することで、自分なりにアレンジを加えたり、画像がうまく作れない時に画像にプロンプトに問題がないか確かめることができます。

プロンプトが持つ意味をしっかりと理解しましょう!

①画像を高品質にするプロンプト

プロンプト意味
masterpiece傑作
best quality最高品質
high quality高品質
exquisiteこの上なく素晴らしい
beautiful美しい

「masterpiece」は傑作という意味の言葉でよく使用するので覚えておきましょう!

今回ご紹介したプロンプトのテンプレートのように、(masterpiece,best quality:1.4)と括弧を使って品質系のプロンプトをまとめて強調する表現はよく使われます

括弧を使って強調する表現についてはこちらの記事で詳しく解説しています。

関連記事

Stable Diffusionで画像生成を行う際に、思った通りの画像が出力されないことはないでしょうか。 Stable Diffusionでは、プロンプトを入力する際にAIに特に注目させたい点の目印として括弧を用いることがあります[…]

②高画質・高解像度にするプロンプト

プロンプト意味
4k4K画像を意識した画質
8k8K画像を意識した画質
16k16K画像を意識した画質
high res高解像度
absurdresとても高解像度

「8k」と「high res」は高い画質/解像度を表す言葉でよく使用されるので、覚えておきましょう!

③画像のリアルさを高めるプロンプト

プロンプト意味
realistic写真・リアルな雰囲気
raw photo
real person
portrait photography
photo realistic

生写真を表す「raw photo」と、リアルな写真を表す「photo realistic」はよく使われるので覚えておきましょう!

④画像の描写を繊細にするプロンプト

プロンプト意味
shiny skin光沢のある肌
detailed skin繊細な肌
detailed face細部まで描写された顔
detailed eyes細部まで描写された顔
detailed background細部まで描写された背景

「shiny skin」はリアルな光沢感を出してくれて、イラストと差別化しやすいプロンプトなので筆者は毎回使用しています。

「detailed~顔のパーツ」でそれぞれのパーツを細かく描写してくれます。

「extremely detailed skin」のように副使を使ってさらにクオリティーを上げようとするプロンプトもよく使われます。

⑤画像の人物を美しくするプロンプト

プロンプト意味
stunning face素晴らしい顔
Japanese idol(actress)日本人アイドル(女優)
Korean idol(actress)韓国人アイドル(女優)
beautiful美しい
cute可愛い
flat chest平たい胸(胸が大きくなりすぎるとき使う)

単に「Japanese woman」とするよりも、「Japanese idol(actress)」とした方が美しい顔の女性の画像が生成されやすいようで。

胸がかなり大きく書かれる場合が多いので、「flat chest」を頻繁に使う方もいます。

⑥ネガティブプロンプト

今回使用した「品質の低下を防ぐ」「特定の画風を避ける」「作画崩壊や奇形を避ける」のカテゴリーに分類されるネガティブプロンプトを表形式にまとめました。

その他のカテゴリーのネガティブプロンプトについてはこちらの記事で解説します。

関連記事

「ネガティブプロンプト」とは、Stable Diffusionなどの画像生成AIによるイラスト制作において「描いてほしくない要素」を管理するためのものです。 今回PROMPTYでは、ネガティブプロンプトとは何か、ネガティブプロンプト[…]

品質の低下を防ぐネガティブプロンプト

ネガティブプロンプト意味
worst quality最悪の品質
low quality品質が低い
out of focusピントが合っていない
ugly醜い
errorエラー
JPEG artifactsJPEGの圧縮による劣化
low resolution低解像度
blurryぼやけた
bokehボケた

「worst quality」と「low quality」は高品質を表す「masterpiece」「best quality」と重ねて使うことで、より品質の高い画像を生成することができます。

また、「masterpiece」「best quality」と同様、(worst quality,low quality:2)とまとめて強調する表現がよく使われます。

特定の画風を避けるネガティブプロンプト

ネガティブプロンプト意味
painting絵画のような表現
sketchスケッチ風
watercolor水彩画
2D2次元
painting影をつけない平坦な色塗り
monochrome白黒画像を避ける
grayscale

リアル・実写系の画像を生成する場合は、特に「painting」「sketch」「painting」といったイラストのような画風を避けるプロンプトを入力する必要があります。

作画崩壊や奇形を避けるネガティブプロンプト

ネガティブプロンプト意味
bad anatomy人体の形状・構造が不正確
long_neck異常に長い首
long_body異常に長い身体
longbody長身の体型
deformed mutated disfigured変形している
missing arms腕が欠けている
extra_arms追加の腕がある
mutated hands手が変形している
extra_legs追加の足がある
bad hands手の形が不自然または不正確
poorly_drawn_hands手が下手に描かれている
malformed_hands手が奇形
missing_limb四肢が欠けている
floating_limbs空中に浮いている四肢
disconnected_limbs繋がっていない四肢
extra_fingers追加の指がある
bad fingers最悪の状態の手
liquid fingers溶けているような指
poorly drawn fingers指の描写が下手
missing fingers指が欠けている
extra digit通常より多い数の指がある
fewer digits通常より少ない数の指がある
ugly face容姿が醜い顔
deformed eyes目が歪んでいる
partial face半分の顔
partial head半分の頭
bad face最悪の状態の顔
inaccurate limb四肢の形状が不正確
cropped切り取られている
too much muscle筋肉の付きすぎ

Stable Diffusionで画像を生成していると、指が四本になったり、目が崩れてしまうことがよくあります。

これらのプロンプトを使うことで、こういった作画の崩壊を減らすことができます。

Stable Diffusionでリアル・実写系の画像を生成してみた!

ご紹介したプロンプトのテンプレートを使って、Stable Diffusionでリアル・実写系の画像を生成してみました。

条件は以下の通りです。(これより下の画像はすべてこの条件で生成しています)

モデル:Brav5

Sampling method:DPM++ 2M Karras
Sampling steps:30
Batch count:1
Batch size:1
CFG Scale:9
Script:None

①パンケーキを食べる女性

プロンプト:

(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),(shiny skin),detailed skin,detailed face,detailed eyes,1girl,looking at viewer,Japanese idol,extremely beautiful face,girl eating pancakes,smile,at the cafe

ネガティブプロンプト:

(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples

「looking at viewer」というプロンプトを加えることで、こちらを見ているような画像を生成することができます。

②ランニングをする女性

プロンプト:

(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),(shiny skin),detailed skin,detailed face,detailed eyes,1girl,upper body,Japanese idol,extremely beautiful face,girl running,wearing sportswear and sports cap,outdoor

ネガティブプロンプト:

(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples

Stable Diffusionで人物の画像を出力する際に、顔によりすぎてしまうことがあります。

「full body」というプロンプトを付け加えると全身を描写してくれますが、構図が崩れやすくなってしまいます。

「upper body」という上半身を描写してくれるプロンプトを入力することをおすすめします。

③ビールを飲む女性

プロンプト:

(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),(shiny skin),detailed skin,detailed face,detailed eyes,1girl,upper body,Japanese idol,extremely beautiful face,brown hair,a girl holding beer mug,at the tavern

ネガティブプロンプト:

(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples

ビールジョッキを両手に持ってしまう画像も出力されてしまったので、「holding beer mug with right hand」のように持つ手を指定してもよいでしょう。

④スノボをする女性

プロンプト:

(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),(shiny skin),detailed skin,detailed face,detailed eyes,1girl,upper body,Japanese idol,extremely beautiful face,brown hair,a girl skiing,wearing a pink snow helmet and goggles,at the ski slopes with snow,smile

ネガティブプロンプト:

(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples

ゴーグルに映り込む太陽の光まで描写されていて、かなりクオリティが高いなと思いました。

⑤オフィスで働く女性

プロンプト:

(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),(shiny skin),detailed skin,detailed face,detailed eyes,1girl,upper body,Japanese idol,extremely beautiful face,black hair,a woman sitting at a table with a laptop computer,at the office

ネガティブプロンプト:

(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples

かなりカジュアルな恰好なので、「wearing a suit」や「office casual clothing」などのプロンプトを足してみてもいいかもしれませんね!

Stable Diffusionでリアル・実写系の画像を生成するときのおすすめの方法

Stable Diffusionでリアル・実写系の画像を生成したいけど、イメージが浮かばなかったり、服装や背景を考えることがめんどくさいという方は多いのではないでしょうか?

そんな方にお勧めの方法が、①フリー画像を用意する②フリー画像をプロンプト化する③プロンプトを完成させるという方法です。

詳しく解説していきます。

①フリー画像を用意する

pixabayなどのフリー画像サイトで、生成したい画像の元となるような画像を用意します。

(1)pixabayを開き、生成したい画像に近い画像を検索します。今回はコーヒーを飲む女性の画像を生成したいので、「woman drinking coffee」と検索します。

(2)気に入った画像があったらダウンロードします。

②フリー画像をプロンプト化する

次にダウンロードした画像をプロンプト化します。

(1)Stable Diffusionを起動し、「img2img」タブを開いて、ダウンロードした画像をアップロードします。

(2)「Interrogate CLIP」をクリックすると、画像のプロンプト化が始まります。

(3)すると画像をプロンプトにしたものが生成されます。(画像赤枠)

③プロンプトを完成させる

画像をもとに生成したプロンプトを活用してプロンプトを完成させましょう。

今回は、「a woman drinking from a cup in front of a carnival ride at night time with lights in the background」の箇所をテンプレートに貼り付けました。

入力したプロンプト:

(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),(shiny skin),detailed skin,detailed face,detailed eyes,1girl,Japanese idol,extremely beautiful face,a woman drinking from a cup in front of a carnival ride at night time with lights in the background

ネガティブプロンプト:

(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples

生成結果 ↓

なかなか参考にした画像に近い画像が生成できました!

単に、「コーヒーを飲む女性の画像」や「ランニングをする女性の画像」を生成したいだけで、服装や構図など考えるのはめんどくさい!という方にはおすすめの方法です。

まとめ

今回PROMPTYではそのような方のために、Stable Diffusionのリアル・実写系が得意なモデル、Stable Diffusionでリアル・実写系の画像を生成するための呪文、実際にStable Diffusionで生成したリアル・実写系の画像、Stable Diffusionでリアル・実写系の画像を生成するときのおすすめの方法にについて解説しました。

プロンプトの意味を理解することで、自分の好みの画像を生成できるようになります。

ぜひ今回の記事を参考にしてみてください!

~Stable Diffusionで素早く画像生成するには~

Stable Diffusionの画像生成スピードや画像サイズは、グラフィックボード(GPU)の性能によって大きく変わります。

このため、より効率的かつ快適な画像生成を望むユーザーにとって、最適なグラフィックボードの選択が重要となります。

推論処理やLoRAなどの追加学習処理といった大量の計算を効率よく行うためには、12GB以上のVRAMを持つグラフィックボードを選ぶことを強くおすすめします。

2GBや4GBのVRAMを持つグラフィックボードでは、学習プロセスや高解像度の画像生成に支障が出る可能性が高いです。

コスパを重視する方は、RTX 3060を選ぶと良いでしょう。

このグラフィックボードを使えば、Stable Diffusionの画像生成機能を最大限に活用することが可能となります。