【プロンプト解説】ChatGPTでStable Diffusionのプロンプトを生成する

「Stable Diffusionのプロンプトを作るのが難しい」「ChatGPTでStable Diffusionのプロンプトを作成できる?」

このような悩みや疑問をお持ちの方は多いのではないでしょうか?

今回RROMPTYでは、ChatGPTでStable Diffusionのプロンプトを作成するとはどういうことか、ChatGPTでStable Diffusionのプロンプトを作成できるプロンプト、ChatGPTでStable Diffusionのプロンプト作成ができるプラグイン「Photo Realistic」について解説します。

ChatGPTでStable Diffusionのプロンプトを作成する

Stable Diffusionはテキストから画像を生成することができるAIで、プロンプトは英語で入力する必要があります。

しかし、ChatGPTを利用すれば、日本語の生成したい画像の情報を元に、最適なプロンプト英語のプロンプトを作成することができます。

例えば、「カフェでコーヒーを飲む女性」と入力すれば、その情報を元にChatGPTにStable Diffusionに入力するプロンプトを考えてもらうことができます。

Stable Diffusinoにはある程度プロンプトのルールがあるため、ChatGPTにプロンプトを入力する際ある程度条件を設定する必要はありますが、今回ご紹介するプロンプトを使用するれば、ChatGPTで簡単にStable Diffusionのプロンプトを作成できます。

ChatGPTでStable Diffusionのプロンプトを作成できるプロンプト

PROMPTYが作成した、「ChatGPTでStable Diffusionのプロンプトを作成できるプロンプト」をご紹介します。

プロンプト

#命令文
下記の#生成したい画像、#条件、#処理方法に従って、画像生成AIでリアルな人物を作成するために最適なプロンプトとネガティブプロンプトを作成してください。

#生成したい画像
*全体の構図:{自由記述/おすすめ}
*人種:{自由記述/おすすめ}
*年齢:{自由記述/おすすめ}
*髪型と髪色:{自由記述/おすすめ}
*目の色:{自由記述/おすすめ}
*服装:{自由記述/おすすめ}
*表情:{自由記述/おすすめ}

#条件
*プロンプトの形式は英語の箇条書き形式で、コンマで区切ってください。
*プロンプトは重要度の高いものを先に、重要度の低いものを後ろにしてください。
*プロンプトは(high quality:1.2)のように重みづけをして強調することができるので、必要に応じて重みづけをしてください。なお重みづけは0.1~1.9の間で行ってください。
*プロンプトには必ず画像を高品質にするためのプロンプト(例.masterpiece,bestquality)を入れてください。
*プロンプトには必ず高画質・高解像度にするためのプロンプト(例.4k,high res)を入れてください。
*プロンプトには必ず画像のリアルさを高めるためのプロンプト(例.realistic,raw photo)を入れてください。
*プロンプトには必ず画像の描写を繊細にするためのプロンプト(例.detailed skin,shiny skin)を入れてください。
*ネガティブプロンプトは生成する画像に含めたくない要素を指定するためのものです。
*ネガティブプロンプトは#ネガティブプロンプトのテンプレートを元に、必要があれば変更を加えてください。

#ネガティブプロンプトのテンプレート
(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples

#出力形式
プロンプト:
ネガティブプロンプト:

#処理方法
1.#命令文に従ってプロンプトを作成する
2.「生成した画像の改善点はありますか?」と質問する
3.入力された改善点を元に、改良したプロンプトを作成する
4.1~3を繰り返す

このプロンプトのポイントとして、「出力されたStable Diffusion用のプロンプトで生成した画像の改善点を聞き、それを元にプロンプトを改善する」というサイクルを納得するまで行うことができます。

例①:ビールジョッキを持つ女性

今回は、生成したい画像を下記のように設定しました。

#生成したい画像
*全体の構図:ビールジョッキを持つ女性
*人種:日本人
*年齢:20代
*髪型と髪色:黒髪ショート
*目の色:茶色
*服装:白のカーディガン
*表情:笑顔

出力されたプロンプト:

Japanese woman in her twenties, holding a beer mug:1.6, short black hair, brown eyes, wearing a white cardigan, smiling:1.5, high quality:1.3, realistic:1.2, 4k resolution, detailed skin, masterpiece:1.1

出力されたネガティブプロンプト

(worst quality,low quality:2), (painting,sketch,flat color), monochrome, grayscale, ugly face, bad face, bad anatomy, deformed eyes, missing fingers, acnes, skin blemishes, nsfw, nude, nipples

このプロンプトを入力した結果がこちらです ↓↓↓

※この画像とこれより下の画像は下記の条件で生成しています。

モデル:Brav5

Sampling method:DPM++ 2M Karras
Sampling steps:20
Batch count:1
Batch size:1
CFG Scale:7
Script:None

例②:コーヒーカップを持つ男性

今回は、生成したい画像を下記のように設定しました。

#生成したい画像
*全体の構図:コーヒーカップを持つ女性
*人種:日本人
*年齢:30代
*髪型と髪色:黒髪のロングストレート
*目の色:黒
*服装:赤いブラウス
*表情:考え込んでいる

出力されたプロンプト:

Japanese woman (high quality: 1.2), in her 30s, holding a coffee cup, black long straight hair, black eyes, wearing a red blouse, thoughtful expression, masterpiece, best quality (high quality: 1.4), 4k, high res (high quality: 1.3), realistic, raw photo (high quality: 1.5), detailed skin, shiny skin (high quality: 1.6)

出力されたネガティブプロンプト:

(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples

このプロンプトを入力した結果がこちらです ↓↓↓

例③:図書館で本を読んでいる男性

#生成したい画像
*全体の構図:図書館で本を読んでいる男性
*人種:日本人
*年齢:20代
*髪型と髪色:黒髪のショートヘア
*目の色:黒
*服装:グレーのセーター
*表情:集中している

出力されたプロンプト:

Japanese man, in his twenties, black short hair, black eyes, wearing a grey sweater, reading a book in a library, highly focused (high quality:1.2), masterpiece, best quality, 4k, high res, realistic, raw photo, detailed skin, shiny skin

出力されたネガティブプロンプト:

(worst quality,low quality:2), (painting, sketch, flat color), monochrome, grayscale, ugly face, bad face, bad anatomy, deformed eyes, missing fingers, acnes, skin blemishes, nsfw, nude, nipples

このプロンプトを入力した結果がこちらです ↓↓↓

【Photo Realistic】ChatGPTでStable Diffusionのプロンプト作成

「Photo Realistic」というプラグインを使えば、ChatGPTを使ってStable Diffusionのプロンプトを作成することができます。

※Midjourney用となっていますが、Stable Diffusionにも活用することができます。

例①:パンケーキを食べる女性

まずは、パンケーキを食べる女性の画像を生成するためのプロンプトを作成してもらいます。

「英語で作成してください。」と入力しないと、日本語でプロンプトを作ってしまうことがあるので注意しましょう。

出力されたプロンプト

Midjourney用のプロンプトなので、Stable Diffusionで活用するときは、次の専用ワードを除外します。

--ar 16:9 --v 5.1 --style raw --q 2 --s 750

Midjourney専用のプロンプトを除外した出力されたプロンプト(Prompt 1のみ)は下記の通りです。

Picture a young woman enjoying her breakfast in a cozy, sunlit café. She's seated at a rustic wooden table, a stack of fluffy pancakes before her, drizzled with golden maple syrup and topped with a dusting of powdered sugar. She's about to take a bite, her fork poised in mid-air. The scene is captured in a high-resolution, hyper-realistic style, with the Canon EOS 5D Mark IV DSLR camera, EF 50mm f/1.8 STM lens. The lighting is natural and warm, streaming in from a nearby window, highlighting the steam rising from a cup of coffee next to the pancakes. The colors are rich and inviting, with the warm browns of the pancakes and table contrasting beautifully with the cool blues and whites of the woman's outfit and the café interior. The shot is taken from a slight angle, creating a sense of depth and intimacy.

なおネガティブプロンプトは、ただ「○○の画像を生成するためのプロンプトを作成してください」と入力しても出力されないので、下記のテンプレートを使用してください。

(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples

出力されたプロンプトを入力した結果がこちらです ↓↓↓

例②:ランニングをする女性

次にランニングをする女性の画像を生成するためのプロンプトを作成してもらいます。

出力されたプロンプト(Midjourneyの専用語を除外)

Capture a dynamic scene of a woman running. The setting is a lush green park in the early morning. The woman is in her mid-30s, fit, and dressed in bright athletic gear. The style should be reminiscent of a high-end sports advertisement, with a focus on the strength and determination in her posture. The lighting should be soft and natural, highlighting the morning dew on the grass and the warm glow of the sunrise. The colors should be vibrant and fresh, with a focus on the contrast between her bright clothing and the natural greens and blues of the park. Use a Canon EOS 5D Mark IV DSLR camera with an EF 70-200mm f/2.8L IS III USM lens for a sharp focus on the woman with a beautiful bokeh background. The shot should be taken from a low angle, emphasizing her powerful stride. 

出力されたプロンプトを入力した結果がこちらです ↓↓↓

例③:料理をする男性

最後に、料理をする男性を作成するためのプロンプトを作成してもらいます。

出力されたプロンプト(Midjourneyの専用語を除外)

A man engrossed in the art of cooking, medium: photography, style: reminiscent of a scene from a modern culinary documentary, lighting: warm and inviting, colors: a palette of earthy tones and the vibrant hues of fresh ingredients, composition: shot with a Canon EOS 5D Mark IV DSLR camera, EF 50mm f/1.8 STM lens, Resolution 30.4 megapixels, ISO sensitivity: 100, Shutter speed 1/125 second. The man is at the center of the frame, his focus on the sizzling pan in front of him, his hands expertly flipping a sauté of colorful vegetables. The background is a well-lit, rustic kitchen, filled with the tools of his trade.

出力されたプロンプトを入力した結果がこちらです ↓↓↓

まとめ

今回RROMPTYでは、ChatGPTでStable Diffusionのプロンプトを作成するとはどういうことか、ChatGPTでStable Diffusionのプロンプトを作成できるプロンプト、ChatGPTでStable Diffusionのプロンプト作成ができるプラグイン「Photo Realistic」について解説しました。

今回ご紹介したテンプレを使えば、自分の納得のいく画像ができるまで、ChatGPTにStable Diffusionのプロンプトを考えてもらうことができます。

ぜひ使ってみてください!