【プロンプト解説】Stable Diffusionでケモノっ子の画像を生成する方法

Stable Diffusionでは適切なプロンプトを組み込むことで、ケモノっ子の画像を生成することができます。

ケモノっ子を生成したい場合、それに適したモデルが複数存在します。

今回使用する「caulkinumV2 for Anime Style(FGA)」もその1つです。

モデルの導入方法

ファイルをダウンロードする場合

まずはローカル環境などでStable Diffusionを利用していて、ファイルをダウンロードしたい人向けにモデルの使用方法を説明します。

①Civit AIを開きモデルを検索する

まずはCivit AIをネットで検索し、ページを開いてください

その後、赤枠部分の検索欄に「caulkinumV2 for Anime Style」と入力し、モデルを検索します。

②モデルのダウンロード画面を開き、FGAをクリック

モデルのダウンロード画面が開けたら、赤枠部分のFGAをクリックしてください。

HOGはアニメ絵の生成が得意なモデルで、ケモノっ子の生成はできないことはないものの不得手であるため、必ずFGAをダウンロードするようにしましょう。

③「caulkinumV2 for Anime Style(FGA)」をダウンロードする

FGAをクリックしたら、後はダウンロードするだけになります。

Google Colabを使う場合

次にGoogle Colabでこのモデルを使いたい人向けの方法を説明します。

Google Colabを使う場合、以下のコードを入力して実行してください。

!git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
%cd /content/stable-diffusion-webui
!mkdir /content/stable-diffusion-webui/models/Lora

!wget https://civitai.com/api/download/models/56569  -O /content/stable-diffusion-webui/models/Stable-diffusion/caulkinumv2ForAnime_fga.safetensors

!python launch.py --share --xformers --enable-insecure-extension-access

実行し、以下の画像の赤枠部分のURLをクリックすればモデルを使用できます。

ケモノっ子の画像を生成するプロンプト

プロンプトテンプレート:

masterpiece,high quality,1 giri,(furry),○○(動物の名前) ears,fur ○○(任意の毛皮の色),(claw pose),frontal face

ネガティブプロンプト:

(worst quality, low quality:1.4), (zombie, sketch, interlocked fingers,comic), nsfw

詳細な設定は以下の通りです。

Sampling method:Euler a
Sampling steps:20
Width:512
Height:512
Batch count:1
Batch size:1
CFG Scale:7
Seed:-1
Script:None

トラのケモノっ子のプロンプト

プロンプト:

masterpiece,high quality,1 giri,(furry),tiger ears,fur yellow,(claw pose),frontal face

ネガティブプロンプト:

(worst quality, low quality:1.4), (zombie, sketch, interlocked fingers,comic), nsfw

生成画像:

問題なくトラのケモノっ子の画像を出力することができました。

ネコのケモノっ子のプロンプト

プロンプト:

masterpiece,high quality,1 giri,(furry),cat ears,fur white,(claw pose),frontal face

ネガティブプロンプト:

(worst quality, low quality:1.4), (zombie, sketch, interlocked fingers,comic), nsfw

生成画像:

問題なくネコのケモノっ子の画像を出力することができました。

キツネのケモノっ子のプロンプト

プロンプト:

masterpiece,high quality,1 giri,(furry),fox ears,fur yellow,(claw pose),frontal face

ネガティブプロンプト:

(worst quality, low quality:1.4), (zombie, sketch, interlocked fingers,comic), nsfw

生成画像:

問題なくキツネのケモノっ子の画像を出力することができました。

ウサギのケモノっ子のプロンプト

プロンプト:

masterpiece,high quality,1 giri,(furry),rabbit ears,fur white,(claw pose),frontal face

ネガティブプロンプト:

(worst quality, low quality:1.4), (zombie, sketch, interlocked fingers,comic), nsfw

生成画像:

問題なくウサギのケモノっ子の画像を出力することができました。

トナカイのケモノっ子のプロンプト

プロンプト:

masterpiece,high quality,1 giri,(furry),reindeer ears,fur brown,(claw pose),frontal face

ネガティブプロンプト:

(worst quality, low quality:1.4), (zombie, sketch, interlocked fingers,comic), nsfw

生成画像:

問題なくトナカイのケモノっ子の画像を出力することができました。

~Stable Diffusionで素早く画像生成するには~

Stable Diffusionの画像生成スピードや画像サイズは、グラフィックボード(GPU)の性能によって大きく変わります。

このため、より効率的かつ快適な画像生成を望むユーザーにとって、最適なグラフィックボードの選択が重要となります。

推論処理やLoRAなどの追加学習処理といった大量の計算を効率よく行うためには、12GB以上のVRAMを持つグラフィックボードを選ぶことを強くおすすめします。

2GBや4GBのVRAMを持つグラフィックボードでは、学習プロセスや高解像度の画像生成に支障が出る可能性が高いです。

コスパを重視する方は、RTX 3060を選ぶと良いでしょう。

このグラフィックボードを使えば、Stable Diffusionの画像生成機能を最大限に活用することが可能となります。