Stable Diffusionで画像からプロンプトを抽出する「Tagger」機能を徹底解説!

「Stable Diffusionでどのようなプロンプトを入力すればいいかわからない…」「一般的な画像からプロンプトを抽出することはできるの?」そう疑問に感じる方も多いのではないでしょうか。

実は、Stable Diffusion Web UIの「Tagger」という拡張機能を使うことで、画像からプロンプトを抽出することができます。

今回PROMPTYでは、Stable Diffusion Web UIの「Tagger」の導入方法と使い方を詳しく解説します。

Tagger for Automatic1111’s Web UIの導入方法

Stable Diffusion Web UIを開き、Extensionsをクリックします

次にInstall from URLをクリックし、下記URLを”URL for extensions git repository”に貼り付けます。

尚、良く使われているレポジトリ(https://github.com/toriato/stable-diffusion-webui-wd14-tagger)は、2023年7月18日をもってアーカイブ化されています。

貼り付けたらたらInstallをクリックします。

インストールできたらinstalledをクリックします。

「stable-diffusion-weui-wd14-tagger”にチェックが入っていることを確認し、”Apply and quit”をクリックしてWeb UIを再起動します。

Web UIの画面に”Tagger”のタブが追加されていれば、インストール完了です。

Tagger for Automatic1111’s Web UIの使用手順

Single processの使い方

Single processの機能は、指定の欄に画像を入れるだけで自動的に分析が始まります。自動分析が動かない場合は、「Interroge」ボタンをクリックすれば始まります。

分析完了後、画像の隣にプロンプトが抽出され、txt2imgやimg2img”に転送して新たに画像を生成できます。

ただし、表示されるのはポジティブプロンプトのみで、ネガティブプロンプトは自分で入力する必要があります。

関連記事

「ネガティブプロンプト」とは、Stable Diffusionなどの画像生成AIによるイラスト制作において「描いてほしくない要素」を管理するためのものです。 今回PROMPTYでは、ネガティブプロンプトとは何か、ネガティブプロンプト[…]

さらに、Stable Diffusionの画像生成でよく使われる「masterpiece」や「best quality」といった画像の品質に関するキーワードは手動入力する必要があるので、注意が必要です。

例としてTagger機能で次の画像を解析します。

画像の解析を始めると、抽出したプロンプトとDanbooru(海外の画像転載サイト)タグとの関連度が表示されます。

抽出されたプロンプト:

solo, 1girl, looking at viewer, portrait, monochrome, closed mouth, hood, lips, long hair, greyscale, hood up

“solo”,”1girl”はもちろん、”monochrome” , “hood up”など特徴を捉えた単語が出力できています。

画像とDanbooruタグとの関連度:

Batch from directoryの使い方

Batch from directory機能では、指定したフォルダ内の画像ファイルを一括してタグ付けを行い、その結果をテキストファイルやJSONファイルで保存することができます。

“input directory”で画像のパスを指定します。”output directory”を空欄にしておくと、元の場所にテキストファイルが生成されます。

Additional tags“には、txtファイルの一番先頭に来るタグを入力しましょう。LoRAの学習を行う場合、ここでトリガーワードを決めることができます。

Interrogate”をクリックすると、画像と同じフォルダ内にタグ付けされたテキストファイルが出力されます。

Tagger for Automatic1111’s Web UIの活用方法

①LoRAの学習に利用する

Stable DiffusionのLoRAとは、「Low-Rank Adaptation」の略で、低コストでAIの追加学習を行い、好みの画像を簡単に出力できるようにするツールです。

Loraで画像を追加学習させることで、AIの生成結果を自分の思った通りのものにコントロールすることが可能となります。

関連記事

「ネガティブプロンプト」とは、Stable Diffusionなどの画像生成AIによるイラスト制作において「描いてほしくない要素」を管理するためのものです。 今回PROMPTYでは、ネガティブプロンプトとは何か、ネガティブプロンプト[…]

自分の画像をLoRA学習に利用する際には、TaggerのBatch from directoryを活用することで、一括で画像のタグ付けを行ったテキストファイルを保存することができます。

②ControlNetのreference_onlyで画像を生成する

ControlNetのreference_onlyでは、参照画像を基にTagger機能で

まとめ

今回PROMPTYでは、Stable Diffusionの「Tagger」機能とその使い方を紹介しました。

この機能を活用することで、プロンプトの抽出やLoRAの学習を効果的に行うことができます。

PROMPTYでは、他のStable Diffusionに関する記事も豊富に扱っていますので、興味のある方は是非参考にしてください。

~Stable Diffusionで素早く画像生成するには~

Stable Diffusionの画像生成スピードや画像サイズは、グラフィックボード(GPU)の性能によって大きく変わります。

このため、より効率的かつ快適な画像生成を望むユーザーにとって、最適なグラフィックボードの選択が重要となります。

推論処理やLoRAなどの追加学習処理といった大量の計算を効率よく行うためには、12GB以上のVRAMを持つグラフィックボードを選ぶことを強くおすすめします。

2GBや4GBのVRAMを持つグラフィックボードでは、学習プロセスや高解像度の画像生成に支障が出る可能性が高いです。

コスパを重視する方は、RTX 3060を選ぶと良いでしょう。

このグラフィックボードを使えば、Stable Diffusionの画像生成機能を最大限に活用することが可能となります。