画像生成AI「Stable Diffusion」の開発元であるStability AIは、11月13日に商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしたことを発表しました。
参考:Stability AI
Japanese Stable VLMの特徴
概要
「Japanese Stable VLM」は、「Japanese Stable LM Instruct Gamma 7B」をベースとした日本語のVLM(Vision-Language Model)です。入力した画像に対してテキストで説明を生成できる画像キャプションに加えて、画像の内容についてユーザーの質問に回答することもできます。
研究目的で開発された以前のバージョンと比べて、次のような違いがあります。
- 商用利用可能なライセンス
- 最新の手法であるLLaVA-1.5 のモデル構造・学習手法を適用
- 出力キャプションで使ってほしい単語を入力することが可能な「タグ条件付きキャプショニング」機能
引用:Stability AI
社内での評価
社内の評価によると、「Japanese Stable VLM」は以前の「Japanese InstructBLIP Alpha」と比較しても、性能が同等であることが確認されました。さらに、「Japanese InstructBLIP Alpha」が非商用利用に限定されていたのに対し、「Japanese Stable VLM」は商用利用も可能なライセンスで提供されます。
「Japanese Stable VLM」を活用することで、次に示す例のように、チャット形式で画像に対して応答することができます。また、動画からフレームを切り出して、動画のキャプショニングや動画に関するリアルタイムの質問応答も実現可能です。
引用:Stability AI
学習データの取り扱い
Stability AIは、クリエイターが公開しているコンテンツのコントロールの向上に力を入れています。
「Japanese Stable VLM」は、クリエイターから要求があったオプトアウトや、robots.txtや利用規約によって禁じられたコンテンツを除外したデータを学習に使用しています。
実際にデモを使ってみた
以下のリンクから、「Japanese Stable VLM」のデモにアクセスすることができます。
今回はこちらの画像を使ってJapanese Stable VLMとGPT-4Vの画像認識機能を比較してみます。
Japanese Stable VLMの場合
taskに「vqa」(”与えられた画像を下に、質問に答えてください。”というプロンプト)を選択して画像の内容について質問します。
「男性は何をしていますか?」という質問について
3つ回答が出力され、「パソコンを操作している/使っている」といった適切な回答が出力されました。
次に「シャツとネクタイの色は?」という質問について
グレー/灰色という回答でした。ジャケットの色を答えており正しい答えは返ってきませんでした。
最後に「部屋の内装について情報を教えてください。」という質問について
画像の背景の情報は正しく認識できていませんでした。
GPT-4Vの場合
GPT-4Vについても同じ質問をしてみました。
「男性は何をしていますか?」に対しては、服装や雰囲気も含めて詳細な情報が出力されています。「シャツとネクタイの色は?」と「部屋の情報」についても正しく認識できていることがわかります。
回答精度は全体的に、今回のJapanese VLM よりもGPT-4Vの方が優れていました。
まとめ
画像生成AI「Stable Diffusion」の開発元であるStability AIは、日本語画像言語モデル「Japanese Stable VLM」をリリースしたことを発表しました。このモデルは商用利用可能で、現在デモを利用することができます。
Stability AIは、商用使用が可能なAIモデルの開発に注力することで日本のAI技術の発展とコミュニティの活性化に貢献することを目指すと述べています。
Japanese Stable VLMのデモを使った検証では、性能はGPT-4Vには及びませんでしたが、今後どのようなアップデートされ、活用されていくのか期待が高まります。