ChatGPTのマルチモーダル機能とは?得意・不得意な事について検証!

「ChatGPTに画像や音声を読み込ませたい」と考えている方もいらっしゃるのではないでしょうか。

ChatGPTにはマルチモーダル機能があり、画像を認識させることができます。

今回はChatGPTのマルチモーダル機能の使用方法とその成功率について解説していきます・

ChatGPTのマルチモーダル機能とは?

マルチモーダル機能とはテキストだけでなく、画像ファイルに基づいて指示することができる機能のことです。

ChatGPTは今までチャットでしかやり取りができなかったのですが、Code Interpreterが追加されたことにより、画像ファイルのアップロードができるようになりました。

しかし、行う行為によっては成功率はあまり高くないようで、以下でも成功率を検証しています。

また、現在Code InterpreterはGPT-4のみの機能になっているので、使用したい方は有料プランへの加入が必要です。

関連記事

ChatGPTのCode Interpreterというコード実行プラグインがChatGPT Plus会員(有料会員)にリリースされたことが分かりました。 これにより、ChatGPTを使用している間、データ解析やグラフ生成といった機能[…]

ChatGPTのマルチモーダル機能のできること・できないこと

マルチモーダル機能は今までできなかった画像ファイルの認識ができ、とても便利なのですが、指定した動作によっては思うように動かないということもあるようです。

ここではいくつかの動作を行わせて成功率を調べました。

①画像をモノクロに変更

まずは画像をカラーからモノクロに変更しました。

問題なくモノクロ画像に変更することができました。

②画像サイズの変更

次は画像サイズの変更を行いました。

問題なく画像サイズを変更できました。

また一応確認してみましたが、画像サイズは1980×1280にしっかり変更されていました。

③画像の拡張子の変更

次に画像の拡張子を変更しました。

問題なく拡張子を変更することができました。

ダウンロード後も.png形式で使用することができます。

③画像の彩度の変更

次は画像の彩度を変更してみました。

問題なく彩度を変更できました。

変更後の画像は色合いがかなり鮮やかになっていることが確認できます。

上記3つのように、画像データに関することはChatGPTはかなり高いレベルで指示を実行することができます。

④画像の面白いところを語る

次は画像を認識させ、その画像の面白いところを挙げてもらいました。

この画像は5回ほど失敗した後にたまたま上手くいったものになります。

「画像の○○な部分」という指定を行えば、何回かに1回は成功するのではと感じました。

⑤画像の特徴を述べさせる

最後に画像の特徴を考えてもらいました。

この画像の特徴では成功例と失敗例を両方掲載します。

成功例

30回くらい試して1回だけ成功することができました。

この他にも数値やパラメータから特徴を推測するという動きは何度か見られましたが、人間が行うような視覚情報から得られる特徴を挙げることができたのはこの1回のみになります。

失敗例

基本的にはこちらの失敗例が表示されることが殆どでした。

ChatGPTに視覚はないので、人間のように「目で見て」画像の特徴を述べることは苦手なようです。

できない事はないですが、基本的には画像サイズや色の変更など、画像データ周りの指示を実行することが現実的でしょう。

まとめ

今回はChatGPTのマルチモーダル機能について解説しました。

得手不得手な部分はそれぞれありますが、画像ファイルを読み込めるようになったことでかなり便利になったため、是非活用してみて下さい。