ChatGPTのマルチモーダル機能とは？得意・不得意な事について検証！

「ChatGPTに画像や音声を読み込ませたい」と考えている方もいらっしゃるのではないでしょうか。

ChatGPTにはマルチモーダル機能があり、画像を認識させることができます。

今回はChatGPTのマルチモーダル機能の使用方法とその成功率について解説していきます・

ChatGPTのマルチモーダル機能とは？

マルチモーダル機能とはテキストだけでなく、画像ファイルに基づいて指示することができる機能のことです。

ChatGPTは今までチャットでしかやり取りができなかったのですが、Code Interpreterが追加されたことにより、画像ファイルのアップロードができるようになりました。

しかし、行う行為によっては成功率はあまり高くないようで、以下でも成功率を検証しています。

また、現在Code InterpreterはGPT-4のみの機能になっているので、使用したい方は有料プランへの加入が必要です。

ChatGPTのCode Interpreterというコード実行プラグインがChatGPT Plus会員（有料会員）にリリースされたことが分かりました。これにより、ChatGPTを使用している間、データ解析やグラフ生成といった機能[…]

マルチモーダル機能は今までできなかった画像ファイルの認識ができ、とても便利なのですが、指定した動作によっては思うように動かないということもあるようです。

ここではいくつかの動作を行わせて成功率を調べました。

まずは画像をカラーからモノクロに変更しました。

問題なくモノクロ画像に変更することができました。

次は画像サイズの変更を行いました。

問題なく画像サイズを変更できました。

また一応確認してみましたが、画像サイズは1980×1280にしっかり変更されていました。

次に画像の拡張子を変更しました。

問題なく拡張子を変更することができました。

ダウンロード後も.png形式で使用することができます。

次は画像の彩度を変更してみました。

問題なく彩度を変更できました。

変更後の画像は色合いがかなり鮮やかになっていることが確認できます。

上記3つのように、画像データに関することはChatGPTはかなり高いレベルで指示を実行することができます。

次は画像を認識させ、その画像の面白いところを挙げてもらいました。

この画像は5回ほど失敗した後にたまたま上手くいったものになります。

「画像の○○な部分」という指定を行えば、何回かに1回は成功するのではと感じました。

最後に画像の特徴を考えてもらいました。

この画像の特徴では成功例と失敗例を両方掲載します。

30回くらい試して1回だけ成功することができました。

この他にも数値やパラメータから特徴を推測するという動きは何度か見られましたが、人間が行うような視覚情報から得られる特徴を挙げることができたのはこの1回のみになります。

基本的にはこちらの失敗例が表示されることが殆どでした。

ChatGPTに視覚はないので、人間のように「目で見て」画像の特徴を述べることは苦手なようです。

できない事はないですが、基本的には画像サイズや色の変更など、画像データ周りの指示を実行することが現実的でしょう。

今回はChatGPTのマルチモーダル機能について解説しました。

得手不得手な部分はそれぞれありますが、画像ファイルを読み込めるようになったことでかなり便利になったため、是非活用してみて下さい。