OpenAIは、9月25日(現地時間)に、ChatGPTに新しく画像認識、音声認識、及び発話機能を追加することを発表しました。
これによって、音声によるChatGPTとの会話や、画像をChatGPTに見せることによる会話など、より直感的な体験が可能になります。
OpenAIは今後2週間かけてこの機能を、有料プランChatGPT Plusと企業向けプランEnterpriseに展開する予定としています。
なお、画像認識機能はPCやスマートフォンなど全てのプラットフォームからアクセスが可能で、音声認識・発話機能はiOS/Androidで利用することができます。
参考:OpenAI
今回発表された新機能の詳細
画像認識機能
今回のアップデートにより、ChatGPTで写真やスクリーンショット、テキストと画像を併用したドキュメントの読み取りが可能となりました。例えば、機械の故障原因を特定したり、冷蔵庫の中身を確認してレシピを考える際に利用することができます。
また、ユーザーは複数の画像を同時に読み込むことも可能です。その他、特定の部分を強調するために画像の一部を丸で囲うこともできます。さらに、ChatGPTと話している内容を画像で表示させる機能も追加されています。
この高度な画像認識機能は、GPT-3.5およびGPT-4のマルチモーダル技術を利用して実現されてるようです。
引用:OpenAI
音声認識と発話機能
音声に関するアップデートも非常に注目されています。新機能として、OpenAIの「Whisper」という音声認識システムが採用されました。ユーザーは、スマートフォンの設定からこの新機能を有効にすることができ、5種類の音声から選択することができます。
さらに、OpenAIは新しいtext-to-speech(文字から音声)モデルも導入しました。このモデルは、テキストとわずかなサンプル音声だけで、非常に自然な声を生成することができます。
このモデルの開発は、プロの声優と協力して行われ、米Spotifyでは同じ技術が音声翻訳機能として試験的に導入されています。
ChatGPTの新機能でできるようになること
ChatGPTに新たに画像認識、音声認識、及び発話機能が追加されたことにより、以下のような可能性や利用シーンが考えられます。
- 家電やコンピュータのトラブルシューティング
家電製品やコンピュータの故障時に、ChatGPTが写真をもとに問題の原因や解決策を提案する。 - 料理のサポート
冷蔵庫の中身の写真から、ChatGPTがレシピを提案する。 - グラフや図表を含むビジネス文書の解析
グラフや図表を含むビジネス文書のスクリーンショットからChatGPTが要約を作成する。 - 観光地などでの多言語対応音声ガイド
観光地やミュージアムなどで、ChatGPTが自然な発音でガイドを行う。 - 教材の読み上げや発音などの教育支援
教材の内容を音声で読み上げたり、学習者の発音をChatGPTが評価する。 - 障害を持つ方等に役立つアクセシビリティ向上
視覚や聴覚に障害を持つ人々のための支援ツールとしてChatGPTを活用する。
より直感的に生成AIを活用できるように
OpenAIは、ChatGPTに画像認識や音声認識の新機能を導入したことを発表しました。これにより、ユーザーは家電のトラブルシューティングやレシピの考案など、日常のさまざまなシチュエーションで生成AIを直感的に活用することができるようになります。
さらに、人間のような声を生成する新しいtext-to-speech(文字から音声)も追加され、より人間に近い自然なコミュニケーションが実現します。これらの機能によるユーザー体験の向上によって、ChatGPTの活用範囲がさらに拡がることが期待されます。