OpenAIがChatGPTの高度なボイスモードのアルファ版の提供を有料会員向けに開始

2024年8月1日
AIニュース

OpenAIは日本時間7月31日、一部のChatGPT Plusユーザー(有料会員）向けに高度なボイスモードのアルファ版の提供を開始したことを明らかにしました。

We’re starting to roll out advanced Voice Mode to a small group of ChatGPT Plus users. Advanced Voice Mode offers more natural, real-time conversations, allows you to interrupt anytime, and senses and responds to your emotions. pic.twitter.com/64O94EhhXK
— OpenAI (@OpenAI) July 30, 2024

OpenAI 新たな検索システム「SearchGPT」を発表

OpenAIは7月26日、GPTを用いた検索機能「SearchGPT」を発表しました。 SearchGPTでは、ChatGPTと同様にチャットをしながら情報検索を行うことができます。この記事では、SearchGPTについて解[…]

1 従来の音声モードとの3つの違い
2 秋には全てのChatGPT Plusユーザーが使用可能
3 プライバシー保護の観点から声の種類は4つに
4 まとめ

従来の音声モードとの3つの違い

従来の音声モードと今回の高度なボイスモードの違いは以下の3つがあります。

①応答速度が早い
②一つのモデルで処理ができる
③感情を汲み取れる

OpenAIは今年の５月にGPT-4oを発表した際にGPT-4oの音声機能のデモ動画を公開しており、またその説明を公式サイトで述べています。今回はその音声機能のアルファ版が提供され始めたという形です。

①応答速度が早い

今回の高度なボイスモードはChatGPTの従来の音声モードから大きくアップグレードされました。例えば、音声での応答時間に大きな差があります。GPT-4では音声での応答時間は平均で5.4秒でしたが、新たな音声モードは最短232ミリ秒で応答でき、平均320ミリ秒で応答できます。

②一つのモデルで処理ができる

従来の音声モードは「入力した音声をテキストに変換するモデル」、「そのテキストから返答となるテキストを生成するモデル」、「返答となるテキストから出力となる音声に変換するモデル」という3つのそれぞれ個別のモデルによって機能していたのが、今回の高度なボイスモードではエンドツーエンドで単一の新しいモデルによって機能しています。

③感情を汲み取ってできる

AIが高度な感情認識機能を搭載することで、ユーザーの感情や非言語的なサインを把握し、より人間らしい自然な会話が実現します。

秋には全てのChatGPT Plusユーザーが使用可能

選ばれた一部のChatGPT Plusユーザーには手順が記載されたメールが送信され、モバイルアプリにメッセージが届きます。今後も継続的に高度なボイスモードを使用できるユーザが追加されていき、秋にはすべてのChatGPT Plusユーザーが高度なボイスモードにアクセスできる予定です。また、動画と画面共有の機能は後日にリリースされます。

プライバシー保護の観点から声の種類は4つに

OpenAIは人々のプライバシーを守るために4つの声のみで話すようにトレーニングし、それらの声と異なる出力はブロックされます。また、暴力的または著作権で保護されたコンテンツのリクエストはブロックされます。

まとめ

OpenAIは7月31日、高度なボイスモードの提供を開始したことを明らかにしました。今後この変化によってAIの活用が大きく広がっていく可能性があります。

例えば、迅速に返答が可能で人間の感情を理解できる高度なボイスモードであればコールセンターで人間の相手をこの高度なボイスモードができ、それにより費用を抑えることができます。