音声生成AI技術の最新形態である「Voicebox」がMeta社によって2023年6月16日に公開されました。この新型AIは、サンプリング、音声編集、スタイル設定など、広範囲なタスクに対応可能です。
引用:Meta
「メタバース×AI」新たな生成AIの誕生か 引用:DINOv2公式 2023年4月17日、自己教師あり学習を活用した映像モデルトレーニングの新技術「DINOv2」がMetaから発表されました。この革新的な手法は、将来的[…]
何があったのか 参考:Meta Metaは、AI開発を強力に推進している企業として知られています。その最新の成果として、1100以上の言語で音声からの文字起こしや文章の読み上げが可能な音声認識モデル「Massively[…]
Voiceboxとは何か?
引用:Meta
Voiceboxの主な機能は、テキストの朗読、音声内のノイズの除去、言葉の誤りの修正、そして言語の変換です。これらは、提供された音声とテキストに基づいて実行されます。
特筆すべきは、ある言語から別の言語への変換能力で、同じ声質を保ちつつ、または同じテキストをさまざまな声で読み上げる能力も有しています。
どのようにして動作するのか?
Voiceboxは「非自己回帰フローマッチングモデル」を基盤とし、大量のデータを利用して音声入力の問題解決を学習します。
その学習過程において、英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語といった複数の言語のオーディオブック音声とそのトランスクリプト、合わせて5万時間分が使用されています。
Voiceboxの活用方法と将来性
Meta社は、Voiceboxの存在がメタバース内でのバーチャルアシスタントやNPC(ノンプレイヤーキャラクター)が自然に話す一助となると見ています。また、自分自身の声で本来話すことのできない外国語での会話、もしくは映画の吹き替えを声優ではなく本人の声で実現するといった用途についても可能性を示唆しています。
潜在的な問題点と警告
しかしMeta社自身も、Voiceboxの技術が悪用され、予期せぬ害を生む可能性について認識しています。そのため、Voiceboxのアプリケーションやソースコードは一般に公開されていません。
TTS(Text to Speech)の悪用が既に問題視されていることも伝えており、近時では無許可の音声利用によるAI生成楽曲がSpotifyに登場し話題になった事例も引用しています。
まとめ
Meta社が新型AI「Voicebox」を発表しました。この音声生成AIは、テキストの朗読、ノイズ除去、言語変換などをこなすという多機能性を有しており、異なる言語への同じ声質での変換や、多様な声での読み上げが可能です。
しかし、この技術が誤用される恐れがあるため、アプリケーションやソースコードの公開は見送られています。Meta社はVoiceboxを、メタバース内の自然な会話を可能にするための一歩と位置づけています。