Meta、音声認識AI「Massively Multilingual Speech(MMS)」を発表

何があったのか

参考:Meta

Metaは、AI開発を強力に推進している企業として知られています。その最新の成果として、1100以上の言語で音声からの文字起こしや文章の読み上げが可能な音声認識モデル「Massively Multilingual Speech(MMS)」を開発し、公に発表しました。

参考:GitHub

MMSは、従来の音声認識モデルを大きく凌駕する可能性を持っています。なぜなら、それは従来のモデルが対応できる言語数を大幅に上回る1100以上の言語に対応しているからです。特に、話者の数が少ない言語でも、MMSを通じてさまざまな情報にアクセスすることが容易になると期待されています。

実は、Metaは以前からAI技術を利用した言語のリアルタイム翻訳に取り組んできました。その一環として、「Babelfish」というAIを開発し、その存在を発表しています。

また、Metaの公式ブログ記事では、「音声を認識・生成する能力を機械に持たせることで、音声だけで情報にアクセスしている人を含めて、より多くの人々が情報にアクセスできるようになります」と述べています。

参考:Meta

ただし、音声認識モデルの開発には大量のラベル付きデータが必要であり、具体的には数千時間もの音声とその文字起こしデータが必要となります。しかし、地球上で話されている7000以上の言語のうち、大半の言語ではこのような質の高いデータが存在しません。これが、既存の音声認識モデルが約100ほどの言語しかカバーしていない理由です。

それに対し、Metaは一石を投じました。彼らはラベルのないデータからも学習が可能な「Wav2vec 2.0」という音声認識フレームワークを使用し、ラベル付きデータの不足問題を克服しました。

さらに、Metaは1100以上の言語にわたる「新訳聖書の読み上げデータセット」を作成し、これを用いてMMSのトレーニングを行っています。新訳聖書などの宗教文献は、多言語に翻訳されており、言語翻訳の研究に広く活用されています。このような文献は音声認識モデルの開発にも有用であると考えられています。

Metaのこの革新的な取り組みは、数千時間の音声とその文字起こしデータを必要とする従来の方法から脱却し、ラベルのないデータからでも学習が可能という新たな進路を示しています。これにより、世界中のあらゆる言語をカバーする可能性を持つ音声認識モデルの開発が現実的なものとなりました。

Metaの取り組みは、話者の少ない言語の人々が情報にアクセスできるようになるだけではなく、言語の保存と多様性の保護にも寄与する可能性があります。この技術により、多くの人々が情報にアクセスできる社会が実現できる可能性が高まるでしょう。

まとめ

Metaの新たな音声認識モデル「MMS」の発表は、AI技術の進歩とその可能性を再認識させられる出来事です。1100以上の言語対応という広範囲な対応力は、特に話者の少ない言語でも情報アクセスの道を開く可能性を示しています。

また、ラベルのないデータから学習する技術の採用は、言語データの限られた資源を巧みに活用する方向性を示し、AI技術の将来に期待を寄せる一方で、社会への有用性と影響力を強く印象付けています。