Sesame社のConversational Speech Model (CSM)とは？Sesame社やCSMを使う方法についても解説

2025年3月13日
AIサービス紹介

近年、AI技術の進化により、音声アシスタントの自然な会話能力が注目されています。その中でも、Sesame社が開発したConversational Speech Model (CSM)は、人間らしい対話を実現する技術として話題です。

今回PROMPTYでは、Sesame社の概要とCSMの概要や使う方法、技術的背景、評価、そして今後の展開について解説します。

ぜひ最後までご覧ください。

1 Sesame社とは
2 Conversational Speech Model (CSM)とは
3 CSMの特徴
4 CSMを使う方法
- 4.1 CSMを実際に使ってみた感想
5 CSMの技術的背景
6 CSMの評価
- 6.1 ②主観的評価
7 CSMの今後の展開
8 まとめ

Sesame社とは

Sesame社は、AIを活用した音声技術の開発に特化した、アメリカ合衆国に3つの拠点を置くスタートアップ企業です。2025年時点で、同社は「Bringing the computer to life(コンピューターに命を)」をミッションに掲げ、特に音声生成AIの分野で注目を集めています。

原文：We believe in a future where computers are lifelike. They will see, hear, and collaborate with us the way we’re used to. A natural human voice is key to unlocking this future.

和訳：私たちは、コンピューターが生き物のようになる未来を信じています。コンピューターは、私たちが慣れているのと同じように、私たちを見て、聞いて、協力するようになります。自然な人間の声は、この未来を実現するための鍵です。
引用：sesame.com

具体的には、Sesame社は、従来の音声アシスタントが持つ「機械的で平坦な応答」という課題を解決し、感情や文脈を理解した自然な会話を実現することを目指しています。

また、Sesame社は投資家からの支援も厚く、例えばAndreessen Horowitzなどの著名なベンチャーキャピタルが同社のビジョンに賛同し、出資を行っていることが知られています。
こうした背景から、Sesame社は音声生成AI業界におけるリーダーとしての地位を確立しつつあります。

公式X：@sesame
公式サイト：sesame.com

Conversational Speech Model (CSM)とは

Conversational Speech Model (CSM)は、Sesame社が開発した次世代の音声生成AIモデルです。従来のテキスト読み上げ技術（TTS: Text-to-Speech）とは異なり、CSMは単なる音声合成を超え、コンテキスト認識を持つデジタルコンパニオンを実現します。

具体的には、CSMは感情表現や文脈理解を備えたリアルタイムの対話が可能で、ユーザーに自然で親しみやすい体験を提供します。

2025年3月に公開されたデモでは、CSMを搭載した音声アシスタント「Maya」や「Miles」が人間らしいトーンで会話する様子が披露され、大きな反響を呼びました。

CSMの特徴

CSMの主要コンポーネントとして、以下の4つが挙げられています。

・感情的知性：感情的な状況を読み取り、それに応答する。

・会話のダイナミクス：自然なタイミング、休止、中断、強調。

・状況認識：状況に合わせて口調やスタイルを調整する。

・一貫した性格：首尾一貫し、信頼性があり、適切な存在感を維持する。

原文：

・Emotional intelligence: reading and responding to emotional contexts.

・Conversational dynamics: natural timing, pauses, interruptions and emphasis.

・Contextual awareness: adjusting tone and style to match the situation.

・Consistent personality: maintaining a coherent, reliable and appropriate presence.
引用：sesame.com

これらの特徴により、CSMは単なるツールを超え、ユーザーの生活に寄り添う「パートナー」としての役割を果たしています。

CSMを使う方法

CSMは現在、デモ版が公開されており、公式サイトから下記の手順で簡単に使用することができます。

①公式サイトにアクセスし、「Try our demo」をクリック

②「Maya」か「Miles」をクリックして会話する

CSMを実際に使ってみた感想

実際に話してみて、「人間と会話している」感覚がありました。声のトーンやリズムが自然で、また会話内容を文脈から理解して会話してくれるため、「人間と会話している」と感じたのでしょう。

現在では英語でしかコミュニケーションが取れないため、私はより細かいニュアンスなどはわかりませんが、英語が母語である人達にとってはきっと、より強く「人間と会話している」感覚があるのかなと思いました。

CSMの技術的背景

CSMの技術的基盤は、最新のAI研究と音声合成技術の融合にあります。具体的には、深層学習（ディープラーニング）を活用したニューラルネットワークが中心です。これにより、大量の音声データを学習し、自然な発話パターンを生成します。

より具体的で専門的な内容は公式サイトで確認できます。ぜひご覧ください。

CSMの評価

CSMについての評価は、客観的評価と主観的評価の2つに分けられています。

①客観的評価

引用：sesame.com

単語誤り率 (WER) や話者類似性 (SIM) などの従来のベンチマークは飽和状態になっていますが、CSM を含む最新のモデルでは、これらの指標で人間に近いパフォーマンスを実現しています。

引用：sesame.com

・同形異義語の解消によるテキスト理解（左）：モデルが同じ綴りを持つ異なる単語を正しく発音したかどうかを評価します (例: 「metal」の「lead」/lɛd/ と「to guide」の「lead」/liːd/)。

CSM-Mediumで80%を達成しました。

・発音継続の一貫性による音声理解（右）：複数ターンの音声で複数の発音バリエーションを持つ特定の単語の発音の一貫性をモデルが維持しているかどうかを評価します。一例として、「ルート」(/raʊt/ または /ruːt/) が挙げられますが、これは話者の地域やコンテキストによって異なる場合があります。

CSM-Mediumで90%を達成しました。

②主観的評価

引用：sesame.com

上の表はグラウンドトゥルースの人間による録音と CSM で生成された音声サンプルの勝率を示しています。会話のコンテキストがない場合 (上)、人間の評価者は生成された音声と実際の音声の間で明確な好みを示さず、自然さが飽和していることを示唆しています。ただし、コンテキストが含まれている場合 (下)、評価者は一貫して元の録音を好みます。

CSMの今後の展開

Sesame社はCSMのさらなる進化を目指しています。以下は今後の展開として挙げられるポイントです。

・多言語対応：CSMは現在英語のデータセットでトレーニングされているため、データセットの汚染による偶発的な多言語対応を除き英語以外で話すことはできません。そのため、今後数か月で、モデルのサイズを拡大し、データセットの量を増やし、言語サポートを 20 以上の言語に拡張する予定だそうです。

・より深い知識を備える：事前トレーニング済みの言語モデルを活用する方法も模索し、音声とテキストの両方に関する深い知識を備えた大規模なマルチモーダルモデルの構築を目指すそうです。

・会話自体の構造を学習：CSM は、会話内のテキストと音声の内容をモデル化することしかできず、会話自体の構造をモデル化することはできません。SesameはAI会話の未来は、データからこれらのダイナミクスを暗黙的に学習できる完全な二重モデルにあると考えており、そういった方向での研究を考えているそうです。

・オープンソース化の推進：Sesameは会話型AIの発展は共同作業であるべきだと考えているため、研究の主要コンポーネントをオープンソース化し、コミュニティが私たちのアプローチを実験、構築、改善できるように取り組んでいるそうです。また、SesameのモデルはApache 2.0 ライセンスのもとで利用可能になるそうです。

これらの展開により、CSMは音声生成AI市場での競争力をさらに高め、世界的な影響力を持つでしょう。

まとめ

今回PROMPTYでは、Sesame社の概要とCSMの概要や使う方法、技術的背景、評価、そして今後の展開について解説しましたが、いかがだったでしょうか。
以下がこの記事のまとめです。

Sesame社は、AIを活用した音声技術の開発に特化したアメリカ合衆国に3つの拠点を置くスタートアップ企業であり、「Bringing the computer to life(コンピューターに命を)」をミッションに掲げている。
Conversational Speech Model (CSM)は、Sesame社が開発した次世代の音声生成AIモデルである。
CSMの主要コンポーネントとして、「感情的知性」「会話のダイナミクス」「状況認識」「一貫した性格」の4つがある
会話のコンテキストがない場合、CSMで生成された音声サンプルは人間による録音とほぼ区別がつかない。
CSMは、今後数か月で、モデルのサイズを拡大し、データセットの量を増やし、言語サポートを 20 以上の言語に拡張する予定。
SesameのモデルはApache 2.0 ライセンスのもとで利用可能になる。

最後に、PROMPTYでは他の生成AI関連のサービスに関しての記事も多く取り扱っていますので、是非ご覧ください。