NTT トップクラスの日本語性能を持つ大規模言語モデル「tsuzumi」を発表

NTTは、11月1日に軽量でありながら世界トップレベルの日本語処理性能を持つ大規模言語モデル「tsuzumi」を開発したことを発表しました。

NTTグループでは「tsuzumi」を用いた商用サービスを2024年3月に開始します。また今後の「tsuzumi」の研究開発については、さらなるマルチモーダル機能を追加することで新しい価値を創出する研究開発を推進しています。

参考:NTT

NTT版LLM「tsuzumi」の特長

今回公開されたNTT版LLMの「tsuzumi」の特長は次の通りです。

①学習・推論コストの低減
②トップレベルの日本語性能
③柔軟なチューニングに対応
④マルチモーダルに対応

①学習・推論コストの低減

「tsuzumi」は、パラメータサイズを大幅に増加させる代わりに、日本語学習データの質と量を向上させることで、非常に軽量ながら高い日本語処理能力を実現しています。

「tsuzumi」には70億パラメタの軽量版と6億パラメタの超軽量版の2種類があり、これはGPT-3の1750億パラメータに対して約300分の1および25分の1のサイズです。

引用元:NTT

推論コストはGPT-3に比べて、超軽量版では約70分の1に、軽量版は約20分の1に低減されています。

軽量版は1GPUで、超軽量版はCPUで高速に推論動作が可能で、これにより実用上必要な追加学習や推論にかかるコストを抑えることができます。

引用元:NTT

モデルが軽量であることから、ローカル環境での利用が容易となり、特に医療機関やコンタクトセンターのように、機密情報を取り扱う必要がある場所での利用が期待されています。

②トップレベルの日本語性能

「tsuzumi」は、このNTT研究所の豊富な研究データを活かし、日本語と英語に対応した高性能な言語モデルです。特に日本語処理においては、小さなパラメタサイズにも関わらず、様々なベンチマークで高い精度を実現しています。

日本の地理・政治・歴史・社会に関する質問応答タスクによって評価を行う「Rakudaベンチマーク」では、「tsuzumi」はGPT-3.5に対して52.5%の勝率を記録しました。また、国産の他のトップランクの言語モデル群に対しては70%を超える勝率を達成していることから、その日本語処理性能の高さが窺えます。

引用元:NTT

これらの結果は、2023年10月にNTTによって調査されたものです。これにより、「tsuzumi」の高い日本語処理能力と、その他の言語モデルと比較しても優れた性能を有していることが確認されました。

③柔軟なチューニングに対応

LLMのチューニングとは、モデルの挙動を特定のタスクや目標に適応させるプロセスを指します。このプロセスを通じて、モデルは特定のタスクにおいて、より精度高く、また利用者にとって有益な回答を生成する能力を向上させることが期待されています。

「tsuzumi」は、効率的に知識を学習させることができる「アダプタ」という仕組みを採用しています。これにより、特定の業界特有の言語表現や知識に対応するチューニングを、少ない追加学習で実現することが可能となっています。

引用元:NTT

2024年4月からは、さらなる柔軟性と効率化を目指して、「マルチアダプタ」という機能が導入される予定です。この機能を用いることで、複数のアダプタを「tsuzumi」本体に接続し、一つの計算機プロセスで複数のチューニング対象に応じた処理を行うことが可能となります。

引用元:NTT

これにより、サービス提供のコストを抑えつつ、企業内での細かなニーズに応じたチューニングを低コストで提供することが可能になります。

④マルチモーダルに対応

「tsuzumi」は、単にテキストを理解するだけでなく、グラフィカルな表示や音声のニュアンス、顔の表情を読み取ることができます。このモーダル拡張は2024年3月から対応予定です。

言語と視覚を組み合わせることで、これまでにない形での情報提供を実現します。例えば、文書の画像を提示しながら質問に答えることができるようになります。

視覚的読解後術の実施例として「ブランド広告よりもオンラインレビューを信用しない人の割合は?」という質問に対して、「tsuzumi」は円グラフを正確に読み取り、30%という正確な回答を提供します。

引用元:NTT

また、聴覚も加わることで、より豊かな情報理解と適切な反応が可能となります。例えば、子どもが元気のない声で話しかけた場合、単なる音声認識を超え、その状況を理解し、温かみのある優しい声で励ますことができます。これはカウンセリングやコールセンターなど、人の感情に配慮した自動応答が求められる場面で非常に有用です。

国産のLLMの開発状況

昨今、OpenAIのGPTモデルを始めとした、大規模言語モデル(LLM)の開発が注目を浴びていますが、日本の企業や研究機関からも多くのLLMが開発・公開されています。

2023年11月時点で開発されている主なモデルは次の通りです。

開発元(モデル名)公開日特長
 サイバーエージェント(OpenCALM)2023年5月17日最大68億パラメータのLLM
rinna 2023年5月17日36億パラメータを持つ汎用言語モデルと対話言語モデルの2種類を公開
NEC 2023年7月6日モデルサイズがコンパクトで、標準的なGPUサーバで動作する
Stability AI(Japanese StableLM)2023年8月10日画像生成AI「Stable Diffusion」開発元。OpenCLAMやrinnaを凌ぐ日本語性能スコア
LINE2023年8月14日36億パラメーターと17億パラメーターの2種類で照応利用可能
東大松尾研(Weblab-10B)2023年8月18日日本語だけでなく英語のデータセットも学習に用いることで、言語間の知識転移を行い、日本語の精度を向上
ELYZA(ELYZA-japanese-Llama-2)2023年8月29日「Llama 2」を基に日本語の追加学習を施し、70億パラメータのと日本語のLLM
オルツ(LHTM-OPT)2023年10月19日日本語LLMを評価する「Rakuda」ベンチマークでスコア:1152
NTT(tsuzumi)2023年11月1日軽量かつ、日本語LLMを評価する「Rakuda」ベンチマークで最高スコア:1225
関連記事

OpenAIのGPTを始めとした大規模言語モデル(LLM)は、英語を中心に開発されている中、日本国内でも多くの企業や研究機関が日本語特化のLLMの開発に注力しています。 今回PROMPTYでは、現在注目されている日本語特化の大規模言[…]

国産LLMの導入については、10月に相模原市とNECが国産生成AI導入で協定を締結しました。これは、全国の自治体で初めての事例で、今後の国産生成AIの導入とその効果に注目が高まります。

関連記事

神奈川県相模原市とNECは、10月19日に国産の生成AIに関する協定を締結しました。協定の締結式は、相模原市役所で行われ、本村賢太郎市長とNECの田中繁広副社長らが出席しました。 相模原市によると、国産の生成AIの導入は全国の自治体[…]

まとめ

NTTは大規模言語モデル「tsuzumi」を公開しました。このNTT版LLMは、軽量かつ高い日本語処理性能を持っています。また、柔軟なチューニングやマルチモーダルへの対応を見据えており、広い業界や分野で活用される期待が高まります。また、国内のLLM開発は活発に進んでおり、企業や研究機関の競争にも注目です。