東大松尾研、大規模言語モデル「Weblab-10B」をオープンソースとして公開

2023年8月18日、東京大学松尾研究室は、日本語と英語に対応した100億パラメータサイズの大規模言語モデル(Large Language Model; LLM)「Weblab-10B」を開発し、オープンソースで公開したと発表しました。

このモデルは、国内オープンソースモデルとしては最高水準の精度を誇ります。

参考:松尾研究室

生成サンプル文

引用:松尾研究室

「Weblab-10B」の詳細

Weblab-10Bの開発には、事前学習に代表的な英語のデータセット「The Pile」と日本語のデータセット「Japanese-mC4」が使用されました。

事後学習(ファインチューニング)には、5つのデータセットを使用し、日本語のベンチマークであるJGLUE評価値(下記オープンソース比較表の数値の平均)が66%から78%へと大幅に改善されました。

このモデルは、日本語だけでなく英語のデータセットも学習に用いることで、言語間の知識転移を行い、日本語の精度を向上させることを目的としています。

松尾研究室は、「この精度は、国内オープンソースモデルとしては最高水準」と述べています。

【オープンソースモデル比較表】

引用:松尾研究室

今後の展望

今後、松尾研究室はWeblab-10Bのさらなる大規模化を進めるとともに、LLMの産業実装に向けた研究を推進していく計画です。

また、画像組み込みなどのマルチモーダル化、ブラウザ・ソフトウェア・ロボット等の行動制御の実装に発展し、人工知能研究を加速させると期待されています。

まとめ

東京大学松尾研究室が開発した100億パラメータサイズの大規模言語モデル「Weblab-10B」は、日本語と英語に対応し、国内オープンソースモデルとしては最高水準の精度を持っています。

今後の展開として、さらなる大規模化や産業実装に向けた研究が進められる予定です。

この開発が日本の人工知能研究の新たなステップとなることが期待されます。