LINEによって開発された、日本語言語モデル「japanese-large-lm(ジャパニーズ ラージ エルエム)」が、OSSとして公開されています。
「japanese-large-lm(ジャパニーズ ラージ エルエム)」の開発は、2020年11月から進められていた日本語に特化した大規模言語モデル「HyperCLOVA」の構築と応用に関する研究開発プロジェクトの一環として行われたようです。
※言語モデル・・・自然言語の文法や構造を学習し、テキストの生成や理解を行う数学的なモデルのこと。ChatGPTも言語モデルの一種であり、会話や文章の生成に特化しています。
新しい日本語言語モデルの利用方法
「japanese-large-lm(ジャパニーズ ラージ エルエム)」は、1.7Bモデル、3.6Bモデルの2種類とも、HuggingFace Hubの以下のURLで公開されており、transformersライブラリから利用可能のようです。
- https://huggingface.co/line-corporation/japanese-large-lm-1.7b
- https://huggingface.co/line-corporation/japanese-large-lm-3.6b
ライセンスは商用利用も可能なApache License 2.0となっているため、研究者の方だけではなく、企業の方も様々な用途で利用することができます。
新しい日本語言語モデルの特徴
大規模かつ高品質な訓練データで学習
良い言語モデルを作るには、大規模かつ高品質なデータで学習をする必要があります。
「japanese-large-lm(ジャパニーズ ラージ エルエム)は、LINE独自の大規模日本語Webコーパスを基に、訓練が行われたようです。
※コーパス・・・言語学や自然言語処理の研究で使用される、特定の言語やテーマに関連するテキストの集合体
Web由来のテキストにはソースコードや非日本語文などのノイズが多く含まれるため、フィルタリング処理をして高品質なデータの構築が進められています。
今回のフィルタリング処理には、NLPチームが開発したOSSライブラリ「HojiChar」が使用されたようです。
最終的には約650GBのコーパスが学習に利用されており、一般的に英語の大規模コーパスとして用いられる「Pileコーパス」の約800GBと比較しても、遜色ない学習データの規模です。
効率的な実装
LINEは、3D ParallelismやActivation Checkpointingといった先進的なテクニックの活用によって、バッチサイズを大幅に拡大し、モデルの学習を高速化したようです。
具体的な学習時間については、1.7Bモデルの構築にA100 80GBを使用し、約4000GPU時間が費やされたとしています。
日本語の大規模言語モデルの学習時間に関する公開情報は少なく、直接的な比較は困難ですが、rinna 0.3Bモデルの学習にV100 32GBで約8600GPU時間がかかったことと比較すると、効率的な学習が実現されていると言えます。
新しい日本語言語モデルの性能
LINEは、新たに開発された日本語言語モデルの性能評価が行わい、その結果を公表しています。
評価は、Perplexityスコア(PPL)および質問応答・読解タスクの正解率によって測定されています。
PPLはモデルが単語をどれだけ正確に予測できたかを示す値で、小さいほど性能が良いとされます。
PPLの計測にはC4データセットが使用され、質問応答・読解タスクには「AI王 〜クイズAI日本一決定戦〜」と「JSQuAD」の開発データが用いらています。
評価の結果、PPLが良いモデルはfinetuning時の性能も良いことが確認されています。
さらに、2023年7月現在広く使われている「Rinna-3.6B」、「OpenCALM-7B」、および「rinna/bilingual-gpt-neox-4b」の性能も記録され、比較が行われました。
新開発の1.7Bモデルと3.6Bモデルの性能評価を見ると、それぞれOpenCALM-7BとRinna-3.6Bと同等または一部のタスクで優れた性能を示しています。
また、訓練データの品質向上の効果についても言及されており、Webコーパスから文法が不自然な文章や重複文、日本語以外の言語の文書を除去することで、性能と生成文の品質が向上することが報告されています。
このようなフィルタリングを行わない場合、繰り返しや文法が不自然な文章を生成しやすくなるとの分析も示されています。
まとめ
LINE社による日本語言語モデル「japanese-large-lm」の公開は、650GBもの大規模な日本語Webコーパスを基にした訓練、効率的な学習手法、データの品質管理など、日本語の自然言語処理分野において重要な進展となりうるのではないでしょうか。