【2023年9月最新】注目の日本語特化のLLMを独自調査

OpenAIのGPTを始めとした大規模言語モデル(LLM)は、英語を中心に開発されている中、日本国内でも多くの企業や研究機関が日本語特化のLLMの開発に注力しています。

今回PROMPTYでは、現在注目されている日本語特化の大規模言語モデル(LLM)を5つをご紹介します。

①株式会社サイバーエージェント OpenCALM

参考:サイバーエージェント

2023年5月17日、株式会社サイバーエージェントは、最大68億パラメータの日本語LLMを公開したことを発表しました。

ChatGPTのようなLLM・生成AI技術は急成長を遂げており、多くが英語中心に開発されている中、日本語のモデルは限られています。サイバーエージェントはこのニーズに応え、日本語に特化したLLMをHugging Face Hubで公開しました。

Open CLAMのHugging Faceリンク:

https://huggingface.co/cyberagent

サイバーエージェントは、このモデルを活用して業界に特化したLLMの構築や企業との連携によるビジネス開発を進める予定です。

また、サイバーエージェントは、継続してモデルの公開や産学連携を推進し、国内の自然言語処理技術の発展に寄与する方針を示しています。

②rinna株式会社 rinna/japanese-gpt-neox-3.6b-instruction-sft

参考:rinna

2023年5月17日、rinna株式会社は、日本語特化の36億パラメータを持つ汎用言語モデルおよび、対話言語モデルの2種類のGPT言語モデルをオープンソースで公開したことを発表しました。

これまでの多くの大規模言語モデルは英語中心で、日本語の選択肢が限られていましたが、rinnaの新しいモデルの公開により、日本語モデルの研究・開発が促進されることが期待されると述べています。

rinnaの日本語GPTモデルには、ドメイン特化ではない汎用GPT言語モデルと、対話形式の指示遂行ドメインにfine tuningした対話形式に特化した対話GPT言語モデルがあります。

それぞれ異なるデータセットで学習されており、汎用言語モデルは、日本語のオープンソースデータ(Wikipedia, C4, CC-100)を使用し、対話モデルは翻訳されたHH-RLHF・SHP・FLANのデータセットを活用しています。

モデルはHugging Face上でMIT Licenseで公開されています。

汎用GPT言語モデルのHugging Faceリンク:

https://huggingface.co/rinna/japanese-gpt-neox-3.6b

対話GPT言語モデルのHugging Faceリンク:

https://huggingface.co/rinna/japanese-gpt-neox-3.6b-instruction-sft

rinnaの研究チームが開発する大規模な事前学習モデルは、すでに自社製品に広く利用されており、今後も継続的なAI研究を推進し、研究成果を公開し、AIの社会実装の拡大を目指すと述べています。

③Stability AI株式会社 Japanese StableLM Alpha

参考:Stability AI

2023年8月10日、画像生成AI「Stable Diffusion」などで知られるStability AIは、日本語向けの汎用言語モデル「Japanese StableLM Base Alpha 7B」と、指示応答言語モデル「Japanese StableLM Instruct Alpha 7B」を公開しました。これらのモデルは、複数の日本語タスクの性能評価ツール「lm-evaluation-harness」において、他の公開されている日本語モデルと比べ高いの性能を示しています。

汎用言語モデル「Base Alpha 7B」は主にウェブを中心とした大規模なデータから学習し、学習データには日本語と英語です。さらにソースコードが約2%含まれています。学習には EleutherAI の GPT-NeoX を発展させたソフトウェアを利用しています。

指示応答言語モデル「Instruct Alpha 7B」は「Base Alpha 7B」に追加学習を施し、ユーザー指示に対応するモデルとなっています。

引用元:Stability AI

モデルの性能評価には、日本語タスクを追加した「lm-evaluation-harness」を使用し、8つのタスクで評価が行われました。「Instruct Alpha 7B」はOpenCLAMやrinnaを凌ぐスコアを記録しています。

これらのモデルはHugging Face Hubで公開され、商用利用や研究目的に応じたライセンスが適用されています。

Japanese StableLM Base Alpha 7BのHugging Faceリンク

https://huggingface.co/stabilityai/japanese-stablelm-base-alpha-7b

Japanese StableLM instruct Alpha 7BのHugging Faceリンク

https://huggingface.co/stabilityai/japanese-stablelm-instruct-alpha-7b

Stability AI Japanは、今後も同様の日本語向けの生成基盤モデルの構築・公開を続ける計画と述べています。

④LINE株式会社 japanese-large-lm

参考:LINE Engineering Blog

2023年8月14日、LINEは日本語特化の大規模言語モデル「japanese-large-lm」を公表し、オープンソースで公開したことを発表しました。

このモデルには、36億パラメーターと17億パラメーターの2種類があり、どちらもHuggingFace Hubを通じて利用可能です。ライセンスは、Apache License 2.0で商用利用も可能になっています。

japanese-large-lmのHugging Faceリンク:

https://huggingface.co/line-corporation/japanese-large-lm-1.7b
https://huggingface.co/line-corporation/japanese-large-lm-3.6b

データ構築の品質を高めるために、「HojiChar」というOSSライブラリを活用してフィルタリングを施し、LINE独自の日本語Webコーパスを使用してモデルの訓練を行ったと述べています。

LINEは2020年11月から「HyperCLOVA」という独自の大規模言語モデルの開発にも注力しているが、「japanese-large-lm」はそれとは異なる開発ユニットで開発されています。このチームはさらに、指示文に基づいて適切なレスポンスを返すようにチューニングしたモデルの公開予定と述べています。

関連記事

LINEによって開発された、日本語言語モデル「japanese-large-lm(ジャパニーズ ラージ エルエム)」が、OSSとして公開されています。 「japanese-large-lm(ジャパニーズ ラージ エルエム)」の開発は[…]

⑤株式会社ELYZA ELYZA-japanese-Llama-2-7b

参考:PRTIMES, ELYZA

2023年8月29日、株式会社ELYZAはMetaが開発した大規模言語モデル「Llama 2」を基に日本語の追加学習を施し、70億パラメータのと日本語のLLMを「ELYZA-japanese-Llama-2-7b」を開発したことを発表しました。

東京大学松尾研究室から派生したAIスタートアップで、言語生成AIの社会実装を推進しています。

このモデルは、公開されている日本語LLMの中で最大級であり、性能も非常に高く、1750億パラメータの「GPT-3.5 (text-davinci-003)」にも匹敵する結果が得られています。

ELYZA-japanese-LlamaのHugging Faceリンク:

https://huggingface.co/elyza/ELYZA-japanese-Llama-2-7b
https://huggingface.co/elyza/ELYZA-japanese-Llama-2-7b-instruct
https://huggingface.co/elyza/ELYZA-japanese-Llama-2-7b-fast
https://huggingface.co/elyza/ELYZA-japanese-Llama-2-7b-fast-instruct

また、ブログにてモデルの特徴や性能を公開しています。

「ELYZA-japanese-Llama-2-7b」は、OSCARやWikipediaなどの清潔な日本語テキストを使用して学習し、ELYZAのオリジナルな事後学習や日本語の語彙追加を取り入れたバリエーションも存在します。さらに、ELYZAは「Llama 2」の130億や700億パラメータのモデルの日本語化もすでに着手していると述べています。

ELYZA、国内の言語生成AI開発のリーダーとして、L日本全体のLLM活用やLLMの技術力向上を加速することで、得られた成果を商用利用の形で公開、企業案件を通じて社会に還元する方針を継続すると述べています。

まとめ

今回PROMPTYでは、2023年9月までに公開された日本語の大規模言語モデル(LLM)を5つ紹介しました。

  • サイバーエージェント OpenCALM
  • rinna株式会社 rinna/japanese-gpt-neox-3.6b-instruction-sft
  • Stability AI Japanese StableLM Alpha
  • LINE japanese-large-lm
  • 株式会社ELYZA ELYZA-japanese-Llama-2-7b

今回の例を参考に、皆さまも最新LLMの活用を始めてみてはいかがでしょうか。

PROMPTYでは、他にも生成AIについての記事も多く扱っているので、是非ご覧ください。