株式会社ELYZAは6月26日、「GPT-4」を上回る日本語性能を持つ「Llama-3-ELYZA-JP」を発表しました。
「Llama-3-ELYZA-JP」は海外の大規模言語モデル(LLM)をベースに日本語での追加学習をさせたモデルとなっています。
現在は無料デモ版や商業利用が可能なモデルが公開されており、実際に使ってみることができます。
700億パラメータの言語モデル
「Llama-3-ELYZA-JP」はMeta社の「Llama 3」をベースに日本語での追加学習を行ったものです。
今回公開されたモデルは以下の2つです。
・「Llama-3-ELYZA-JP-70B」:700億のパラメータを持つモデル
・「Llama-3-ELYZA-JP-8B」:80億のパラメータを持つモデル
「Llama-3-ELYZA-JP-70B」は無料デモ版が公式HP、「Llama-3-ELYZA-JP-8B」はHugging Faceにて公開されています。
また、80億のパラメータモデルに関しては、Llama 3 Community Licenseのポリシーに従う限りにおいて商業利用が可能です。
既存モデルを凌ぐ日本語能力
本モデルは基となった「Llama 3」と比べ日本語性能が大きく向上しています。
出典:ELYZA, Inc.
「Llama-3-ELYZA-JP-70B」は「GPT-4」「Claude 3 Sonnet」「Gemini 1.5 Flash」といった、現在非常に優秀とされているモデルを凌ぐ日本語性能を発揮します。
また、「Llama-3-ELYZA-JP-8B」は比較的軽量化されたモデルでありながらも、「GPT-3.5 Turbo」「Claude 3 Haiku」「Gemini 1.0 Pro」といったモデルに匹敵する性能があります。
ELYZAの取り組み
日本人向け大規模言語モデル(LLM)の開発において、NTTやソフトバンクなどは0から言語モデルを開発しています。
他方ELYZAは、既存モデルに対し独自のデータセットを事後学習させることにより、開発費用を削減しつつも最高品質の日本語LLMを開発することに成功しました。
また、モデルの大規模化に伴う推論速度の低下にはpeculative Decoding と呼ばれる高速化技術を用いることで、性能を可能な限り維持した応答を可能にしています。
出典:ELYZA, Inc.
これによりpeculative Decodingを適応していない「Llama-3-ELYZA-JP-70B」に比べて1.6倍、同高速化技術を適応した「Llama-3-ELYZA-JP-8B-instruct」(英語版LLM)に比べ1.16倍の高速化に成功しています。
正に日本語に最適化された大規模言語モデルと言えます。
まとめ
株式会社ELYZAは6月26日、「GPT-4」を上回る日本語性能を持つ「Llama-3-ELYZA-JP」を発表しました。
今後も海外モデルの日本語化や独自LLMの開発に注力していくと述べており、日本語に最適化された生成AIの登場に期待できるでしょう。