東京工業大学日本語能力に優れた大規模言語モデル「Swallow」を公開

2023年12月31日
AIニュース

東京工業大学の岡崎直観教授と横田理央教授らの研究チームと、国立研究開発法人産業技術総合研究所は、12月19日に大規模言語モデル「Swallow」を公開しました。
「Swallow」は、継続的な事前学習により大規模言語モデルの日本語能力を改善したことで、日本語能力に優れビジネスにも安心して活用できる特長を持っています。今後は高度な日本語処理が求められる多くの場面で、生成AI技術の利活用を推進とのことです。

参考：東京工業大学

1 開発の背景
2 大規模言語モデル「Swallow」の特長
3 「Swallow」が産学にもたらす効果
4 「Swallow」と「GPT-3.5」を比較してみた
- 4.1 ① 文章の要約
- 4.2 ② 日本の知識に関する質問
5 まとめ

開発の背景

これまで、米OpenAI社のChatGPTやGPT-4、米Google社のPaLM 2やGeminiなどの大規模言語モデルが急速に進化してきました。しかしながら、日本語に特化した高性能なモデルは限られており、このギャップを埋めるために東工大と産総研が共同で研究を行ってきました。

東工大は、データの語彙拡張を通じてモデルの学習と推論効率の改善に取り組みました。一方、産総研は、AI橋渡しクラウド（ABCI）を提供し、主に継続学習を用いたモデルの日本語能力向上に注力しました。また、この共同研究では、大規模日本語ウェブコーパスが学習データとして用いられています。これにより、より豊富な日本語データに基づいたモデルのトレーニングが可能となります。

大規模言語モデル「Swallow」の特長

① Metaの大規模言語モデル「Llama2」の日本語能力を改善

米のMeta AI社によって開発されたLlama 2は、オープンで高性能な大規模言語モデルとして世界的な支持を集めています。このモデルは多言語に対応しており、日本語も含まれています。しかし、学習データの大部分が英語であり、日本語の割合はわずか0.10%に留まるため、日本語処理は苦手な傾向にありました。

この問題に対処するため、7B, 13B, 70Bといった異なるサイズのLlama 2モデルをベースとして、日本語と英語のウェブコーパスを組み合わせたデータで継続事前学習を実施しました。このプロセスにより、日本語の理解と生成能力が大幅に改善され、ベンチマークテストで優れた性能を示しました。

② 語彙拡張による学習効率の改善

Llama 2はバイト対符号化という方法で用いてテキストをトークン化しますが、日本語の重要な単語や文字が語彙に含まれていないため、不自然なテキスト区切りが発生していました。これにより、学習や生成の効率が低下していました。

この問題に対応するため、研究チームは16,000件の日本語トークンをLlama 2のトークナイザに追加しました。この結果、日本語テキストのトークン長が56.2%削減され、学習や生成の効率が大幅に向上しました。

③ 大規模日本語ウェブコーパスの開発

大規模言語モデルの学習には膨大なデータが不可欠です。これまでにはCC-100やmC4、OSCARなどの既存データセットが利用されていましたが、これらにはノイズが含まれていたり、最新情報の収録が不十分である問題がありました。

この問題を解決するため、研究チームは2020年から2023年にかけて収集されたCommon Crawlのアーカイブから日本語テキストを独自に抽出・精錬しました。結果として、約3,121億文字（約1.73億ページ）からなる大規模な日本語ウェブコーパスが完成しました。これは、商用利用が可能なコーパスとしては最大の規模です。

「Swallow」が産学にもたらす効果

今回公開された大規模言語モデルは、学術の領域において重要な役割を果たすと考えられます。これらのモデルは、日本語の研究開発における新たな標準として機能し、自然言語処理や人工知能の分野で画期的な研究成果を生み出しています。また、信頼性の高い人工知能の開発に向けて、これらの言語モデルが重要な推進力となっています。

一方、産業の領域では、企業は外部のAPIや他社の技術に依存せずに、自社で言語モデルを運用できるようになります。さらに、これらのモデルは特定のタスクに特化してチューニングすることが可能で、より効率的で精度の高い処理が実現可能です。

東京工業大学は、日本語に強いオープンな大規模言語モデルの登場により、日本における言語モデルの研究開発や活用が一層促進され、製品開発や技術革新が進むと述べています。

「Swallow」と「GPT-3.5」を比較してみた

Google Colabを使って「Swallow」の性能をChatGPTの無料版のモデルであるGPT-3.5と比較しました。今回モデルは「tokyotech-llm/Swallow-13b-instruct-hf」を使用しました。

① 文章の要約

プロンプト：

次の文章を200字程度で要約してください。
#文章
地動説と天動説は、太陽系の構造と宇宙における地球の位置について対立する二つの理論です。天動説は、地球が宇宙の中心にあり、他の天体が地球の周りを回るという考えで、古代ギリシャのアリストテレスや後にプトレマイオスによって発展しました。プトレマイオスのモデルは、天球と天体の完璧な円運動を基礎としており、中世ヨーロッパで広く受け入れられていた。
一方、地動説は16世紀の天文学者ニコラウス・コペルニクスによって再導入されました。コペルニクスは、太陽が宇宙の中心にあり、地球を含む他の惑星が太陽の周りを公転しているというモデルを提案しました。これは、天体の運動をより単純化し、正確に説明することができたため、革命的でしたが、初めは広く受け入れられませんでした。
地動説は、ガリレオ・ガリレイやヨハネス・ケプラーといった科学者によってさらに推し進められました。ガリレオは望遠鏡を使用して宇宙観察を行い、木星の衛星や金星の相、そして月のクレーターといった現象を観測しました。これらの発見は、すべての天体が地球の周りを回っているという天動説と矛盾していました。また、ケプラーは惑星の軌道が完璧な円ではなく楕円であると示すケプラーの法則を発見しました。
しかし、この新しい宇宙観はカトリック教会による激しい抵抗に遭いました。ガリレオは異端審問にかけられ、地動説を支持する著作の出版が禁止され、最終的には彼の理論を撤回するよう強いられました。
最終的に、地動説はアイザック・ニュートンの万有引力の法則によって強固なものとなりました。ニュートンの法則は、惑星が太陽の周りを回るための物理的原理を提供し、それによって科学的な宇宙観が完全に変わりました。ニュートンの物理学の進歩は、地動説を確固たるものにし、以後の天文学の研究で広く受け入れられる基礎となりました。
20世紀に入ると、更なる観測技術と理論的枠組みの発展により、宇宙の理解はさらに深まりました。天動説と地動説の論争は、科学的探求の歴史において、観測と理論がいかに人々の世界観を変えるかを示す一例となっています。今日では、地動説は広く受け入れられており、宇宙の複雑さと美しさを探求する現代科学の出発点となっています。

Swallowの回答：

ニコラウス・コペルニクスは、16世紀に天動説に疑問を投げかけ、地動説を再提案しました。天体は地球の周りを回転しているのではなく、太陽の周りを回っていると主張した。その後、ガリレオ・ガリレイやアイザック・ニュートンなどの科学者が地動説を支持する科学的証拠をさらに提供した。地動説は20世紀まで広く支持され、現在では宇宙の理解の基礎となっている。天動説と地動説の論争は、人々の世界観と宇宙の理解をどのように変えたかの一例である。

GPT-3.5の回答：

地動説と天動説は、太陽系の構造と地球の位置に関する対立する理論です。天動説は地球が宇宙の中心で他の天体が周りを回るという考えで、プトレマイオスによって広く受け入れられました。一方、地動説はコペルニクスによって提案され、太陽が中心で地球を含む惑星が公転するモデルで、より単純で正確でしたが、初めは受け入れられませんでした。ガリレオやケプラーの観察と発見は地動説を支持しましたが、カトリック教会による抵抗に遭いました。最終的に、ニュートンの万有引力の法則により地動説が確立され、現代の宇宙観の基礎となりました。20世紀には観測技術と理論の進展により、宇宙の理解が深まり、地動説が広く受け入れられ、現代科学の基盤となりました。地動説と天動説の論争は科学的探求の歴史を示す一例であり、現代科学の出発点となっています。

どちらのモデルも違和感のない日本語が出力されています。内容については、Swallowの方は入力文の前半の内容が汲み取られていないため、若干精度が低いように思えます。出力トークン数の設定次第で結果が良くなるかもしれません。

② 日本の知識に関する質問

プロンプト：

日本の山を標高が高い順に5つ教えてください。

Swallowの回答：

富士山、北岳、奥穂高岳、間ノ岳、悪沢岳

GPT-3.5の回答：


日本の山を標高が高い順に5つ挙げると以下の通りです：
富士山（標高：3,776メートル） - 富士山は日本で最も高い山であり、国内外から多くの登山者や観光客が訪れます。
北岳（標高：3,190メートル） - 北アルプスに位置し、日本アルプスの中でも高い山の一つです。
南岳（標高：3,189メートル） - 同じく北アルプスに位置し、北岳とほぼ同じ標高を持つ山です。
立山（標高：3,015メートル） - 北陸地方に位置し、美しい景観と絶えず変化する自然環境で知られています。
鳥海山（標高：2,291メートル） - 秋田県に位置し、東北地方で最も高い山の一つです。

正解は

1. 富士山 – 3776m
2. 北岳 – 3193.2m
3.奥穂高岳 – 3190m
3.間ノ岳 – 3190m
5.槍ヶ岳 – 3180m

となるので、GPT-3.5の正答率は40％でSwallowの正答率は80%となります。

日本の知識に関しては、GPT-3.5よりもSwallowの方が精度の良い結果が出ました。

まとめ

東京工業大学と産業技術総合研究所は、新しい大規模言語モデル「Swallow」を公開しました。

継続的な事前学習により日本語が苦手な「Llama 2」の日本語能力を改善したことで、高い日本語性能を示すモデルの開発に成功しました。GPT-3.5と比較しても遜色なく、日本語の知識についてはGPT-3.5を上回っているようにも思えます。

PROMPTYでは他にも日本の大規模言語モデルを取り上げてるのでぜひご覧ください。

【2023年9月最新】注目の日本語特化のLLMを独自調査

OpenAIのGPTを始めとした大規模言語モデル（LLM）は、英語を中心に開発されている中、日本国内でも多くの企業や研究機関が日本語特化のLLMの開発に注力しています。今回PROMPTYでは、現在注目されている日本語特化の大規模言[…]

サイバーエージェント大規模言語モデルのバージョン2を発表商用利用も可能に

サイバーエージェントは、11月2日に70億パラメータ・32,000トークン対応の日本語大規模言語モデル（LLM）を公開しました。サイバーエージェントはかねてより日本語LLMの開発に取り組んでおり、2023年5月には「CyberAg[…]