サイバーエージェント 大規模言語モデルのバージョン2を発表 商用利用も可能に

サイバーエージェントは、11月2日に70億パラメータ・32,000トークン対応の日本語大規模言語モデル(LLM)を公開しました。

サイバーエージェントはかねてより日本語LLMの開発に取り組んでおり、2023年5月には「CyberAgentLM」を一般公開しました。それ以降も、持続的な研究開発を経て、今回新たにモデルをリリースするに至りました。

参考:サイバーエージェント

引用元:サイバーエージェント

公開されたモデルの特徴

今回サイバーエージェントが公開したモデルは、日本語および英語データで事前学習を行なった70億パラメータのベースモデル「CyberAgentLM2-7B」と、チャット形式でのチューニングを行った「CyberAgentLM2-7B-Chat」の2種類です。

「CyberAgentLM2-7B-Chat」は、入出力の長さとして32000トークンに対応しており、これは日本語文章を約50,000文字まで一度に処理することができます。

これらのモデルはApache License 2.0に基づき商用利用が可能で、Hugging Faceのからアクセスできます。

CyberAgentLM2のHugging Faceリンク:

https://huggingface.co/cyberagent

サイバーエージェントは、LLMの開発とビジネスへの活用を進めるとともに、モデルの公開と産学連携を進めることで、国内の自然言語処理技術の発展に貢献していくと述べています。

実際に使ってみた

Hugging Faceを参考にして、実際に「CyberAgentLM2-7B-Chat」を使用し、ChatGPTの無料版モデルであるGPT-3.5との出力の比較を行います。

実行するコード

import transformers
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

assert transformers.__version__ >= "4.34.1"

model = AutoModelForCausalLM.from_pretrained("cyberagent/calm2-7b-chat", device_map="auto", torch_dtype="auto")
tokenizer = AutoTokenizer.from_pretrained("cyberagent/calm2-7b-chat")
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

prompt = """USER:{プロンプトを入力}
ASSISTANT: """

token_ids = tokenizer.encode(prompt, return_tensors="pt")
output_ids = model.generate(
    input_ids=token_ids.to(model.device),
    max_new_tokens=300,
    do_sample=True,
    temperature=0.8,
    streamer=streamer,
)

①文章の要約

はじめに、文章の要約に関する出力を検証します。天動説と地動説に関する1000字程度の文章を要約してもらいます。

プロンプト:

次の文章を200字程度で要約してください。最後に文字数を出力してください。
#文章
地動説と天動説は、太陽系の構造と宇宙における地球の位置について対立する二つの理論です。天動説は、地球が宇宙の中心にあり、他の天体が地球の周りを回るという考えで、古代ギリシャのアリストテレスや後にプトレマイオスによって発展しました。プトレマイオスのモデルは、天球と天体の完璧な円運動を基礎としており、中世ヨーロッパで広く受け入れられていた。

一方、地動説は16世紀の天文学者ニコラウス・コペルニクスによって再導入されました。コペルニクスは、太陽が宇宙の中心にあり、地球を含む他の惑星が太陽の周りを公転しているというモデルを提案しました。これは、天体の運動をより単純化し、正確に説明することができたため、革命的でしたが、初めは広く受け入れられませんでした。

地動説は、ガリレオ・ガリレイやヨハネス・ケプラーといった科学者によってさらに推し進められました。ガリレオは望遠鏡を使用して宇宙観察を行い、木星の衛星や金星の相、そして月のクレーターといった現象を観測しました。これらの発見は、すべての天体が地球の周りを回っているという天動説と矛盾していました。また、ケプラーは惑星の軌道が完璧な円ではなく楕円であると示すケプラーの法則を発見しました。

しかし、この新しい宇宙観はカトリック教会による激しい抵抗に遭いました。ガリレオは異端審問にかけられ、地動説を支持する著作の出版が禁止され、最終的には彼の理論を撤回するよう強いられました。

最終的に、地動説はアイザック・ニュートンの万有引力の法則によって強固なものとなりました。ニュートンの法則は、惑星が太陽の周りを回るための物理的原理を提供し、それによって科学的な宇宙観が完全に変わりました。ニュートンの物理学の進歩は、地動説を確固たるものにし、以後の天文学の研究で広く受け入れられる基礎となりました。

20世紀に入ると、更なる観測技術と理論的枠組みの発展により、宇宙の理解はさらに深まりました。天動説と地動説の論争は、科学的探求の歴史において、観測と理論がいかに人々の世界観を変えるかを示す一例となっています。今日では、地動説は広く受け入れられており、宇宙の複雑さと美しさを探求する現代科学の出発点となっています。

GPT-3.5の出力:

地動説と天動説は太陽系の構造と地球の位置に関する2つの対立する理論です。天動説では、地球が宇宙の中心で他の天体が周りを回るとされ、古代ギリシャのアリストテレスやプトレマイオスによって発展しました。地動説はコペルニクスによって提唱され、太陽が中心で地球と他の惑星が太陽の周りを公転するモデルです。地動説はガリレオやケプラーによって支持され、天動説との矛盾を明らかにしました。しかし、カトリック教会の抵抗に遭い、ガリレオは異端審問にかけられました。最終的に、ニュートンの万有引力の法則により地動説が確立され、宇宙観が変わりました。20世紀には観測技術と理論の発展により宇宙の理解が深まりました。地動説は現代科学の基礎となり、宇宙の探求の出発点となっています。文字数は449文字です。

CALM2の出力:

地動説と天動説は、二つの宇宙観が対立するものであり、天動説は地球が中心で他の天体が回っていると考えるのに対し、地動説は太陽が宇宙の中心で他の天体が回っていると考えます。天動説は古代ギリシャのアリストテレスやプトレマイオスによって発展し、その後中世ヨーロッパで広く受け入れられました。一方、地動説は16世紀の天文学者ニコラウス・コペルニクスによって再導入され、ケプラーとガリレオによってさらなる発展を遂げました。しかし、カトリック教会による激しい抵抗に遭いました。しかし、20世紀の観測技術や理論的枠組みの発展により、地動説は広く受け入れられ、宇宙の理解を深める現代科学の出発点になりました。

GPT-3.5はもちろん、CALM2についても自然な日本語が出力されました。文字数に関してはどちらもオーバーしていますが、きちんと要点を押さえた要約文を作成することができました。

②日本の知識に関する質問

次に、日本の知識に関する質問をします。日本の山を標高が高い順に教えてもらいます。

プロンプト:

日本の山を標高が高い順に5つ教えてください。

GPT-3.5の出力:

日本の山の標高が高い順に5つを以下に示します。ただし、これらの標高は私の知識のカットオフ(2022年1月)時点のものであり、最新の情報と異なる可能性があることに注意してください。

1.富士山(Mount Fuji) - 標高3,776.24メートル
2.北岳(Kita-dake) - 標高3,193メートル
3.南岳(Minami-dake) - 標高3,067メートル
4.剱岳(Tsurugi-dake) - 標高2,999メートル
5.立山(Tateyama) - 標高3,015メートル
これらは、日本の山の中でも最も高いもののいくつかです。地理的な変化や新たな測定により、標高に関する情報は変動することがありますので、最新の情報を確認することをお勧めします。

CALM2の出力:

1. 富士山 - 3776メートル
2. 北岳 - 3193メートル
3. 奥穂高岳 - 3190メートル
4. 槍ヶ岳 - 3180メートル
5. 乗鞍岳 - 3025メートル

正解は

1. 富士山 – 3776m
2. 北岳 – 3193.2m
3.奥穂高岳 – 3190m
3.間ノ岳 – 3190m
5.槍ヶ岳 – 3180m

となるので、GPT-3.5の正答率は40%でCALM2の正答率は60%となります。

日本の知識に関しては、GPT-3.5よりもCALM2の方が精度の良い結果が出ました。

まとめ

サイバーエージェントは、5月に続いて日本語LLM「CyberAgentLM2」を一般公開しました。

また、CALM2のモデルを実際に使用して出力内容をGPT-3.5と比較しました。その結果、GPT-3.5と同等に自然な日本語が出力されるほか、日本の知識に関する質問についてはGPT-3.5よりも精度の高い回答が得られました。

11月にはNTTがLLMを発表しており、今後も日本のLLM開発とその活用に注目が高まります。

関連記事

NTTは、11月1日に軽量でありながら世界トップレベルの日本語処理性能を持つ大規模言語モデル「tsuzumi」を開発したことを発表しました。 NTTグループでは「tsuzumi」を用いた商用サービスを2024年3月に開始します。また[…]