イーロン・マスク氏率いるxAIは、11月4日に「Grok」という新しいAIモデルを発表しました。
Grokは最新の情報にも対応しており、LLMの性能はベンチマークスコアでGPT-3.5を上回る結果を出しています。
現在、Grokは初期β版で、米国内のユーザー限定でウェイトリストに登録できます。
参考:xAI
Grokとは?
「Grok」はイーロン・マスク氏が率いるxAIが開発した新しいAIモデルです。現在は2ヵ月のトレーニングを経た初期のベータ版となっています。
このモデルは、ダグラス・アダムスのSF小説「銀河ヒッチハイク・ガイド」をモデルに開発されたとされ、全てに答えを与えることを目的としています。さらに、複雑な問いに対してはどんな質問をすればいいか提案する機能を持っています。
Grokは、他の生成AIと異なり少しウィットに富んだ質問に答えるように設計されており、反抗的な一面もあるので、ユーモアが嫌いな人は使わないでくださいとアナウンスされています。
また、GrokはXのプラットフォームを介して世界のリアルタイム情報にアクセスすることができます。例として「最後にジョー・ローガンがイーロン・マスクにインタビューしたのはいつ?」という質問に対して、2023年10月31日のジョー・ローガンとのインタビュー情報を参照した回答をイーロン・マスク氏自らの投稿でこの機能を紹介しています。
LLMの性能
Grokは「Grok-1」というモデルがベースとなっています。元々のプロトタイプである「Grok-0」は330億パラメータを持ち、Metaが開発した「LLaMA(700億パラメータ)」にも匹敵する性能を持っていました。
その後、xAIは2か月間で「Grok-0」をベースに推論とコーディングの能力を大幅に向上させ、HumanEval(Pythonのコード補完タスク)で63.2%、MMLU(多領域の選択肢問題)で73%を達成した言語モデルGrok-1を開発しました。
結果として、既存の標準的なモデルを多くのベンチマークで上回る結果を達成しました。特に、OpenAIの「GPT-3.5」やInflection AIの「Inflection-1」といった他の計算クラスのモデルを凌駕する成績を収めています。
Grokと他のLLMのベンチマークテスト結果の比較
Benchmark | Grok-0 (33B) | LLaMa 2 70B | Inflection-1 | GPT-3.5 | Grok-1 | Palm 2 | Claude 2 | GPT-4 |
---|---|---|---|---|---|---|---|---|
GSM8k | 56.8% 8-shot | 56.8% 8-shot | 62.9% 8-shot | 57.1% 8-shot | 62.9% 8-shot | 80.7% 8-shot | 88.0% 8-shot | 92.0% 8-shot |
MMLU | 65.7% 5-shot | 68.9% 5-shot | 72.7% 5-shot | 70.0% 5-shot | 73.0% 5-shot | 78.0% 5-shot | 75.0% 5-shot + CoT | 86.4% 5-shot |
HumanEval | 39.7% 0-shot | 29.9% 0-shot | 35.4% 0-shot | 48.1% 0-shot | 63.2% 0-shot | – | 70% 0-shot | 67% 0-shot |
MATH | 15.7% 4-shot | 13.5% 4-shot | 16.0% 4-shot | 23.5% 4-shot | 23.9% 4-shot | 34.6% 4-shot | – | 42.5% 4-shot |
引用元:xAI
Grokの注目機能
①マルチタスクが可能
GrokのUIでは、マルチタスクが可能になります。複数の会話を同時に実行し、進行に応じて会話を切り替えることができます。
動画の冒頭ではRustのコード生成とPythonのコード生成を同時に行っています。
②会話の分岐
会話を分岐させて様々な回答を得ることができます。応答ツリーから、個々の分岐をを行き来することができます。
動画の最後のツリーから複数の会話を分岐させて進めていることが分かります。
③VS Codeでコードスニペットを開くことができる
生成されたコードスニペットをVS Codeで開くことができます。生成AIを活用した開発がさらに捗ります。
④回答をマークダウンで編集・保存できる
回答をマークダウンエディタで開き、保存してから会話を続けることができます。②の分岐ツリーと連動して動作します。
Grokを利用するには?
Grokは現在、米国内のユーザー限定でウェイトリストに登録できます。
イーロン・マスク氏はX Premium+サービスのサブスクライバーに向けた初期ベータ版の提供を「すぐ後」に予定しています。このサービスの日本での月額料金は1,960円です。
まとめ
イーロンマスク氏が率いるxAIが新しいAIモデル「Grok」を発表しました。
ベースとなるLLMはGPT-3.5を上回るベンチマークスコアを達成しているほか、ウィットに富んだ回答の出力やXプラットフォームを介したリアルタイムの情報取得など他の生成AIにはない性能を持っています。
現在は米国ユーザーのみが対象となっているため、日本でのリリースが待ち遠しいですね。