GoogleのLLM「Gemini-1.5-Pro-Exp-0801」が性能評価サイトで「GPT-4o」を抑えて1位に

Googleが現在開発中の大規模言語モデル(LLM)である「Gemini-1.5-Pro-Exp-0801」が、LLMの性能を評価•比較するベンチマークサイトである「Chatbot Arena」の総合ランキング1位に、OpenAIの「GPT-4o」を抑えて輝きました。

Googleが現在開発中の大規模言語モデル(LLM)である「Gemini-1.5-Pro-Exp-0801」が、LLMの性能を評価•比較するベンチマークサイト「Chatbot Arena」にて、OpenAIの「GPT-4o」を抑えて1位に浮上しました。

引用:Chatbot Arena

「Chatbot Arena」とは?

「Chatbot Arena」とはLLMの性能を評価•比較するベンチマークサイトであり、その評価方法は人間による投票となります。ユーザーは選ばれた2つの匿名のLLMに対して質問を行い、その返答からどちらが優れていると思ったかを投票します。これによりランキングを作成しています。

「Chatbot Arena」から分かる「Gemini-1.5-Pro-Exp-0801」の得手不得手

「Gemini-1.5-Pro-Exp-0801」は「Chatbot Arena」にて総合1位となりました。また、Gemini-1.5-Pro-Exp-0801」は日本語や中国語、英語などの言語や、Visionにおいて1位となっており、数学や複雑なプロンプトの領域で特に高い評価を獲得しています。一方でコーディングの性能では「Claude 3.5 Sonnet」や「GPT-4o」よりも低い評価となっています。

まとめ

Googleが開発中のLLMである「Gemini-1.5-Pro-Exp-0801」が「Chatbot Arena」の総合1位を獲得しました。また、日本語や中国語、英語などの言語や、Visionにおいても1位となっています。