Googleはm、12月6日(現地時間)に新しいAIモデル「Gemini」を発表しました。現在は英語版のBardで利用可能であり、日本でも利用することができます。
GeminiはGPT-4を超える性能から、高い注目を浴びており、MMLUというベンチマークで人間の専門家を上回る90.0%のスコア初めて達成しました。
Geminiとは?
「Gemini」は、Googleが開発したマルチモーダルの生成AIモデルで、テキスト、画像、音声、動画、コードなど、さまざまな種類の理解して扱うことができます。Geminiのリリースは、2023年5月の「Google I/O 2023」で予告されていました。
今回発表されたのはGeminiの最初のバージョンであり、3つのモデルが利用可能です。
- Gemini Ultra:非常に複雑なタスクに対応できる高性能かつ最大のモデル
- Gemini Pro:幅広いタスクに対応する最適なモデル
- Gemini Nano:デバイス上のタスクに最も効率的なモデル
Geminiは、現在Googleの対話型AIサービス「Bard」の英語版で利用可能です。また、Google Pixel 8 Pro にはGemini Nano が搭載され、レコーダー アプリの要約などの新機能を強化やGboard のスマート 返信などで利用することができます。
開発者向けのツールでは、12月13日からGoogle AI Studio または Vertex AI の Gemini API を介して Gemini Pro にアクセスできるようになります。また、Android開発者は、AICore を介してGemini Nano を使用して開発することができます。
Gemini Ultraは、信頼性および安全性チェックを実施し、来年に開発やや企業に向けて提供される予定です。
Geminiの性能
ベンチマークテストの結果
画像の理解から数学的推論、音声や動画の理解など32の業界ベンチマークのうち30で、Gemini Ultraはこれまでの最高水準を上回るパフォーマンスを発揮しました。
さらにGemini Ultraは、数学、物理学、歴史、法律、医学、倫理など57の科目を組み合わせた大規模マルチタスク言語理解(MMLU)テストで、90.00%のスコアを達成し、人間の専門家を上回る結果となりました。
また、新たに開発されたマルチモーダル マルチタスク ユニバーサル(MMMU)ベンチマークでも、Gemini Ultraは59.4%という高水準のスコアを記録しました。
画像ベンチマークでは、Gemini Ultraがオブジェクト文字認識(OCR)システムの支援なしで、以前のモデルを凌駕しました。これらの結果から、Geminiのマルチモーダリティ能力と、複雑な推論能力がわかります。
Geminiの性能に関する詳しい情報は、テクニカル レポートをから確認することができます。
テクニカルレポートによると、OpenAIのモデルと比較したMMLUのスコアは、
Gemini Ultra >GPT-4(ChatGPTの有料版モデル)>Gemini Pro(現在のBardのモデル) >GPT-3.5(ChatGPTの無料版モデル)>PaLM 2-L
となっています。現在使えるGemini Proは、性能面ではGPT-4に劣りますが、無料で高性能なマルチモーダルモデルが使えるのはうれしい限りです。
優れた推論能力
Gemini 1.0は、複雑な文字や視覚情報の理解において優れた能力を発揮しています。膨大なデータ量から難解な知識を見つけ出す能力を持ち合わせており、科学から金融に至るまで多岐にわたる分野でのデジタル技術の進化に貢献しています。
マルチモーダルへの対応
Gemini1.0は、テキスト、画像、音声などを同時に認識して理解できるようにトレーニングされているため、ニュアンスを含んだ情報をより理解し、複雑なトピックに関する質問に答えることができます。
高度なコーディング能力
Geminiは、Python、Java、C++、Goなど広く使われているプログラミング言語に対する理解と説明、コード生成を行うことができます。複数の言語にわたって機能するため、複雑な情報の推論を可能にし、世界をリードするコーディング基盤モデルとなります。
Geminiの使い方
現在、Gemini Proのモデルは、英語版のBardにアクセスすることで利用できます。英語版を利用するには、ウェブの言語設定を英語にする必要があります。
アカウントをクリックします。
個人情報>ウェブ向けの全般設定から言語を
言語をEnglishに設定します。
BardでGeminiを利用することができます。
Geminiの活用事例5選!
最後に、Xで投稿されているGeminiの活用例をご紹介します。
①スライドの内容を解説
複雑なスライドでもスラスラ解説してくれます。さらに、Bardとの会話によって内容を理解するための背景知識もインプットできます。
②計数問題を解く
数学問題文の写真から、テキストや図を読み取って問題を解くことができます。画像認識に加えて推論能力も優れていることが分かります。
③ 回答にUIを考えて返答
ユーザーの質問内容に応じて、チャットのみならず最適なUIで回答してくれるようです。
難しい文章でもスライドのような形式で説明してくれれば、効率的に理解できるでしょう。
④手書きのメモを認識
手書きのメモを認識して内容を説明できます。DALL-E3とGPT-4Vのように、手書きのメモを生成AIで清書できれば活用の幅が広がります。
⑤相関図(関係図)の解説
この投稿によると、図の認識はGPT-4VよりもGeminiの方が長けているようです。
まとめ
Googleは新しいマルチモーダルの生成AIモデル「Gemini」を発表しました。GeminiはNano、Pro、Ultraの3つモデルがあり、Gemini Ultraはベンチマークテストの結果でGPT-4の性能を凌駕し、人間の専門家をも超えるスコアを出しています。
今後はGemini UltraのリリースやGoogle pixelへのGeminiの実装など今後の発表が楽しみですね。
現在、Gemini ProはGoogleのBardで無料で利用できるため、皆さんもぜひ試してみてはいかがでしょうか。