Google 次世代AIモデル「Gemini 1.5」を公開 最大100万トークンを実行可能

Googleは2月15日(現地時間)、新しいAIモデル「Gemini 1.5」を発表しました。

先日Googleが公開したGemini 1.0に改良を重ねたモデルで、最大100万トークンを継続的に処理することができるため、長文理解の能力が大幅に向上しています。

今回、最初に公開されたモデルは中規模のマルチモーダルモデルGemini 1.5 Proです。

関連記事

Googleはm、12月6日(現地時間)に新しいAIモデル「Gemini」を発表しました。現在は英語版のBardで利用可能であり、日本でも利用することができます。 GeminiはGPT-4を超える性能から、高い注目を浴びており、MM[…]

関連記事

米Googleは、2月8日(現地時間)に対話型生成AIサービス「Bard」を「Gemini」へのブランド変更を発表しました。また、新たに有料プランの「Gemini Advanced」とAndroid/iOS向けのモバイルアプリを提供するこ[…]

参考:Google Japan Blog

革新的なモデルアーキテクチャ

Gemini 1.5は、TransformerおよびMixture–of-Experts (MoE) アーキテクチャに基づいて構築されています。従来のTransformerは1つの大きなニューラルネットワークとして機能する一方で、MoEモデルはより小さな「エキスパート」ニューラルネットワークに分割されます。

このようなモデルアーキテクチャによるイノベーションによって、Gemini 1.5は複雑なタスクを品質を維持しながら実行可能であり、サービスの効率が大幅に向上しています。

コンテキストウィンドウが大幅に増加

Gemini 1.5 Proのコンテキストウィンドウは、Gemini 1.0 の32,000トークンから増加し、128,000トークンを標準装備しています。

さらに、特定のデベロッパーや顧客企業は、最大100万トークンのコンテキストウィンドウをテストすることができます。そのため、Gemini 1.5 Proは膨大な情報を扱うことができ、1時間の動画、11時間の音声、30,000行以上のコードを一度に処理することができます。

Gemini 1.5 Proの活用例

① PDFの内容を分析

アポロ11号の月面着陸に関する402ページのPDF(約33万トークン)をアップロードして、その内容に関する質問を投げています。

「コメディな瞬間を3つ抽出して」や「ラフな絵からその内容を説明してもらい、その瞬間の正確なタイムコードを抽出する」など、膨大な情報を参照して正しく回答できています。また、テキストだけでなく、画像認識機能も対応しているとが分かります。

② ビデオの内容に関する会話

44分間のバスター・キートンの映画(約70万トークン)をアップロードして、指定したシーンのタイムコードを抽出しています。

テキストや画像どちらの入力についても1分程度で正確なタイムコードを出力できています。

まとめ

Googleが新たなAIモデル「Gemini 1.5」を公開し、これまでのモデルを大幅に超える性能と文脈理解の進歩を実現しました。

特に、長いコンテキストウィンドウの扱いが可能になったことで、AIの新しい可能性が広がります。今回発表されたGemini 1.5が私たちの日常やビジネスにどのような影響をもたらすか、期待が高まります。