Google 次世代AIモデル「Gemini 1.5」を公開最大100万トークンを実行可能

2024年2月22日
AIニュース

Googleは2月15日（現地時間）、新しいAIモデル「Gemini 1.5」を発表しました。

先日Googleが公開したGemini 1.0に改良を重ねたモデルで、最大100万トークンを継続的に処理することができるため、長文理解の能力が大幅に向上しています。

今回、最初に公開されたモデルは中規模のマルチモーダルモデルGemini 1.5 Proです。

Google 専門家を上回る性能の生成AIモデル「Gemini」を発表最新の活用事例をご紹介！

Googleはｍ、12月6日（現地時間）に新しいAIモデル「Gemini」を発表しました。現在は英語版のBardで利用可能であり、日本でも利用することができます。 GeminiはGPT-4を超える性能から、高い注目を浴びており、MM[…]

Google 高性能なAIモデルを搭載した「Gemini Advanced」を提供開始 BardがGeminiに名称変更

米Googleは、2月8日（現地時間）に対話型生成AIサービス「Bard」を「Gemini」へのブランド変更を発表しました。また、新たに有料プランの「Gemini Advanced」とAndroid/iOS向けのモバイルアプリを提供するこ[…]

Introducing Gemini 1.5: our next-generation model with dramatically enhanced performance. It also achieves a breakthrough in long-context understanding.

The first release is 1.5 Pro, capable of processing up to 1 million tokens of information. 🧵 https://t.co/qT0aXdFL0n pic.twitter.com/xA0ib11f00
— Google DeepMind (@GoogleDeepMind) February 15, 2024

参考：Google Japan Blog

1 革新的なモデルアーキテクチャ
2 コンテキストウィンドウが大幅に増加
3 Gemini 1.5 Proの活用例
4 まとめ

革新的なモデルアーキテクチャ

Gemini 1.5は、TransformerおよびMixture–of-Experts (MoE) アーキテクチャに基づいて構築されています。従来のTransformerは1つの大きなニューラルネットワークとして機能する一方で、MoEモデルはより小さな「エキスパート」ニューラルネットワークに分割されます。

このようなモデルアーキテクチャによるイノベーションによって、Gemini 1.5は複雑なタスクを品質を維持しながら実行可能であり、サービスの効率が大幅に向上しています。

コンテキストウィンドウが大幅に増加

Gemini 1.5 Proのコンテキストウィンドウは、Gemini 1.0 の32,000トークンから増加し、128,000トークンを標準装備しています。

さらに、特定のデベロッパーや顧客企業は、最大100万トークンのコンテキストウィンドウをテストすることができます。そのため、Gemini 1.5 Proは膨大な情報を扱うことができ、1時間の動画、11時間の音声、30,000行以上のコードを一度に処理することができます。

Gemini 1.5 Proの活用例

① PDFの内容を分析

アポロ11号の月面着陸に関する402ページのPDF（約33万トークン）をアップロードして、その内容に関する質問を投げています。

「コメディな瞬間を3つ抽出して」や「ラフな絵からその内容を説明してもらい、その瞬間の正確なタイムコードを抽出する」など、膨大な情報を参照して正しく回答できています。また、テキストだけでなく、画像認識機能も対応しているとが分かります。

② ビデオの内容に関する会話

44分間のバスター・キートンの映画（約70万トークン）をアップロードして、指定したシーンのタイムコードを抽出しています。

テキストや画像どちらの入力についても1分程度で正確なタイムコードを出力できています。

まとめ

Googleが新たなAIモデル「Gemini 1.5」を公開し、これまでのモデルを大幅に超える性能と文脈理解の進歩を実現しました。

特に、長いコンテキストウィンドウの扱いが可能になったことで、AIの新しい可能性が広がります。今回発表されたGemini 1.5が私たちの日常やビジネスにどのような影響をもたらすか、期待が高まります。

Google 次世代AIモデル「Gemini 1.5」を公開 最大100万トークンを実行可能

革新的なモデルアーキテクチャ

コンテキストウィンドウが大幅に増加

Gemini 1.5 Proの活用例

まとめ

Google 次世代AIモデル「Gemini 1.5」を公開最大100万トークンを実行可能