GoogleがLLMに「視覚」を与えた大規模視覚モデル(LVM)のデモページを公開

Googleは米国時間の2023年8月22日、LLMに「視覚」を与えた新技術「大規模視覚モデル(LVM)」のデモページを披露しました。

大規模視覚モデル(LVM)とは

LVMは、言語モデルの進化版とも言える技術です。従来の言語モデルがテキスト情報を中心に解析していたのに対し、LVMは「視覚」を持ち合わせ、画像情報の解析も行います。

この技術により、テキストだけでなく、画像に関連する情報も抽出・解析することが可能になりました。

LVMのデモは以下のURLで見ることが可能です。こちらのデモサイトでは「MERCARI TEXT-TO-IMAGE」とあるようにメルカリの商品データを使用することが可能です。

引用:AI Demos

今回は、「MERCARI TEXT-TO-IMAGE」を選択した上で、Search by textの部分に「Animation Poster(=アニメのポスター)と入力してみます。

引用:AI Demos

このようにアニメのポスターをメルカリから取得することができました。このようにLVMは画像情報を解析し、テキスト情報から最適な画像情報を呼び出すことが可能です。

引用:AI Demos

他にも「Yellow T-shirt(=黄色いTシャツ)」として見ると、しっかりと黄色を認識して黄色いTシャツを出力できていることが分かります。

大規模視覚モデル(LVM)の応用例

LVMの応用例としては、インターネットオークションの出品時に、商品の画像をアップロードするだけで、関連するタイトルや説明を自動生成する機能などが挙げられます。

引用:Google Cloud

また、セキュリティカメラの映像をテキストキーワード、例えば「燃えている機械」などで効率的に管理する用途も想定されています。さらに、自動運転技術のデータ整理など、機械学習の分野での活用も見込まれています。

大規模視覚モデル(LVM)に寄せられる期待

大規模視覚モデル(LVM)の導入は、従来のテキスト中心の情報処理の枠組みを大きく進化させるものと考えられます。LVMが「視覚」を持つことで、単に文字情報だけでなく、画像からの情報抽出が可能になったことは、データ解析の幅を大幅に広げるものです。

これは特に、近年増加しているビジュアルコンテンツの需要に対応する形での進化と言えるでしょう。SNSやEコマースサイトなど、画像や動画が主要な情報伝達手段となっている現代において、LVMは非常に大きな影響力を持つと考えられます。具体的には、商品推薦や広告のターゲティング、さらにはユーザーエクスペリエンスの向上など、多岐にわたる分野での活用が期待されます。

今後、LVMが普及すると、情報検索やEコマースの取引、そしてマーケティングの領域において、画像中心のアプローチが主流となる可能性もあると言えます。また、この技術がさらに発展することで、例えばリアルタイムでの環境解析や、AIによるアートの創作など、私たちの日常やビジネスの多くの面での変革が起こることでしょう。

まとめ

今回PROMPTYでは、この新技術の概要や応用例などについて解説してきましたが、いかがだったでしょうか。

Googleの新しい「大規模視覚モデル(LVM)」は、画像とテキストの解析を組み合わせた新時代の技術です。オークション出品のサポートやセキュリティカメラの管理など、さまざまな応用例が期待されます。