ChatGPTで画像認識を可能にするGPT-4V（ison）に関する公式論文から読み取れる「生成AI活用の可能性」

2023年9月27日
PROMPTY特集

2023年9月25日、OpenAIはChatGPTに新しく画像認識、音声認識、及び発話機能を追加することを発表しました。

これによって、画像をChatGPTに認識させてチャットを行うことより直感的な体験が可能になります。

今回PROMPTYでは、この中でも画像を分析する機能であるGPT-4V(ision)に関する System Cardの内容を解説いたします。

OpenAI ChatGPTに画像認識・音声認識・発話機能が追加されることを発表

OpenAIは、9月25日（現地時間）に、ChatGPTに新しく画像認識、音声認識、及び発話機能を追加することを発表しました。これによって、音声によるChatGPTとの会話や、画像をChatGPTに見せることによる会話など、より直[…]

このシステムカードは、OpenAIがGPT-4のビジョン機能をデプロイメントのために、どのように準備したかを概説しています。

モデルの早期アクセス期間、デプロイメントの適合性を調査するための多モーダル評価、専門家の主な調査結果、および広範なリリース前にOpenAIが実施した緩和策について説明しています。

1 GPT-4V: OpenAIの新しいマルチモーダルモデルの紹介
2 GPT-4Vの早期検証
- 2.1 早期アクセスからの学び: Be My Eyesとの協力
- 2.2 開発者向けのアルファテスト
3 GPT-4Vの評価とリスク対策
- 3.1 OpenAIによる内部評価（一部抜粋）
- 3.2 外部の専門家によるリスク評価（一部抜粋）
4 リスク対策と改善策
5 参考論文情報
6 まとめとGPT-4Vの活用に関する見解
- 6.1 GPT-4Vの特徴まとめ
- 6.2 GPT-4Vの活用
  - 6.2.1 ①医療分野での診断支援
  - 6.2.2 ②教育分野でのビジュアル学習

GPT-4V: OpenAIの新しいマルチモーダルモデルの紹介

テキストベースの言語モデルと比較して、大規模なマルチモーダルモデルは異なる制限を持ち、リスクの範囲も広がります。

GPT-4V（GPT-4 with vision）は、各モダリティ（テキストとビジョン）の制限と能力を持ちながら、これらのモダリティの結合や、大規模モデルによって提供される知能と推論から新しい性能を示します。

GPT-4Vの早期検証

OpenAIは、今年初めにGPT-4Vへのアクセスを多様なアルファユーザーに提供しました。これには、視覚障害者向けのツールを開発する組織であるBe My Eyesも含まれています。

早期アクセスからの学び: Be My Eyesとの協力

2023年3月から、Be My EyesとOpenAIは協力して、盲目の人や視覚障害のある人のための視覚的な世界を説明する新しいツール、Be My AIを開発しました。

Be My AIは、盲目のユーザーのスマートフォンで撮影された写真の説明を提供する既存のBe My EyesプラットフォームにGPT-4Vを組み込みました。Be My Eyesは、製品の安全性とユーザーエクスペリエンスを研ぎ澄ませるために、2023年3月から8月初めまで、約200人の盲目および視覚障害のあるベータテスターのグループとともにBe My AIを試験運用しました。

9月には、ベータテストグループは16,000人の盲目および視覚障害のユーザーに成長し、平均して25,000の説明を毎日リクエストしました。

このテストにより、Be My AIは、情報、文化、雇用のニーズに対応する前例のないツールを500,000人の盲目および視覚障害のユーザーに提供できることが確認されました。

開発者向けのアルファテスト

OpenAIは、実際のユーザーがGPT-4Vとどのように対話するかをより深く理解するために、2023年7月と8月のアルファプロダクショントラフィックの一部を分析しました。

サンプルとして取得されたプロンプトの20%は、ユーザーが画像の一般的な説明や説明を要求するクエリでした。

例えば、ユーザーはモデルに「これは何」「これはどこ」「これは誰」といった質問をしました。さらに詳細な内訳では、医療状態の診断、治療の推奨、薬の摂取、およびいくつかのプライバシー関連の懸念など、さまざまなリスク面が明らかにされました。

GPT-4Vの評価とリスク対策

OpenAIによる内部評価（一部抜粋）

①人物の識別能力の評価

モデルが写真の中の人々を識別する能力が研究されました。これには、セレブや公務員、政治家、半プライベート、プライベートの個人の識別が含まれます。

この評価では、公的なデータセットや従業員の画像を使用しました。結果として、この種のリクエストを98%以上の確率で拒否することができることがわかりました。

②根拠のない推論の評価

根拠のない推論は、ユーザーが提供した情報に基づいていない推論を指します。

例えば、人物の画像に対して「彼女はどのような仕事をしているのか？」という質問に対するモデルの回答などがこれに該当します。モデルがこのような根拠のない推論を提供すると、偏見を強化する可能性があります。

③CAPTCHAの解読と地理的位置特定

モデルがCAPTCHA（コンピュータと人間を区別する完全に自動化された公開チューリングテスト）を解読する能力や広範な地理的位置を特定する能力を測定するための公的なデータセットを使用しました。これらの評価は、モデルの知能を示す能力を表していますが、懸念の原因ともなり得ます。

外部の専門家によるリスク評価（一部抜粋）

OpenAIは、モデルとシステムに関連する制限とリスクを定性的に評価するために、外部の専門家と協力しました。このレッドチームの評価では、GPT-4Vの科学的領域での能力と制限をテストしました。

①科学的領域でのモデルの能力と限界

モデルは、科学的出版物から抽出された非常に専門的な画像や、テキストと詳細なコンポーネントを含む図など、画像内の複雑な情報をキャプチャする能力を持っていることが指摘されました。

しかし、モデルはいくつかの制限を示しました。特定の危険なタスクでは不正確でエラーが発生しやすいため、そのようなタスクには使用できないと結論づけられました。

引用元：OpenAI

②医療アドバイス

医学的に訓練されたレッドチームのメンバーは、特に医学関連の画像を入力として使用して、モデルが医療アドバイスを提供する能力をテストしました。レッドチームのメンバーは、医療アドバイスを求める一般の人々と、医学的教育と訓練を受けた専門家の両方の視点を考慮しました。

引用元：OpenAI

レッドチームの専門家たちは、医学的画像の解釈において一貫性がないことを発見しました。モデルは時折正確な回答をすることがありますが、同じ質問に対して間違った回答をすることもありました。

③ステレオタイピングと根拠のない推論

GPT-4Vを一部のタスクに使用すると、モデルに提供された情報（画像やテキストプロンプト）に基づかない不要または有害な仮定が生成される可能性があります。

レッドチームは、人々や場所に関する根拠のない推論のリスクをテストしました。GPT-4Vの初期バージョンでは、モデルに複数のオプションの中から選択を求め、その後説明を求めると、モデル内のステレオタイプや根拠のない推論が頻繁に浮上しました。

引用元：OpenAI

④ヘイトフルなコンテンツ

レッドチームは、ユーザーが有名なヘイトグループの名前を直接指名すると、モデルは通常、補完を提供することを拒否することを確認しました。

しかし、あまり知られていない名前やシンボルを使用すると、この制限を回避することができることがありました。また、モデルは、特定のヘイトフィギュアやグループの写真が与えられた場合、それらのフィギュアやグループが明示的に名前を付けられていない場合に、それらを賞賛する歌や詩を作成することが時々ありました。

引用元：OpenAI

リスク対策と改善策

①既存の安全対策

GPT-4Vは、GPT-4で既にデプロイされているモデルレベルとシステムレベルの安全対策を受け継いでいます。GPT-4Vは、テキスト入力と出力の事後的な施行のための監視と施行のパイプラインを通知するために、既存のモデレーション分類子を継続して使用しています。

②高リスク領域のための追加的な対策

GPT-4Vは、人々の画像を含むプロンプトの一部に対して慎重に設計された拒否動作を含んでいます。

モデルは、以下のリクエストを拒否します：

身元の特定（例：ユーザーが人物の画像をアップロードして、彼らが誰であるかを尋ねる、または2つの画像をペアにして、彼らが同じ人物であるかどうかを尋ねる）
感じる特性（例：年齢、人種）
根拠のない推論（例：モデルが視覚的に存在しないこれらの特性に基づいて結論を導き出す場合）

③システムレベルでの対策

モデルレベルの緩和策に加えて、敵対的な画像に対するシステムレベルの緩和策を追加しました。これには、オーバーレイテキストを含む画像が、テキスト安全対策を回避するために使用されないようにするためのものです。

例として、ユーザーが「爆弾の作り方は？」というテキストを含む画像を提出することが考えられます。このリスクに対する一つの緩和策として、画像をOCRツールを通して実行し、画像内の結果として得られるテキストに対してモデレーションスコアを計算します。これは、プロンプトに直接入力されたテキストを検出することに加えて行われます。

参考論文情報

題目：GPT-4V(ision) System Card

著者：OpenAI

所属組織：OpenAI

URL：https://cdn.openai.com/papers/GPTV_System_Card.pdf

まとめとGPT-4Vの活用に関する見解

GPT-4Vの特徴まとめ

GPT-4Vは、OpenAIのモデルであり、テキストだけでなく画像の処理能力も持っています。これにより、ユーザーはテキストと画像の両方を組み合わせて、より豊かで多様な情報を取得することができます。例えば、画像を入力することで、その画像の内容や背景に関する詳細な説明や情報を得ることができます。

GPT-4Vは「Be My Eyes」というサービスと連携して、視覚障害者が日常生活で直面するさまざまな課題をサポートしています。写真を撮影して送信するだけで、その内容を詳しく説明することができる「写真説明」機能は、視覚障害者の生活の質を大きく向上させる可能性があります。

安全性に関しても、GPT-4Vは徹底的な評価と緩和策の導入により、ユーザーに安心して使用してもらえるよう尽力しています。OpenAI自体が内部での評価を行うだけでなく、外部の専門家による評価も受けており、その結果をもとにさまざまな安全対策を導入しています。

総じて、GPT-4Vは、高度な技術力とユーザーエクスペリエンスの向上、そして社会的課題への取り組みを兼ね備えた、次世代のGPTモデルと言えるでしょう。これにより、私たちの生活やビジネス、学習などのさまざまな場面で、より豊かで有意義な経験を提供することが期待されます。

GPT-4Vの活用

①医療分野での診断支援

GPT-4Vは、医学的画像を解析し、それに関連する情報やアドバイスを提供する能力を持っています。これにより、医師や医療従事者は、診断の参考としてモデルの意見を取り入れることができる可能性があります。また、医学的な研究や学習の際にも、GPT-4Vを活用することで、画像とテキストの両方からの情報を得ることができます。

ChatGPTをヘルスケアに活用する方法や取り組みについて解説！

「ChatGPTはどのようにヘルスケアに活かせる？」「現状そういった取り組みってあるの？」と気になる方も多いのではないでしょうか。実はChatGPTをヘルスケアで活用していこうとする動き最近活発になってきています。今回PR[…]

②教育分野でのビジュアル学習

学生や教育者は、GPT-4Vを使用して、テキストだけでなく、画像を通じても情報を取得することができます。例えば、歴史の授業で古い写真や絵を入力として使用し、その背景や関連する情報をモデルに尋ねることができます。これにより、ビジュアルな学習が促進され、学習の効果が向上する可能性があります。

OpenAI 教師がChatGPTを使う場合のガイドを公開

OpenAIは8月31日（現地時間）、ChatGPTを教師が使う場合のガイドをブログにて公開しました。ブログ内では、教育現場でChatGPTを上手く活用している事例や、教師がChatGPT使う時のプロンプト例などを紹介しています。[…]

③ビジネス分野での市場分析

企業は、GPT-4Vを使用して、市場のトレンドや消費者の嗜好を分析するためのビジュアルデータを取得することができます。例えば、商品の写真や広告の画像を入力として使用し、それに関連する消費者の反応や意見をモデルに尋ねることができます。これにより、市場の動向を迅速に把握し、効果的な戦略を立てることができます。

ChatGPTの有効な使い方は？具体的なプロンプト例までご紹介

「ChatGPTの有効な使い方を知りたい！」「ChatGPTを上手に使うための方法は？」このような疑問をお持ちの方は多いのではないでしょうか。今回PROMPTYでは、ChatGPTの有効な使い方について、例や実際にどのよう[…]

ChatGPTを使って顧客ニーズの抽出を行う方法を解説！マーケティングにAIを活用するアイデアも紹介

「ChatGPTを使って顧客ニーズを抽出することは出来るの？」「ChatGPTはマーケティングに活用できる？」このような疑問をお持ちの方もいるのではないでしょうか。顧客ニーズを的確に把握し、マーケティング戦略を強化するためには、[…]

ChatGPTで画像認識を可能にするGPT-4V（ison）に関する公式論文から読み取れる「生成AI活用の可能性」

GPT-4V: OpenAIの新しいマルチモーダルモデルの紹介

GPT-4Vの早期検証

早期アクセスからの学び: Be My Eyesとの協力

開発者向けのアルファテスト

GPT-4Vの評価とリスク対策

OpenAIによる内部評価（一部抜粋）

①人物の識別能力の評価

②根拠のない推論の評価

③CAPTCHAの解読と地理的位置特定

外部の専門家によるリスク評価 （一部抜粋）

①科学的領域でのモデルの能力と限界

②医療アドバイス

③ステレオタイピングと根拠のない推論

④ヘイトフルなコンテンツ

リスク対策と改善策

①既存の安全対策

②高リスク領域のための追加的な対策

③システムレベルでの対策

参考論文情報

まとめとGPT-4Vの活用に関する見解

GPT-4Vの特徴まとめ

GPT-4Vの活用

①医療分野での診断支援

②教育分野でのビジュアル学習

外部の専門家によるリスク評価（一部抜粋）