ChatGPTはチューリングテストに合格する?GPT-4の能力について解説

「ChatGPTは本当に人間と対等に会話ができるのだろうか?」「チューリングテストに合格するほどのAIは存在するの?」そんな疑問を持つ方も多いのではないでしょうか。

LLMの技術進歩は目覚ましく、実は最新版のGPT-4はかなり高度な会話能力を持つまでになりました。

今回PROMPTYでは、ChatGPTはチューリングテストに合格できるのか?という観点でチューリングテストの概要や目的、過去の事例についてご紹介します。

チューリングテストとは?

チューリングテストとは、1950年に英国の数学者アラン・チューリング氏が提唱した、機械が人間のように思考することができるかどうかを判定する検査です。

チューリングテストは、人間と見分けがつかないほどの知能を示す機械の能力を判定するための方法として、広範囲で理解され、長い間受け入れられています。

(1)チューリングテストの目的

チューリングテストの目的は「機械が人間に似た行動をとる能力があるか否かを評価する」ことです。

チューリングテストで、審査員が人間とコンピュータの識別に誤った場合、そのコンピュータは人間のような知性を持つ行動を示すことができた、ということになります。
「機械が知能を持っているか、思考が可能かを評価する」こと自体が目的ではないということが重要です。

(2)具体的なチューリングテストの方法

チューリングテストの具体的な手順は次の通りです。

  1. テストの参加者は、2人の人間と1つのコンピュータです。その中で、一人の人間が審査員の役割を果たします。
  2. 審査員は、他の一人の人間とコンピュータと対話を行います。この際、審査員は相手がコンピュータか人間かを知らない状態で対話を進行します。
  3. テストの規定として、人間とコンピュータの両者は、審査員から見て人間と認識されるように対話を進めます。
  4. 会話は全員が隔離された状態で行われ、審査員は会話の内容以外から相手を判断できません。
  5. 会話の終了後、審査員が人間とコンピュータを区別できなければ、そのコンピュータは「人間並みの知能を持つ」と認められ、テストは合格とされます。

チューリングテストは、単にコンピュータが人間のように振る舞うかどうかを判断するだけでなく、コンピュータが持つ知識、常識、経験、応用力といった資質も測定します。審査員はマニュアルに沿った回答を見抜く能力が求められ、また質問を通じてコンピュータの学習能力を評価することも可能です。

複雑な問題を設けて映像や音楽などを組み合わせることも可能で、これは人間が行う面接に近い形式です。人間の能力を評価する面接のように、コンピュータの知能を評価する方法がチューリングテストです。

ChatGPTはチューリングテストに合格できる?

(1)チューリングテストの合格基準

チューリングが1950年に発表した論文「COMPUTING MACHINERY AND INTELLIGENCE」に基づくと、「質疑応答を5分間行った場合、対話者は対話相手が人間かコンピュータかを70%当てることができないだろう」と予測しており、現在も「審査員の30%以上が人間とコンピュータを区別できないこと」が基準となっています。

(2)コンピュータはチューリングテストに合格できるのか?

チューリングテストが注目を浴びたのは2014年です。2014年6月8日、イギリスのレディング大学で行われた試験では、ウクライナの13歳の少年を模倣した「Eugene Goostman」というプログラムを、審査員の30%以上がプログラムを人間と誤って判断し、チューリングテストに初めて合格しました。

しかし、このチューリングテストはテスト形式に問題があるとされ「疑惑のチューリングテスト合格」と看做されています。人工知能研究の世界的権威であるレイ・カーツワイル氏は、Eugene Goostmanがウクライナの13歳の少年で英語が母語でない設定が、審査員の質問を制限し、さらに5分間の試験時間では審査員を騙すことが可能であると述べています。

そして、時が進んだ2023年現在では、GPT-4を始めとしたLLMは日々進化しており、ChatGPTもバージョンアップを重ね、その性能が向上してします。近い将来、チューリングテストに合格する日が来るかもしれません。

GPT-4の能力について解説

OpenAIの技術レポートによると、GPT-3.5では司法試験で下位10%程度の成績であったことに対し、GPT-4では上位10%の成績を発揮したことから大きな注目を集めています。

(1)人間用のベンチマークテスト

下のグラフは、学問的なテストやプロフェッショナルなテストでのGPTのパフォーマンスを検討した結果です。ほとんどの試験でGPT-4はGPT-3.5を上回る結果を示しています。

GPT-4はこれらの学術的、プロフェッショナルなテストの多くで、人間と同等のパフォーマンスを発揮しています。特に、試験受験者の上位10%のスコアでUniform Bar Examination(UBE)の模擬試験を突破している点に注目できます。

引用元:gpt-4.pdf (openai.com)

(2)機械学習用のベンチマークテスト

言語モデルを評価するための学問的なベンチマークでのGPT-4の評価をみていきます。下の表は。GPT-4と最先端のSOTA(ベンチマーク専用トレーニング含む)や、数ショット評価を行ったLMの最先端のSOTAと比較しています。全てのベンチマークで、GPT-4は既存のLMを越える結果を示しています。

また、DROP以外の全てのデータセットで、ベンチマーク固有のトレーニングを受けたSOTAをも上回りました。各タスクでは、数ショット方式を使用してGPT-4のパフォーマンスを報告しています。GSM-8Kでは、GPT-4の事前学習ミックスの訓練セットの一部を加えています。複数選択の問題については、すべての選択肢(ABCD)をモデルに提示し、人間が問題を解くのと同様に回答の文字を選ばせています。

引用元:gpt-4.pdf (openai.com)

多くの既存のMLベンチマークは英語で構成されています。GPT-4の他の言語での能力を把握するために、57の主題からなる複数選択問題スイートであるMMLUベンチマークをAzure Translateを使っていくつかの言語に翻訳しています。テストされた多くの言語において、GPT-4がGPT-3.5の英語のパフォーマンスや現行の言語モデル(ChinchillaやPaLMなど)を凌ぐ結果を示しています。

まとめ

今回PROMPTYでは、コンピュータの評価方法として注目を集める「チューリングテスト」の概要や目的、具体的な方法を解説しました。

また、ChatGPTはチューリングテストに合格できるのか?という観点で、過去のチューリングテストに関する事例や、最新モデルGPT-4の能力についても紹介しました。

今回の解説を参考に、皆さまも最新のLLMが持つ可能性について考えてみてはいかがでしょうか。