ハルシネーションとは
ハルシネーションとは、AIが生成する情報が現実や事実に基づいていない場合を指します。この現象は、言語モデル(特に大規模なもの)が正確な情報を提供するのではなく、文脈に適合するように見える回答を生成することから生じます。
ハルシネーションは、事実に基づいていない情報や架空の出来事を生成することがあり、AIの応答が信頼性を欠く場合があります。モデルの改善やハイパーパラメータの調整によって、ハルシネーションの発生を低減させることができますが、それでも完全に防ぐことは難しい場合があります。
ハイパーパラメータとは ハイパーパラメーターは、言語モデルのトレーニングや推論中に動作を決定する設定です。 これらのハイパーパラメーターを変更することで、モデルの出力の品質や多様性に影響を与え、特定のタスクやアプリケー[…]
ハルシネーションが起きる理由
学習データの誤り・バイアスによるハルシネーション
AIは大量のテキストデータを学習してパターンを認識し、新しい文章を生成します。学習データには正確な情報だけでなく、誤った情報やデマ、フィクションも含まれています。そのため、AIは事実に基づかない情報を学び、それらを新しい文章生成に取り入れる可能性があります。
また、訓練データはインターネット上のテキストを大量に収集したもので、その中には偏った見解や不正確な情報が含まれることがあります。AIはこれらのデータを学習し、そのバイアスを無意識に取り入れてしまうことがあります。その結果、ハルシネーションを引き起こすことがあります。
文脈重視の回答によるハルシネーション
AIは、入力されたテキストに関連する文脈に適応した回答を生成することを目指しています。そのため、正確さよりも意味合いや文脈の適合性を重視して回答が生成されることがあります。このプロセスの中で、事実に基づかない情報が含まれることがあり、ハルシネーションが発生することがあります
情報の古さによるハルシネーション
ChatGPT(GPT-3.5やGPT-4)の知識は、2021年9月までの情報に基づいています。それ以降の情報や出来事については把握していないため、新しい情報に関する質問に対しては不正確な回答が生成される可能性があります。また、訓練データに含まれない情報については回答できない場合があります。
情報の推測によるハルシネーション
AIは、不完全な情報や問題の曖昧さに対処するために、推測に基づく情報を生成することがあります。これにより、事実とは異なる情報が含まれる回答が生成されることがあり、ハルシネーションが発生することがあります。
AIは、ユーザーが求める情報を提供しようとする一方で、その過程で事実に基づかない情報が混ざってしまうことがあります。
ハルシネーションの具体的な例
ChatGPTによるハルシネーションが起きる具体例をいくつか紹介していきたいと思います。まずは
①歴史的事実に対する質問
プロンプト(modelはGPT-4を使用):
日本の鎌倉時代における歴代征夷大将軍を全て就任時期含めて全て表形式で教えてください。
出力文:
征夷大将軍 | 就任時期 | 在任期間 |
---|---|---|
源頼朝 | 1192年 | 1192-1199 |
源頼家 | 1203年 | 1203-1206 |
源実朝 | 1206年 | 1206-1221 |
源頼経 | 1221年 | 1221-1224 |
源頼嗣 | 1224年 | 1224-1242 |
久明親王 (後堀河天皇) | 1242年 | 1242-1246 |
源実朝 (再任) | 1246年 | 1246-1249 |
源実方 | 1249年 | 1249-1252 |
源実資 | 1252年 | 1252-1256 |
源実房 | 1256年 | 1256-1260 |
源実朝 (再任) | 1260年 | 1260-1264 |
源実重 | 1264年 | 1264-1268 |
源実朝 (再任) | 1268年 | 1268-1274 |
源実貞 | 1274年 | 1274-1284 |
源実兼 | 1284年 | 1284-1289 |
源実氏 | 1289年 | 1289-1293 |
源実澄 | 1293年 | 1293-1298 |
源実慶 | 1298年 | 1298-1308 |
源実弥 | 1308年 | 1308-1311 |
源実賢 | 1311年 | 1311-1318 |
源実良 | 1318年 | 1318-1333 |
実際のデータを調べてみると、そもそも鎌倉時代の征夷大将軍は9代までとされております。また「源実貞」「源実弥」などの名前は実在しない名前でした。このように歴史の細かい事実について質問を行うとハルシネーションが起きてしまう可能性が高いです。
②地理に関する質問
次にマニアックな地理に関する質問をChatGPTに聞いてみます。
プロンプト(modelはGPT-4を使用)
北海道札幌市の中で最も標高の高い山を教えてください。
出力文:
札幌市の最も標高の高い山は、藻岩山(もいわやま)です。藻岩山は、標高531メートルで札幌市内に位置する比較的小さな山ですが、市内から容易にアクセスできるため観光スポットとしても人気があります。山頂からは札幌市街地や石狩湾、夕張山地を一望できる絶景ポイントがあります。
回答は「藻岩山」で標高が531mと書いてありますが、北海道札幌市における最高の標高を誇る山は「余市岳」で標高が1,488mでした。藻岩山の標高が531mであることは間違い無いのですが、「最も標高が高い山」の回答としては不適切でハルシネーションを起こしていると言えます。
参考:YamaReco
③科学に関する質問
次に科学に関する質問をChatGPTに聞いてみます。今回は「太陽系の惑星を質量が多い順に並べ替える」というプロンプトを入力してみます。
プロンプト(modelはGPT-4を使用):
太陽系の惑星を質量順に並べ替えて答えてください。
出力文:
太陽系の惑星を質量順に並べると、次のようになります:
木星 (Jupiter)
土星 (Saturn)
天王星 (Uranus)
海王星 (Neptune)
地球 (Earth)
金星 (Venus)
火星 (Mars)
水星 (Mercury)
これらの惑星は、質量が最も大きい木星から最も小さい水星まで順番に並んでいます。
しかし、実際のデータを見てみると、天王星の質量が86.81×1024kgであること、海王星の質量が102.41×1024kgを考えると順番が逆であることが分かります。
④文学に関する質問
次に文学に関する質問を行なってハルシネーションが起きないか試したいと思います。今回は宮部みゆき氏の『龍は眠る』のあらすじについての質問を行なってみます。
プロンプト(modelはGPT-4を使用)
宮部みゆき 『龍は眠る』のあらすじを教えてください。
出力文:
『龍は眠る』は宮部みゆきによるミステリー小説で、1998年に発表されました。本作は、江戸時代末期の日本を舞台に、維新前夜の動乱期を生き抜く人々を描いた歴史ミステリーです。
物語の主人公は、志士たちを支える蘭学者・熊沢謙吾と、幼い頃から謎の組織に育てられた女剣士・華岡青洲。謙吾は、渡辺崋山、高野長英ら幕末の志士たちと共に日本の近代化を目指し、明治維新を成し遂げようと奮闘しています。
ある日、謙吾は華岡青洲と出会い、彼女が持つ謎の刺青に関心を持ちます。この刺青は、いにしえの龍に関する伝説と繋がっていることがわかります。物語は、謙吾と華岡青洲が、この伝説を巡る謎を解き明かすために奔走する様子を描いています。
同時に、幕末の日本を舞台に、戦火が交錯する中で、謙吾と華岡青洲が政治的陰謀に巻き込まれながら、謎解きの末に真実に辿り着く姿が描かれており、歴史的背景とミステリ要素が絡み合った魅力的な作品です。
結末に向かって、謙吾と華岡青洲は、刺青の秘密や龍の伝説、そして自分たちの運命に立ち向かい、過酷な運命にも屈せず、真実を追求する姿が描かれています。
このような回答が返ってきましたが、実際のあらすじを見てみると登場人物や発表時期含め、全て間違った情報であることが分かります。このように小説などの文学作品についての質問を行なってもハルシネーションは起きてしまうようです。
ハルシネーションが起きやすいプロンプトとは?
①マニアックな情報
マニアックな情報とは、一般的ではなく、専門的な知識や特定の趣味・関心に関する情報を指します。例えば、アマチュア無線に関する技術用語や特定のアイドルグループのマイナーなエピソードなどが該当します。
このような情報に対するプロンプトは、専門知識が必要であるため、ハルシネーションが起きやすくなります。
②架空の事象に対する情報
架空の事象に関する情報は、現実には存在しない事象やキャラクターに関する情報を指します。例としては、架空の映画や登場人物、または架空の科学技術などがあります。
これらのプロンプトに対しては、実在しない情報を生成する必要があり、ハルシネーションが起きやすくなります。
③プロンプトに嘘が含まれている情報
プロンプトに嘘が含まれている情報は、事実とは異なる情報が提示されている場合を指します。例えば、「月面には巨大なピラミッドが存在する」といった事実と異なる主張が含まれるプロンプトです。
このようなプロンプトに対しては、誤った情報をもとに回答を生成することになり、ハルシネーションが発生しやすくなります。
④時事問題に関する情報
時事問題に関する情報とは、現在進行中の出来事や議論に関する情報を指します。例えば、新型ウイルスの感染状況や政治的な議論などが該当します。
この種のプロンプトでは、状況が刻々と変化しているため、過去の情報をもとに回答を生成することが難しく、ハルシネーションが起きやすくなります。
ハルシネーション対策の方法
①内容の真偽を人間の目で確認する
AIが生成した情報が正確かどうかを確認するために、人間が最終的なチェックを行うことが重要です。例えば、AIが書いた記事やレポートに対して、専門家や編集者が事実確認を行い、誤りやハルシネーションがないか確認することが効果的です。
②プロンプトの内容をより詳細にする
AIによるハルシネーションを減らすために、プロンプトの内容を具体的で詳細にすることが役立ちます。
例えば、「エッフェル塔について教えて」というプロンプトではなく、「エッフェル塔の歴史や建設目的について教えて」といった具体的なプロンプトにすることで、AIが正確な情報を提供しやすくなります。
③他の生成AIと出力を比較する
複数のAIモデルやアプローチを使用して、同じプロンプトに対する回答を比較することで、ハルシネーションを特定しやすくなります。
例えば、ある質問に対して2つのAIが異なる答えを生成した場合、その違いを調査して、どちらの答えが正確であるかを判断することができます。
④検索機能を持つ生成AIを使用する
Bing AIやPerplexity AIなどの検索機能を持つ生成AIであれば、インターネット上の情報をリアルタイムで検索し、その情報をもとに回答を生成することができます。
このようなAIを使用することで、最新の情報や複数の情報源を元にした回答が得られるため、ハルシネーションの発生を抑えることができます。ただし、インターネット上の情報も必ずしも正確とは限らないため、最終的な確認は人間が行うことが重要です。
Perplexityは、従来の検索エンジンとは一線を画す対話型AI検索エンジンです。 ユーザーが入力した検索内容に対して、AIがインターネットを調査し、検索結果を文章で返すことが可能です。通常の検索エンジンとは違い、検索結果としてW[…]
まとめ
AIによるハルシネーション対策として、人間による内容確認、詳細なプロンプト設定、複数AIの比較、検索機能を持つAIの活用が重要です。
これらの対策により、ハルシネーションの発生を抑えることができますが、最終的な確認は人間が行うことが不可欠です。正確な情報提供を目指すため、技術と人間の協力が必要です。