「モデルの崩壊」とは?コンテンツ増加による生成AIへの影響と新たな課題

近年、ジェネレーティブAIは社会に広範に浸透しています。Adobeがトレーニングモデルを用いた画像生成AI「Firefly」を発表し、Microsoftの検索エンジンであるEdgeでは対話型AIのChatGPTが活躍しています。

また、世界的なコンサル企業が業務の半分以上でジェネレーティブAIを活用していると報告しています。しかし、これらの進歩とともに新たな問題が浮上しています。

AI生成コンテンツの増加とその影響

ジェネレーティブAIの普及に伴い、AIを使用してコンテンツを作成・公開する人が増えています。しかし、AIが生成したコンテンツがインターネット上にあふれ、それをAIが学習することで、重大な欠陥が生まれているという問題が指摘されています。

これについては、イギリスとカナダの研究者グループが2023年5月に発表した論文「再帰の呪い」で詳細に説明されています。

参考:arxiv

学習量が増えると起きる「データの崩壊」

論文の主要著者であるイリア・シュマイロフ氏によれば、ジェネレーティブAIは人気のあるデータを過剰に優先し、人気のないデータを誤解したり誤った表現をしたりする傾向があります。

例えば、黄色いネコと青いネコの写真を学習させると、AIは黄色いネコが一般的であると学び、青いネコを黄色がかった色で表現したり、新しいデータを出力する際に緑色のネコを出力したりします。

さらに、そのようなAIが生成したデータをさらに学習すると、青いネコは次第に黄色くなり、最終的にすべてのネコが黄色になる。この現象を研究者グループは「データの崩壊」と表現しています。

「モデルの崩壊」とは

ジェネレーティブAIの発展により、モデルの崩壊が問題となっています。モデルの崩壊は、データの頻繁な繰り返しを避けるために、AIが誤った応答を生成し始める現象です。

シュマイロフ氏とその研究者グループは、この問題に対する対策として、人間が生成したオリジナルのデータセットを保持し、それで定期的にトレーニングしたり完全にリフレッシュしたりすることを提案しています。また、新しいクリーンなデータセットをトレーニングに導入することも重要です。