OpenAI、スーパーインテリジェンスの制御問題に挑む新プロジェクト「Superalignment」を始動

OpenAIは、高度なAIシステムの操作と制御に向けた新たな取り組みを公表しました。この新プロジェクトでは、科学技術のブレークスルーが求められ、そのための新たなチームが既に結成されています。

チームリーダーとしてイリヤ・スーツケバー氏とヤン・ライク氏が名を連ねており、今後4年間で、OpenAIが確保している計算能力の20%がこのプロジェクトに投じられる予定です。

参考:OpenAI

関連記事

ハルシネーションとは ハルシネーションとは、AIが生成する情報が現実や事実に基づいていない場合を指します。この現象は、言語モデル(特に大規模なもの)が正確な情報を提供するのではなく、文脈に適合するように見える回答を生成することから生[…]

OpenAIが考える超知能「Superalignment」の危険性

この新たなチームは、機械学習研究者とエンジニアを積極的に募集中で、特に超知能”Superalignment”という、技術的な課題解決に非常に大きなインパクトを持つと期待されているテクノロジーの開発に注力しています。しかし、Superalignmentのパワーは決して無視できない危険性を秘めており、その誤用は人類を無力化し、さらには絶滅へと追い込む可能性もあります。

そのためOpenAIは、AIシステムが人間の意図に従うための新しい制度の設立と、Superalignmentの調整問題の解決に取り組むことを決定しました。現在の技術では、超知性AIの制御や暴走防止の完全な解決策は存在しません。現状のAI調整技術、例えば人間のフィードバックによる強化学習などは、人間がAIを監督する能力に大いに依存しており、Superalignmentの問題には適応しきれません。

Superalignmentの難題への取り組み

OpenAIの新チームは、これらの難題に取り組むため、ほぼ人間レベルの自動アライメント研究者を構築し、超知性を反復的に整列させることを目指しています。そのために、スケーラブルなトレーニング方法の開発、モデルの検証、アライメントパイプライン全体のストレステストなど、多くの取り組みが必要となるでしょう。

また、OpenAIはAIシステムを使って他のAIシステムの評価を支援するスケーラブルな監督技術の開発や、モデルが監督を一般化する方法の理解とコントロールにも力を注ぐことを計画しています。システムの整合性を検証するため、問題のある動作の自動検索に焦点を当てたロバストなテストと自動解釈可能性の構築も重要視されています。

OpenAIの新チームは、自らが新たに開発する技術が人間や社会の懸念を適切に反映したものであることを保証するため、学際的な専門家との連携も積極的に行うことを発表しています。目標は野心的でありながらも、問題の解決は容易ではないと認識しています。しかし、OpenAIは集中的かつ協調的な努力を通じて、この課題を克服できるとの楽観的な見通しを示しています。

今後4年間で計算能力の20%をSuperalignmentの問題解決に投入予定

OpenAIは、新チームが今後4年間で確保した計算能力の20%をSuperalignmentの問題解決に投入することを明らかにしました。チームは、基礎研究を主導するとともに、新しい手法の開発からスケールアップまで、ミッション達成のために広範な貢献を期待しています。

なお、新チームはOpenAIの現在のモデル、たとえばChatGPTなどの安全性向上を目指すとともに、AIによる悪用、経済的混乱、偽情報、偏見と差別、中毒と過度の依存などのリスクを理解し、軽減するための取り組みも行うことを明らかにしています。