Microsoft 生成AIシステムのリスクを特定する自動化ツール「PyRIT」を公開

米Microsoftは2月22日(現地時間)に、生成AIシステムのリスクを特定するための自動化ツール「PyRIT(Python Risk Identification Toolkit for generative AI)」を発表しました。

このツールは、セキュリティ専門家と機械学習エンジニアが、生成AIシステム内のリスクを事前に発見し、対処することを目的としています。

参考:Microsoft, GitHub

AIシステムのレッドチーミングの重要性

AIシステムの安全性を確保するためには、レッドチーミングという複雑で多段階にわたるプロセスが欠かせません。Microsoftでは、この重要な役割を担うために「セキュリティ」「敵対的機械学習」「責任あるAI」専門家から成る横断的なグループを設けています。

生成AIシステムのレッドチーミングは、従来のAIシステムやソフトウェアのレッドチーミングと異なり、生成AIの次のような特徴に注意する必要があります。

責任あるAIのリスク検証

従来のソフトウェアやAIシステムのレッドチーミングは、セキュリティ上の不備を特定することに焦点を当てています。

これに対して、生成AIシステムのレッドチーミングではセキュリティリスクだけでなく、公平性の問題を含むコンテンツの生成から、根拠のないまたは不正確なコンテンツに至るまで、幅広い範囲で責任あるAIリスクも特定する必要があります。

生成AIの確率的な性質

従来のソフトウェアシステムに対して同じ攻撃パスを複数回実行すると、似たような結果が得られます。しかし、生成AIシステムでは同じ入力でも異なる結果が出力されることがあります。

従来のソフトウェアシステムがレッドチーミング中にツールを使って検査できるように定義されたAPIとパラメータを持つのに対し、生成AIシステムは確率的な性質を考慮した戦略を必要とします。

アーキテクチャの多様性

生成AIシステムのアーキテクチャは、スタンドアロンアプリケーションから、既存のアプリケーションへの統合、そしてテキスト、オーディオ、画像、ビデオなどの入出力モダリティなど多岐にわたります。

一つのリスク(例:暴力的なコンテンツの生成)をアプリケーションの一つのモダリティ(例:ブラウザ上のチャットインターフェース)で明らかにするためには、レッドチームはリスクの証拠を集めるために、異なる戦略を複数回試みる必要があります。全ての被害、全てのモダリティ、異なる戦略にわたってこれらを手動で行うには、多くの手間と時間がかかります。

「PyRIT」の利点と機能

PyRITは、2022年から始まった生成AIシステムのレッドチーミング作業を通じて、さまざまなリスクを探るために開発されました。

PyRITでは、悪意のあるプロンプトに対する生成AIの応答を評価し、それに基づいた新しいプロンプトを送信することができます。

出典:Microsoft

PyRITの最大のメリットはレッドチームの効率の向上です。Copilotシステムに対するレッドチーミングの取り組みでは、PyRITを使うことによって、通常数週間かかる作業を数時間まで短縮することができたとのことです。

Microsoftは、PyRITは単に手動のレッドチーミングを置き換えるものではなく、AIレッドチーマーの専門知識を補完して、退屈なタスクを自動化します。また、リスクが存在する可能性のある領域に注目を集め、セキュリティ専門家がさらに深く探求することを可能にする、と述べています。

PyRITによって組織で安全に生成AIシステムを活用できる

PyRITは、生成AIがもたらすセキュリティリスクと倫理的課題に対する企業の対応能力を大きく向上させるツールになると考えられます。

この自動フレームワークによって、企業はAIシステムが不正確な情報を生み出したり、偏見を反映したりするリスクを事前に識別し、対策を講じることが可能になります。特に、PyRITは悪意のあるプロンプトを生成し、AIの反応を評価することで、リスクを効率的に検出することができます。

これにより、企業は顧客に対して安全で信頼性の高いAIサービスを提供することが可能となり、同時に社会的責任を果たすことができます。短い時間で大量のリスク評価を可能にするPyRITは、企業が生成AIを利用する上で直面する挑戦に対し、強力な盾となると考えられます.

まとめ

Microsoftは、生成AIシステムのリスクを特定するための自動化ツール「PyRIT」を発表しました。PyRITでは生成AI特有の手間がかかるレッドチーミングの作業を自動化することができます。

組織でAIシステムを開発・導入を検討しているエンジニアの方は是非チェックしてみてはいかがでしょうか。

関連記事

Microsoftは9月7日、ブログにて新しい著作権に関する公約「Copilot Copyright Commitment」を発表しました。 今回の新しい公約の注目すべき点として、生成AI「Copilot」の出力を利用して第三者から[…]