Google AIのトレーニングからWebコンテンツを除外できる新ツール「Google-Extended」を提供開始

近年、生成AIが急速に普及する一方で、ネット上の公開情報をAIのトレーニング（学習）に利用することに対するプライバシーの懸念も増しています。

この背景を受けてGoogleは9月28日に、自社の「Bard」などのAIモデルのトレーニングから、Webサイトのコンテンツを除外することができる「Google-Extended」の提供開始を発表しました。

引用：Google

Google-Extendedの特徴と利点

Google-Extendedの設定に特別な技術知識は必要なく、robots.txt（コンテンツをクローラーに収集されないように制御するファイル）というファイルを通じて簡単に行うことができます。

Webサイトのオーナーや管理者は、Webサイトの内容がAIのトレーニングデータとして利用されることを避けつつ、インデックス化（検索結果に表示されること）はそのまま継続することができます。

Googleだけでなく、競合する米OpenAIも類似の取り組みを進めています。

OpenAIは、自社のAIチャットボット「ChatGPT」のためのWebクローラー「GPTBot」によるサイトアクセスをブロックする方法を公開しています。

引用：OpenAI

OpenAIはWebサイトをAIトレーニングのためのクロールから制御できる「GPTBot」によって、有料記事や個人情報を含む情報が出力されてしまう可能性があったため一時停止していたWebブラウジング機能の提供を再開しています。

2023年9月27日、OpenAIは、ChatGPTのWebブラウジング機能である「Browse with Bing」の提供を再開したことを発表しました。これによりユーザーは2021年9月以降の情報をChatGPT上で利用できるよ[…]

生成AIの進化に伴うトレーニングの問題として、インターネット上の情報の無許可利用と、それに起因するプライバシーや著作権の懸念が挙げられます。

この問題に対処するため、Googleは「Google-Extended」を開始しました。同様の取り組みとして、OpenAIも「ChatGPT」のWebアクセスを制御する手段を公表しています。

このような動きによって、AIトレーニングの透明性と個人のプライバシー保護を向上させ、生成AI技術の更なる発展を支えることが期待されます。