企業のデータを使って生成AIを訓練する方法

2023年9月25日
PROMPTY特集

PROMPTYでは、これまで生成AI導入事例や著作権との関係性など日本での事例を紹介してきました。

今回は、アメリカの経営学誌「ハーバード・ビジネス・レビュー」から、企業の生成AI導入の方法や課題に関する事例や見解をご紹介します。

1 背景：生成AIの発展とその影響
2 生成AIを基盤としたナレッジマネジメント技術
3 次世代のナレッジマネジメントにおける課題
4 ユーザー行動の形成
5 おわりに：日本でも多くの企業で生成AIが導入されている

背景：生成AIの発展とその影響

昨今、多くの企業がChatGPTを始めとした大規模言語モデルや画像生成モデルのテストを実施しており、その表現力に感銘を受けています。これらの技術は基本的にインターネットの情報から学習をしていますが、多くのユーザーは、会社独自の内容や専門的な情報への対応が難しいと理解しています。そこで、企業の固有の知識の活用は、競争力や新しいアイディアの源となり、知識の迅速な生成や活用がイノベーションを促進させています。

企業が持つ独自の情報や知識の活用は、競争上の優位性や革新を引き起こす要因となっています。特に今の時代、変化する環境の中で、情報やノウハウの効率的な取り扱いが必須であり、それが新しい価値創出の加速につながっています。ただ、組織内での情報の収集や共有は、各々の頭の中やプロセス、方針、報告書、インターネット掲示板など様々な方法や手段を通じて行われるため、一元的な知識の獲得や活用が難しくなっています。

ここに、生成AIという新興技術が登場し、ナレッジマネジメントの新しいアプローチとして注目されています。実際に、トップ企業の中でもこの生成AIを用いて、サポート業務の効率向上や顧客からの好意的な反響を得ています。

多くの企業が自らの知識ベースを構築し、その情報を内部やクライアントに幅広く提供するための取り組みを強化しています。特に、大規模言語モデルの表現力と全般的な判断能力を駆使して、営業や接客担当者にガイドラインや商品情報を伝えたり、カスタマーサポートの課題に迅速に対応したり、そして社員の退職直前にその経験や情報を収集するなどの活動が行われています。

知識の共有や管理の取り組みは、1990〜2000年頃にもトレンドとして注目されました。しかし、その時期には技術の制約から、これらの課題へのアプローチが難しかったと感じる企業も多かったようです。

以前のナレッジマネジメントの流れと比較すると、現代の技術や手法はより進化していますが、一部の課題や困難は変わらず存在しています。特に、組織内の情報共有や知識の縦断的な管理に関しては、新たな技術の登場により新しい風が吹いていると感じる人も多いです。それを具体的に例えると、日常の中で突如として「ジェットパック」が現れたかのような衝撃を受けているという声もあります。

生成AIを基盤としたナレッジマネジメント技術

組織の特有の知識をLLMに組み込む技術が急速に進行している中、専有的な情報を生成AIに組み込むための方法は3つ考えられます。

①LLM（大規模言語モデル）をゼロから開発する

1つ目として、特定の領域に特化したモデルを新しく設計し学習させる方法がありますが、これには大量の高品質データが必要です。しかし、これは一般的な手法とは言えず、大規模な計算資源とデータサイエンスに特化した人材が必要なため、取り組む企業は限られています。

その代表例としてブルームバーグがあり、金融向けの「ブルームバーグGPT」を発表しています。彼らは金融の40年分のデータを軸に、7000億トークン（3500億ワードに相当）、500億のパラメータ、130万GPU時間を使ってモデルを訓練しました。しかしながら、このような規模のリソースを保有する企業は稀です。

②既存のLLMをファインチューニング（微調整）する

二つ目の方法は、既存のLLMに特定の情報を追加する「ファインチューニング（微調整）」です。これは、モデルのパラメーターの一部を調整する作業を伴います。ただ、新規モデルの設計と比べて、必要なデータや計算時間が格段に少ないことが特徴です。

例として、GoogleがMed-PaLM2というモデルを異なる医療情報でファインチューニングした事例があります。この改良されたバージョン2は、米国医学試験において85%の正答率を記録し、初版と比較して20%の精度向上を達成しました。しかしながら、システムを臨床診療に導入する前にはさらなる改善が必要と開発チームは考えています。

ファインチューニングの方法にはいくつかの制約が存在します。LLMを一から訓練するよりも計算資源や時間は大きく削減されますが、それでもなおコストはかかります。これはGoogleなどの大企業にとっては大きな障壁ではないかもしれませんが、多くの他の企業にとっては難点となります。この技術は、高度なデータサイエンスの知識を前提とします。例えば、GoogleのMed-PaLM2に関する研究では、31人もの専門家が共同研究者として参加しています。

新たな情報を組み込むだけでなく、異なる形式やスタイルのコンテンツ（例：「対話形式」や「シェイクスピア風の文体」など）を導入することが効果的であるとする意見もあります。さらに、一部のLLMプロバイダー（例：OpenAI）は、最新のLLM（GPT-4）のファインチューニングを認めていない状況です。

③既存のLLMをプロンプトチューニングする

三つ目の方法は、プロンプトを使ってチューニングを行うことで、非クラウド型のベンダー企業で、LLMをカスタマイズする上でよく使われる方法です。これは、基本のモデルは固定したまま（重みを変更しないまま）、処理範囲となるコンテキストウィンドウ内で、専門的な情報を含んだプロンプトを使ってチューニングします。

プロンプトチューニングを施したモデルは、その領域の情報に関する問いに回答することができるようになります。3つの手法の中で、この方法は計算上最も効率的であり、新しい分野を学ぶための膨大なデータの必要ありません。

例えば、モルガン・スタンレーは、投資やビジネスの一般的な知識、そして投資プロセスに関連する知識を持つ、選定された10万のドキュメントを使って、OpenAIのGPT-4モデルにプロンプトチューニングを行いました。目的は、同社のファイナンスアドバイザーがクライアントへのアドバイスの際に必要な知識に、効率的にアクセスする手段を提供することで、プロンプトチューニングされたシステムは、モルガン・スタンレーの社員専用のプライベートクラウド上で動作しています。

このアプローチは、3つの中で最も企業で導入しやすいと考えられますが、技術的な問題は存在します。LLMへの非構造化データの入力時に、データが大きすぎてLLMのコンテキストウィンドウに入力するのが困難、あるいは重要な情報が多すぎる可能性があります。

これを解消するための方法として、「ベクトルの埋め込み」が提案されています。これは、別の機械学習モデル（モルガンスタンレーではOpenAIのAda）を使用してテキストから生成した数値配列であり、テキストの情報を圧縮しつつ、テキスト内の文脈を保持します。ユーザがプロンプトを入力する際に、どのベクトルをGPT-4モデルに送るかは、類似性のアルゴリズムで判断されます。

プロンプトチューニングを簡単にするためのツールは、いくつかのサプライヤーから提供されていますが、それでも非常に複雑であり、多くの企業はデータサイエンス人材を必要とします。

ただし、必要なコンテンツがすでに手元にある場合、この方法は比較的低コストで短時間で実現可能になります。投資調査会社のモーニングスターは、生成AIを導入した調査アシスタントのMo（モー）にプロンプトチューニングとベクトルの埋め込みを導入しました。同社はMoを社内のファイナンシャルアドバイザーと独立系投資家顧客に提供しました。さらに、音声で答えるデジタルアバター機能も搭載されており、1カ月でMioは2万5000件の質問に回答し、1問あたりのコストは0.002ドルで、総コストは3000ドルでした。

次世代のナレッジマネジメントにおける課題

コンテンツの選定と管理

従来型のナレッジマネジメントは、情報共有データベースに文書を読み込む方法を採用しています。同様に、生成AIに関しても、LLMをカスタマイズする前に、コンテンツが良質である必要があります。

GoogleのMed-PaLM2のように、すでに精選されている医療知識のデータベースが存在するケースも見られます。しかし、そうでない場合には、正確かつタイムリーなコンテンツの精選が不可欠です。

モルガン・スタンレーでは、フィリピンに知識管理者のグループを設置し、文書の品質を常に評価を経てGPT-4システムへの取り込みの可否を判断しています。しかし、多くの企業は十分に精選されたコンテンツを持たないため、目的に特化した管理は困難です。

一方で、モルガン・スタンレーのコンテンツ作成者は、適切な文書作成方法を習得している場合、質の高い知識の保持が容易になると発見しました。このため、同社のコンテンツ作成者には、2つの研修を受けることが求められています。1つ目は、文書管理ツールに関するもので、2つ目は、文書の記述やタグの付け方に関するものです。これは、同社が重要なデジタルコンテンツをと確保し、効果的に管理するための体系的な戦略の一部として取り入れられています。

品質保証と評価

生成AIを利用する際、そのコンテンツの品質確保は必須です。生成AIは時折、間違った情報や「ハルシネーション（幻覚）」と称される誤情報を出力することが知られています。これは多くの業界で問題となりますが、特に医療分野でのアプリケーションでは生死にかかわる問題となります。しかし、特定の領域の情報でLLMをチューニングすることで、初期設定よりもハルシネーション（幻覚）を減少させることができるとされています。

生成AIを活用したナレッジマネジメントを取り入れる会社は、適切な検証方針を立てるべきです。

例えば、ブルームバーグGPTは、金融や投資に関する質問への回答を目指しており、公開されているデータセットを基に、金融のタスクや固有表現の抽出、センチメント分析の能力などに関する自然言語処理の検証を進めています。

GoogleのMed-PaLM2は、医療関連の質問への対応を主な目的としており、その領域での正確さや安全性が求められることから、厳密な検証方針が採られています。

モルガン・スタンレーは、人の命に直結するような話題は取り扱っていないものの、金融や投資の分野での高精度な回答生成は、会社やその顧客、さらには規制機関にとって重要です。システムが出力する答えは公表前に人間が慎重にチェックしており、300人以上の金融アドバイザーを対象に数ヶ月にわたる試行が実施されています。また、持続的な検証の方法として、400の既知の答えを持つ「黄金の質問」を活用し、システム更新の際にはこの質問を使ってテストを行っており、新たな問題が生じていないかを確認しています。これらの点を考慮すると、生成AIを用いるナレッジマネジメントを実施する際は、十分な検証方針の策定と、その方針に基づく検証活動が不可欠であることが明らかです。

法律とガバナンスの課題

LLMの導入に関しては、様々な法的およびガバナンス上の課題が存在します。これには知的財産権、データのプライバシーやセキュリティ、そしてバイアスや倫理的な問題、さらには虚偽や不正確な出力といったリスクが関係しています。

現在、LLMの出力に対する法的な位置づけは不明瞭となっています。その中で、著作権法における「フェアユース」規定が適用されるという意見も出ておりますが、確定的な裁判の判断はまだ存在しません。

公開されているLLMへのユーザーのプロンプトは、次のモデルのトレーニングデータとして使われます。そのため、サムスンを始めとした一部の会社は、秘密や個人データの流出を警戒して、社員のLLM使用を禁止する方針を取っています。

しかし、多くの会社では、専門的な内容に基づくLLMのカスタマイズは、一般のユーザーがアクセスできないプライベートインスタンスで実施されているため、そのような懸念は生じないと考えられます。さらに、ChatGPTのような生成AIツールのは、チャットの履歴をユーザーがオフにすることができるため、情報保護の対策が取られています。

一部のベンダーでは、機密保持やプライバシーの問題に対応するために、LLMに特化した高度なセキュリティ機能を導入しています。これには、ユーザーのプロンプトの削除や特定のテーマへのアクセス制限、公に利用できるLLMへのソースコードや独自データの入力を防ぐ措置などが含まれています。

ユーザー行動の形成

生成AIを活用したナレッジマネジメントが急速に採用されていることは、利便性、普及度、そして多岐にわたる知識への迅速なアクセスの恩恵によるものです。最近の調査では、回答者の3割以上が業務で生成AIを利用していたものの、そのうちの68%は上層部には報告していなかったとされています。

生成AIの採用で成功を収めるためには、透明性と責任感のある文化を構築する必要があります。その第一歩として、明確なポリシーやガイドラインの整備が求められます。また、従業員は生成AIを安全かつ有効に仕事に組み込む方法についての知識を身につける必要があります。生成AIの特長として、文脈や過去のデータの解析、多様な情報の統合や新しいコンテンツの作成、データ駆動型の予測などがあり、これにより知的業務が大いに助けられます。

生成AIを導入したナレッジマネジメントのシステムは、情報集約型の調査プロセスや、大量で単純なタスクを自動化することが可能です。このような取り組みにより、従業員の作業効率が向上し、より複雑な業務に注力することができるようになります。

以下は、研修などを介して従業員に継続的に理解を深めるべきとされる行動・スキルの一部です。

システム経由でアクセスできる情報やコンテンツの種類の理解
効果的なプロンプトの作成方法
どのようなプロンプトとの対話が許容されるのかに関する理解
システムへ新しい知識コンテンツを追加する方法
顧客やパートナーとのコミュニケーションにシステムの回答を使う方法
新しいコンテンツ有益かつ効果的な形で作り出すスキル

参考記事（Harvard Business Review）

タイトル：How to Train Generative AI Using Your Company’s Data

著者：Tom Davenport, Maryam Alavi

公開日：2023年7月6日

URL：https://hbr.org/2023/07/how-to-train-generative-ai-using-your-companys-data

おわりに：日本でも多くの企業で生成AIが導入されている

日本でも、日立製作所やNTTドコモ、パナソニックホールディングスを始めとした多くの企業が業務や社内システムに生成AIの導入しており、その効果が常に注目されています。

KDDIや日立製作所など…次々と導入が進む生成AIの導入事例を12個まとめ

「ChatGPTは業務の役に立つの？」「実際のところ、大企業が生成AIをどう活用しているのか知りたい！」そう思っている方も少なくないでしょう。実は、多くのトップ企業が生成AIを様々な形で導入し、その成果を上げています。 […]

生成AIの導入による最大のメリットの一つは「ナレッジマネジメント」の効果的な運用です。情報や知識の集約、整理、活用が一層スムーズになり、企業の知識資産の最大化を実現しています。例えば、アサヒビールは2023年7月、生成AIを用いた社内情報検索システムを試験導入すると発表しました。このシステムは、PDFやPowerPoint、Wordなどのさまざまな形式の資料データに対して、ファイル名だけではなく、ファイル内の文章、画像を含めて複合的な検索が可能になります。

生成AIを用いた社内情報検索システムアサヒビールが9月上旬から試験運用開始

2023年7月27日、アサヒビール株式会社（本社東京、社長松山一雄）は、日本マイクロソフト株式会社のAzure OpenAI Serviceが提供する、生成AIを用いた社内情報検索システムを9月上旬から試験導入すると発表しました。 […]

システムの導入だけでなく、適切なガイドラインや方針の策定、スタッフの研修など、組織全体の取り組みが成功の鍵となります。

このような取り組みを通じて、多くの企業が生成AIの発展の波に乗り、今後も業績向上や新たなビジネスモデルの創出を狙うと考えられます。