【入門編】機械学習と生成AIに関する基礎知識を解説！

2023年10月6日
PROMPTY特集

「ChatGPTにはどのような技術が使われているの？」「機械学習と生成AIの基礎知識を身につけたい！」そう思う方も多いのではないでしょうか。

昨今、ChatGPTを始めとした「生成AI」が全世界で大きく注目されており、コンテンツ作成やIT分野、医療の分野など、さまざまな分野で実際に利用されています。

今回PROMPTYでは、生成AI活用の入門編として、機械学習の基礎知識や生成AIの技術背景について分かりやすくご紹介します。

生成AI（Generative AI）とは何か

生成AIは、既存のデータセットを基に新しいデータを生成するAI技術です。これにはテキスト、画像、音声など、多様なデータ形式が対象となります。

昨今、特にChatGPTやStable Diffusionなどの生成AIサービスが大きな注目を浴びています。

ChatGPTとは？使い方・始め方・日本語でできることを徹底解剖

ChatGPTとは、人間に近い自然な会話を実現するAIチャットツールで、先進的なAI技術が活用されています。 2022年11月に登場し、その無料でアクセス可能な画期的な性質が話題を呼び、SNS上で高品質な文章生成や人間らしい回答が評[…]

【無料の画像生成AI】Stable Diffusionの使い方やモデルについて徹底解説

Stable Diffusionは、ユーザーがテキストを入力するだけで様々な画像を生成することが可能なAIモデルです。今回PROMPTYでは、Stable Diffusionとは何か、Stable Diffusionの利用方法、S[…]

①テキスト生成AI

テキスト生成AIは、特定のルールやパターンを学習して、人間が読むことができるテキストを生成する技術です。これは文章作成、質問応答、文章の要約など、多様なタスクに使用されます。

近年では、OpenAIのGPT（Generative Pre-trained Transformer ）モデルなどのTransformerモデルが人気で、高いパフォーマンスを示し、人間が書いたような自然な文章を出力することができます。

テキスト生成AIのおすすめサービス9選をご紹介

「ChatGPTを使ってるけど、他のテキスト生成を知りたい」「テキスト生成AIの活用方法はどんなものがある？」このような疑問をお持ちの方は多いのではないでしょうか。今回PROMPTYでは、テキスト生成AIとは何か、おすすめ[…]

②画像生成AI

画像生成AIは、学習したデータセットの特徴を捉えて、新しい画像を生成する技術です。

例えば、GAN（Generative Adversarial Network）は、実在しない人物の顔画像やアートワークを生成できます。これはエンターテイメント、デザイン、医療など、さまざまな分野で活用されています。

画像生成AIについて徹底解説！おすすめ画像生成AIサービス9選もご紹介

「最近聞くようになった画像生成AIについて詳しく知りたい」「画像生成AIにはどんなサービスがある？」このような疑問をお持ちの方は多いのではないでしょうか。今回PROMPTYでは、画像生成AIとは何か、画像生成AIブームにつ[…]

③音声生成AI

音声生成AIは、テキストを音声に変換したり、特定の音声パターンを生成する技術です。これを用いると、リアルタイムで音声を生成でき、自然なインタラクションやアナウンスが可能になります。

TTS（Text-to-Speech）技術は、音声アシスタントやナビゲーションシステムで広く用いられています。

Metaが新たな音声生成AI「Voicebox」を発表

音声生成AI技術の最新形態である「Voicebox」がMeta社によって2023年6月16日に公開されました。この新型AIは、サンプリング、音声編集、スタイル設定など、広範囲なタスクに対応可能です。引用：Meta [[…]

機械学習の基礎知識

機械学習の分類

機械学習は、コンピュータに認識・推論・判断といった人間のような学習能力を持たせる技術の一つです。以下にその主要な分類を紹介します。

データから特徴を抽出して学習し、把握した特徴に基づいて予測や分類を実行します。機械学習は、教師あり学習、教師なし学習、強化学習といった三つの主要なカテゴリに分けられ、これらの各分野で深層学習（ディープラーニング）が用いられています。

引用元：EAGLYS

①教師あり学習

教師あり学習は、事前にラベル付けされた訓練データ（正解のデータ）を用いてモデルを学習します。

訓練データには入力とそれに対応する出力（ラベル）が含まれ、モデルはこれを基に入力と出力の関係を学びます。主な分類や回帰問題に利用されます。

②教師なし学習

教師なし学習では、ラベルのないデータを用いてモデルを学習します。モデルはデータの構造やパターンを自動的に見つけ出すことを目指します。クラスタリングや次元削減が主なタスクです。

③強化学習

強化学習は、反復的な動作とフィードバックを基に試行錯誤を繰り返し、最良の行動パターンを自律的に学習するアプローチです。

例として、安全性を最優先することで適切な行動を身に着ける自動運転車のシステムなどが挙げられます。

④深層学習（ディープラーニング）

深層学習は、「ニューラルネットワーク（NN）」と呼ばれる脳の神経回路を模倣した仕組みを使って、データの特徴を多層的にかつ自動的に抽出する技術です。単一の層でも学習は可能ですが、多数の層を重ねることで、データの特徴をより緻密に捉え、予測や分類の精度を向上させることができます。

深層学習は大量のデータと計算能力を必要としますが、高度な表現学習能力を持ち、画像や音声の分類、生成タスクなどで優れた性能を発揮します。

言語のベクトル化

言語のベクトル化は、テキストデータを数値のベクトルに変換するプロセスです。人間にとって単語は意味を持つ文字列として認識できますが、コンピュータにとっては文字列の並びです。言語のベクトル化により、機械学習モデルがテキストを理解しやすくなります。

BoW（Bag og Words）

BoW（Bag of Words）は、テキストを単語の「袋」のように表現する手法です。各文書は単語の存在頻度を表すベクトルとして表現されます。BoWでは文の構造や単語の順序は無視され、単語の頻度のみが重要視されます。これにより、文書がどの単語をどれだけ含んでいるかを簡潔に表すことができます。

Word embeddig

Word embeddingは単語を固定長の密なベクトルで表現します。これにより、単語間の類似性や関連性を数値的に表現でき、単語の意味やニュアンスを捉えることが可能になります。Word2vecやGloVeなどのアルゴリズムがあります。

画像のベクトル化

画像のベクトル化は、画像データを機械学習モデルが解釈できる形式に変換するプロセスです。

CNN（Convolutional Neural Network）

CNN（Convolutional Neural Network）は、画像認識や分類タスクに特に効果的なニューラルネットワークのアーキテクチャです。畳み込み層を用いて局所的な特徴を抽出し、これを組み合わせて複雑な特徴を表現します。CNNは空間の階層構造を効率良く学習することができます。

特徴量抽出

特徴量抽出は、画像から重要な情報を抽出して数値ベクトルに変換するプロセスです。このプロセスは、機械学習モデルがタスクを効率的に学習・実行するために必要です。特徴量抽出は、画像の色、テクスチャ、形などを分析し、画像の特徴をコンパクトに表現することができます。

生成AIの技術と進化

GANs（Generative Adversarial Networks）

GANs（Generative Adversarial Networks）は2004年に提案された、生成モデルの一種です。

GANsは生成器と識別器の2つのネットワークで構成されており、生成器がデータを作り出し、識別器がそれが本物か偽物かを判断します。この相互作用を通じて、生成器は徐々にリアルなデータを生成する能力を向上させていきます。

GANsは非常に多様な分野で使用されており、特に画像生成において顕著な結果を上げています。

Transformerモデル

Transformerモデルは2017年に提案され、NLP（自然言語処理）分野に革命をもたらしました。

これは「自己注意」メカニズムを用い、入力データの各部分が互いにやりとりを行うことで、文脈に深く依存した情報を効果的に捉えることができます。

Transformerは特にテキスト生成タスクで威力を発揮し、GPT-3などの先進的なモデルの基礎となっています。

適用例

生成AIの技術は、マーケティング、エンターテイメント、医療、科学研究など、様々な分野で適用されています。

例えば、テキスト生成AIはコンテンツ制作や顧客対応のオートメーションに、画像生成AIは新しいデザインコンセプトの生成や医療画像診断の支援に、音声生成AIは音楽制作や自然な音声対話システムの開発に用いられています。これらの技術は日々進化し、ますます多様な用途で利用されるようになっています。

生成AIが抱える課題

技術的課題

生成AIの技術的課題の一つは「ハルシネーション」です。この現象は、言語モデル（特に大規模なもの）が正確な情報を提供するのではなく、文脈に適合するように見える回答を生成することから生じます。

これによって事実に基づいていない情報や架空の出来事を生成することがあり、AIの応答が信頼性を欠く場合があります。そのため、生成AIの信頼性や正確性を低下させ、その結果として利用者を誤解や間違いに導くリスクがあります。

生成AIにおけるハルシネーションとは？起きる理由と対策方法について解説！

ハルシネーションとはハルシネーションとは、AIが生成する情報が現実や事実に基づいていない場合を指します。この現象は、言語モデル（特に大規模なもの）が正確な情報を提供するのではなく、文脈に適合するように見える回答を生成することから生[…]

倫理的課題

倫理的課題としては、著作権とプライバシーの問題が挙げられます。

生成AIが作り出したコンテンツの著作権は誰に帰属するのか、またAIによる作品がどのような基準で著作権を侵害してしまうのかは、まだ確立されていない未解決の課題です。これに関連して、AIが生成したコンテンツが既存の作品を不当に利用していないか、第三者の著作権を侵害していないか等、著作権法の適用や解釈の面で新たな議論が巻き起こっています。

プライバシーの問題も重要です。生成AIが個人データを用いて学習や生成を行う際、個人情報の取り扱いやプライバシー保護が大きな課題となります。特に、個人を特定できるデータやセンシティブな情報が関与する場合、その使用が適切であることを確保する必要があります。

生成AIを有効活用するためのスキル

プロンプトエンジニアリング

プロンプトエンジニアリングは、生成AIの出力をより適切かつ効果的にコントロールするテクニックです。プロンプトとは、AIに対する入力や指示を意味し、これを工夫して設計することでAIの反応を最適化できます。適切なプロンプト設計により、AIはユーザの意図に従った高品質なテキストを生成し、作業の効率化やクリエイティブな作業の支援が可能になります。

プロンプトエンジニアリングを理解することで、より具体的かつ精緻なタスクを生成AIに任せることができ、その結果、業務の自動化や効率化が進みます。プロンプトの設計や最適化は継続的に行うことで、AIのパフォーマンスを持続的に向上させることができます。

【例文付き】Few-shotプロンプティングとは？

「Few-shotプロンプティングって何？」「Few-shotプロンプティングの効果は？」そう思う方もいるのではないでしょうか。 Few-shotプロンプティングは生成AIを効果的に活用する方法の一つで、複雑なタスクに対応することが[…]

【例文付き】思考連鎖型プロンプティングとは？

「思考連鎖型プロンプティングって何？」「思考連鎖型プロンプティングの効果は？」そう思う方もいるのではないでしょうか。思考連鎖型プロンプティングは生成AIを効果的に活用する方法の一つで、推論を要する複雑なタスクに対応することが可能で[…]

転移学習

転移学習は、一つのタスクで学習したモデルの知識を別のタスクに適用する技術です。具体的には、大規模なデータセットで事前に訓練されたモデル（事前訓練モデル）を用い、特定の業務用途に適した形でファインチューニング（微調整）を行います。この方法により、限られたデータしか持たない状況でも、高度な学習を実現できます。

転移学習の利用は、データ収集のコスト削減や学習時間の短縮、そして高いパフォーマンスの実現に寄与します。業務においては、特定のドメインや独自のデータセットで効果を発揮し、高い精度や信頼性を持つAIシステムを構築できます。

GPT-3.5 Turboのfine-tuningが開発者向けに提供が開始

記事全体の概要米国時間2023年8月22日、GPT-3.5 Turboのfine-tuningが開発者向けに提供が開始されました。更に、今秋にはGPT-4のfine-tuningのリリース予定とのことです。今回PROMPT[…]

まとめ

今回PROMPTYでは、生成AIと機械学習の基礎知識について紹介しました。

今回の情報を基に、皆さまも生成AIを始めとした機械学習の分野に触れてみてはいかがでしょうか。PROMPTYでは、他にも生成AIに関する多くの記事も扱っており、皆さまの学びの一助となる情報を発信してまいりますので、是非ご覧ください。