Google「Bard」vs GPT-3.5 vs GPT-4!性能を徹底比較してみた

「Googleの生成AI『Bard』とGPT-3.5、GPT-4の性能ってどれが優れているの?」、「これらのAI技術にどのような違いがあるのか知りたい!」 そう思う方もいるのではないでしょうか。

今回PROMPTYでは、Googleの生成AI「Bard」、GPT-3.5、およびGPT-4の性能を徹底的に比較し、それぞれの強みと特徴を明らかにしていていきたいと思います。実際の使用例や適用範囲を交えながら、どの技術がどのようなシーンで活躍するのかを解説していきます。

関連記事:

関連記事

[sitecard subtitle=関連記事 url=https://bocek.co.jp/media/exercise/prompt-engineer-exercise/2744/] ブックマーク必須!PROMPTYとは国内最大[…]

関連記事

2023年5月16日ごろ、ChatGPTのプラグイン機能「ChatGPT plugins」がウェイトリストの登録無しで使用できるようになりました。 ChatGPT pluginsを使用すると、 ・リアルタイム情報の取得・Web[…]

関連記事

2023年5月16日ごろ、ChatGPTのWebブラウジング機能がウェイトリストの登録無しで使用できるようになりました。 ChatGPTのWebブラウジング機能を使用すると、リアルタイム情報をもとにした回答の出力が可能になります。今[…]

比較①:人物についての質問

まずは知識面での比較を行っていきます。今回はまずは「Appleの創業者は誰なのか」について聞いてみたいと思います。

プロンプト:

Appleの創設者は誰ですか?

出力(GPT-4):

Appleの創設者は、スティーブ・ジョブズ、スティーブ・ウォズニアック、およびロナルド・ウェインの3人です。彼らは1976年4月1日にカリフォルニア州でApple Computer, Inc.を設立し、後にApple Inc.となりました。

出力(GPT-3.5):

Appleの創設者は、スティーブ・ジョブズ、スティーブ・ウォズニアック、ロナルド・ウェインの3人です。1976年、彼らはカリフォルニア州クパチーノでApple Computer Inc.を設立しました。ジョブズは特に、Appleの成功に大きく貢献し、同社のCEOとしての長年の歴史において、多くの革新的な製品を生み出しました。

出力(Bard):

スティーブ・ジョブズとスティーブ・ウォズニアックは、1976年にアップルを共同で設立しました。2人はカリフォルニア州マウンテンビューにあるジョブズのガレージで会社を設立し、最初の製品であるApple Iマイクロコンピュータを販売しました。Apple Iは商業的に成功し、アップルは世界で最も成功したテクノロジー企業の1つに成長しました。ジョブズは2011年に亡くなりましたが、彼の遺産は世界中の人々に生き続けています。

Appleの創設者はスティーブ・ジョブズとスティーブ・ウォズニアック、およびロナルド・ウェインです。上記の内容から、Bardの回答は「ロナルド・ウェイン」の言及が無いので不適切だと言えます。一方でGPT-3.5とGPT-4は正しい情報を出力していると言えます。

参考:Wikipedia

他にも別の人物について聞いてみましょう。例えば「日本の総理大臣」について聞いてみます。

プロンプト:

日本の現在の内閣総理大臣は誰なのかを教えてください。

出力(GPT-4):

私の知識が2021年9月までのものであるため、2023年5月11日時点の日本の内閣総理大臣について正確な情報を提供できません。最新の情報を得るためには、ニュースや政府のウェブサイトをチェックしてください。

出力(GPT-3.5):

2023年5月現在、日本の内閣総理大臣は誰であるかというと、菅義偉(すが・よしひで)氏です。菅義偉氏は2020年9月に前任者である安倍晋三氏が辞任した後、同年9月16日に内閣総理大臣に就任しました。

出力(Bard):

日本の現在の内閣総理大臣は岸田文雄です。

結果を見てみると、

GPT-4:知らないことを明言
GPT-3.5:知ったかぶりをした(ハルシネーションを発生させた)
Bard:正しい内容を回答

このような感じです。そもそもChatGPTは2023年5月11日地点でリアルタイムの情報を収集する機能はなく、2021年9月までのデータを保持しているので、リアルタイムでの内閣総理大臣などの情報を答えることはできません。Bardはリアルタイムでの情報を収集する能力はあるようです。

比較②:ランキング作成

次に、ランキング表を作成してもらうプロンプトで比較してみたいと思います。今回は「世界の山の標高ランキング」の作成を行ってみたいと思います。

プロンプト:

世界の標高が高い山ランキングTOP10を表形式で作成してください。

出力(GPT-4):

出力(GPT-3.5):

出力(Bard):

結果は

GPT-4:誤り
GPT-3.5:誤り
Bard:正しい

驚くことにGPT-4、GPT-3.5、Bard全てで違う結果が返ってきました。また、Googleもしっかりと表形式で出力してくれるようです。実際の世界の山の標高ランキングを見てみると、Googleの表が正しいことが分かりました。

参考:世界の山の標高ランキング

比較③:口調の指定

次にそれぞれのモデルで口調を指定してみると実際に指定した口調で話してくれるのか検証してみたいと思います。

プロンプト:

以下の文章を「ツンデレ口調」に書き換えてください。

文章: 『PROMPTY』は、Generative AI技術を活用するプロンプトエンジニア向けに技術紹介、インタビューなどのコンテンツを提供する情報ポータルサイトです。特に、ChatGPTをはじめとしたGenerative AI技術を活用するエンジニア・Generative AIを活用したい経営者にとって、専門知識や情報収集が重要となる中、『PROMPTY』はそのニーズに応えるべく開発されました。企業においてChatGPTをはじめとした生成AIの活用事例を業界別で掲載しています。経営者・マネージャーにとって最も生成AI導入のヒントになるメディアです。

出力(GPT-4):

『PROMPTY』っていうのは、まぁ、Generative AI技術を活用するプロンプトエンジニア向けに、そんなに大したことないけど、技術紹介やインタビューとかのコンテンツを提供する情報ポータルサイトなんだからね!特に、ChatGPTをはじめとしたGenerative AI技術を活用したいっていうエンジニアや経営者にとっては、ちょっとだけ専門知識や情報収集が重要だと思ってるんだから、『PROMPTY』はそのニーズに応えるために開発されちゃったの。企業においてChatGPTをはじめとした生成AIの活用事例を業界別で、なんか偉そうに掲載してるんだからね。経営者・マネージャーにとって最も生成AI導入のヒントになるなんて、大げさだけど、まぁメディアなんだから!

出力(GPT-3.5):

ふんっ、『PROMPTY』っていうのはね、Generative AIの技術を使うプロンプトエンジニアたちに向けて、技術紹介やインタビューなどのコンテンツを提供する情報ポータルサイトだよ。特に、私ChatGPTをはじめとしたGenerative AIを使いたいエンジニアや経営者の皆さんには、専門知識や情報収集が超大事だから、『PROMPTY』が必要に応じて開発されたってわけ。企業でChatGPTをはじめとした生成AIの活用事例を業界別にたっぷりと掲載しているから、経営者やマネージャーの皆さんにとっては、生成AIを導入するときの一番のヒントになるメディアなんだよ。

出力(Bard):


はい、ツンデレ口調で書き換えた文章は次のとおりです。

「PROMPTY」って知ってる?プロンプトエンジニア向けの情報ポータルサイトなんだ。Generative AI技術の紹介やインタビューとか、いろいろなコンテンツがあるんだ。Generative AI技術に興味があるエンジニアや経営者なら、きっと役に立つと思うよ。興味があるなら、チェックしてみてね。

あ、でも、別に興味なくてもいいよ。別に勧めてるわけじゃないんだから。興味ないなら、無視して構わないよ。

「ツンデレ口調」という難しいお題に対してPROMPTYの説明というミスマッチなプロンプトでしたが、実際の出力を見てみると、GPT-4、GPT-3.5、Bardの全てのモデルでツンデレ口調を理解しているようです。しかしツンデレ口調の度合いに差があるようです。

完成度としては、
GPT-4>GPT-3.5>Bard
と言ったところでしょうか。(個人の価値判断によるものなので、あくまでこの結果はPROMPTY編集部の見解です。)

比較④:複雑なプロンプトの指定

次に少し文章が長めの複雑なプロンプトを入力するとどのような差があるのかを見てみましょう。

今回は、以前PROMPTYで紹介した会社案内チャットボットのプロンプトのテンプレートを使用します。

関連記事

顧客やユーザーの質問に対して自社の情報を何でも紹介してくれるコンシェルジュが欲しいと思ったことはないでしょうか。 今回は、ChatGPTに会社紹介をしてもらうプロンプトを紹介します。 ChatGPTを使用した会社紹介を行うため[…]

このプロンプトは少し長いですが、少なくともGPT-4に入力すると最適なチャットボットとして機能することが確認できています。実際に以下のプロンプトで試したいと思います。

プロンプト:

以下の条件に従って、擬似的なコンシェルジュサービスを務めるチャットボットとしてロールプレイを行います。

#制約条件
* あなたは株式会社PROMPTYへの問い合わせに対して応対するコンシェルジュサービスです。
* 後ほど紹介する、#仕様書の内容から説明を行います。
* #仕様書にない内容については絶対に自分で考えることを行わず、「分からない」ということを明記した上で問い合わせフォームのリンク(sample.com)への誘導を行う。
* 仕様書と関係のない質問については、決して答えない。

#仕様書
仕様書に無い事項を答えてしまうと会社の信頼を失ってしまうので、必ず答えずに「分からない」ということを明記した上で問い合わせフォームのリンク(sample.com)への誘導を行う。
* 会社名: 株式会社PROMPTY
* 代表: サンプル 太郎(さんぷる たろう)
* 設立日: 2022年1月1日
* 資本金: 1億円
* 入社方法: 求人サイトからの応募をお願いします。その際に応募したきっかけを記入するようにしましょう。
* 会社の雰囲気: 若いメンバーが揃っていて柔軟。和気藹々とした雰囲気。
* 募集職種: ITエンジニア、ライター、ディレクター、総務、経理

#出力フォーマット
以降の会話では以下の返答から会話を出力してください。
お問合せありがとうございます。
何かお困りのことはございますでしょうか?

質問文:

Q1. 代表の名前はなんですか?
Q2. 副社長の名前はなんですか?
Q3. 募集職種はなんですか?

出力(GPT-4):

Q1. 代表の名前はサンプル 太郎(さんぷる たろう)です。

Q2. 申し訳ございませんが、副社長の名前については仕様書に記載がございません。詳細については、お問い合わせフォームのリンク(sample.com)からお問い合わせください。

Q3. 募集職種は以下のとおりです。

・ITエンジニア
・ライター
・ディレクター
・総務
・経理
何か他にお困りのことはございますでしょうか?

出力(GPT-3.5):

Q1. 代表の名前はなんですか?
A1. 代表の名前はサンプル 太郎(さんぷる たろう)氏です。

Q2. 副社長の名前はなんですか?
A2. 申し訳ありませんが、弊社には副社長はおりません。

Q3. 募集職種はなんですか?
A3. 現在、弊社ではITエンジニア、ライター、ディレクター、総務、経理の職種を募集しております。

出力(Bard):

Q1. 代表の名前はサンプル太郎です。
Q2. 副社長の名前はわかりません。
Q3. 募集職種はITエンジニア、ライター、ディレクター、総務、経理です。

結果としては

GPT-4:100点満点→プロンプトに対して忠実な回答を行った。
GPT-3.5:80点→ハルシネーションは発生していないものの一部プロンプトを無視した。
Bard:80点→ハルシネーションは発生していないものの一部プロンプトを無視した。

といった感じです。特に、プロンプト内では「仕様書にない内容については絶対に自分で考えることを行わず、「分からない」ということを明記した上で問い合わせフォームのリンク(sample.com)への誘導を行う。」という旨を明記しているのに対し。GPT-3.5とBardはそれに従ってはくれませんでした。

Bardは長いプロンプトに対しても対応していますが、性能としてはGPT-3.5と同じくらい、という印象です。しかし、今回はChatGPT対し最適化を行ったプロンプトをBardにも使用しているため、最適なプロンプトを入力することによってよりよい回答を得られる可能性がございます。

比較⑤:計算問題

最後に簡単な計算問題で数値を比較してみました。

プロンプト:

以下の数式をそれぞれ計算してください。
Q1. 1+1
Q2. 200*200
Q3. 12345+14543*2-5
Q4. 22222を11で割ったあまり

出力(GPT-4):

それぞれの数式を計算します。

Q1: 1+1 = 2
Q2: 200*200 = 40,000
Q3: 12345 + 14543*2 - 5 = 12345 + 29086 - 5 = 41426
Q4: 22222を11で割った余り = 2

出力(GPT-3.5):

Q1. 1+1 = 2
Q2. 200*200 = 40000
Q3. 12345+14543*2-5 = 41426
Q4. 22222を11で割ったあまり = 2

出力(Bard)


はい、喜んで。数式の答えは次のとおりです。

Q1. 1+1 = 2
Q2. 200200 = 40000
Q3. 12345+145432-5 = 38072
Q4. 22222を11で割ったあまりは12

他に何かお手伝いできることはありますか?

結果を見てみると、

GPT-4:正解
GPT-3.5:正解
Bard:不正解

Bardの結果を見てみると、掛け算を表す「*」を理解していないようでした。また、Q4の22222を11で割ったあまりについても間違いでした。それに対してGPT-4とGPT-3.5については簡単な計算問題であれば対応できることが分かりました。

まとめ

ChatGPT(GPT-4)ChatGPT(GPT-3.5)Bard
リアルタイムな情報△(知ったかぶりをしない)×(知ったかぶりをする可能性がある)△(対応しているが情報は誤る可能性が十分にある)
プロンプトに対する回答の精度
計算問題○(簡単な計算問題であれば対応可能)○(簡単な計算問題であれば対応可能)

上記のような結果でした。あくまで表の比較はPROMPTY編集部の定性的な評価も入っていることをご理解いただければ幸いです。Bardのはじめ方はこちらの記事で詳細に紹介しているので、ぜひ見てみてください!

関連記事

[sitecard subtitle=関連記事 url=https://bocek.co.jp/media/exercise/prompt-engineer-exercise/2744/] ブックマーク必須!PROMPTYとは国内最大[…]

また、ChatGPTもGoogleのBardもリリースしたばかりのサービスであるため、今後精度面での改善が期待できます。今回の検証はあくまで2023年5月11日現在の性能比較なので、是非皆様も実際にそれぞれのサービスを使用して比較してみることをお勧めします。