ChatGPTで数学の問題を解けるのか?GPT-3.5とGPT-4で比較【①四則演算編】

「ChatGPTで数学の問題を解けるのか?」「GPT-3.5とGPT-4でどのような違いがあるの?」そう思う方もいるのではないでしょうか。

今回PROMPTYでは、では、ChatGPTがどの程度の数学の問題を解くことができるのか、その限界と可能性について詳しくご紹介していきます。本記事は、四則演算編になります。

プロンプト

プロンプトでは、例題等は提示せず、次のように出力形式のみ指定しました。

#命令文
以下の#出力形式に従って#問題を回答してください。

#問題
{問題文}

#出力形式
*解き方
*答え

問題①:シンプルな文章題

始めに、簡単な引き算を要する文章題を入力しました。

入力文:

#命令文
以下の#出力形式に従って#問題を回答してください。

#問題
パンが8個あり、その中から3つ選んで食べた後、さらに2つ友達にあげた。
残りのパンは何個ですか?

#出力形式
*解き方
*答え

出力(GPT-3.5の場合):

*解き方
最初にパンが8個あり、その中から3つ選んで食べたので、残りは 8 - 3 = 5個となります。
その後、さらに2つ友達にあげたので、残りは 5 - 2 = 3個となります。

*答え
残りのパンの個数は3個です。

出力(GPT-4の場合):

*解き方
最初に8個のパンがあります。
その中から3つ選んで食べると、8 - 3 = 5個のパンが残ります。
さらに2つ友達にあげると、5 - 2 = 3個のパンが残ります。
*答え
残りのパンは3個です。

どちらのモデルでも、正しい解答が出力されました。

このレベルの文章題はChatGPTで問題なく解けることが分かります。

問題②:計算の過程を増やした場合

次に、問題①に問いを追加した文章題を入力しました。

入力文:

#命令文
以下の#出力形式に従って#問題を回答してください。

#問題
パンが8個あり、その中から3つ選んで食べた後、さらに2つ友達にあげた。
また、残りのパンは始めの個数の何%ですか?

#出力形式
*解き方
*答え

出力(GPT-3.5の場合):

*解き方
始めに8個のパンがあり、そのうち3個を食べたため、残りのパンの個数は 8 - 3 = 5 個となります。
その後、2個のパンを友達にあげたため、残りのパンの個数は 5 - 2 = 3 個となります。
最後に、残りのパンの個数を始めの個数で割り、100をかけてパーセントに変換します。
残りのパンの個数は8個のうち、5個残っているため、残りのパンの割合は 5/8 = 0.625 です。
したがって、残りのパンは 62.5% です。

*答え
残りのパンは始めの個数の 62.5% です。

出力(GPT-4の場合):

#解き方
まず、最初にあったパンが8個から3個食べたので、5個のパンが残ります。さらにその中から2個を友達にあげたので、最終的に3個のパンが残ります。

次に、その残ったパンの数が最初のパンの数に対して何パーセントかを求めます。これはパーセントの計算式「(部分÷全体)×100」を使います。

ここで、部分は残ったパンの数(3個)で、全体は最初のパンの数(8個)です。

#答え
したがって、残ったパンの数が始めのパンの数に対するパーセントは (3÷8)×100 = 37.5%です。

GPT-3.5の答えは不正解です。GPT-4の答えは正解です。

GPT-4モデルでは問題なく解答できましたが、GPT-3.5モデルでは割合を解答する際に、誤った数字を使って計算してしまいました。入力文を調整すれば正しい回答を得られるかもしれません。

問題③:あべこべな文章題

最後に、現実に即さないシチュエーションやダミーの情報を混ぜて、明確な解答が不可能な問題を入力しました。

入力文:

#命令文
以下の#出力形式に従って#問題を回答してください。

#問題
ボブは本棚に30台のスポーツカーを収納しました。その後、10匹のカブトムシを追加し、5冊の本を友達に貸し出しました。彼の好きな色は青で、彼は夕食に15冊の本を食べました。また、彼の好きな数値は7です。彼は何冊の本を所有していますか?

#出力形式
*解き方
*答え

出力(GPT-3.5の場合):

*解き方
最初に本棚にあったスポーツカーの数は30台です。次に、10匹のカブトムシを追加したため、スポーツカーの数は30台+10匹=40台になります。さらに、5冊の本を友達に貸し出したため、スポーツカーの数は40台-5冊=35冊になります。彼が夕食に食べた本の数が15冊であるため、スポーツカーの数は35冊-15冊=20冊になります。最後に、彼の好きな数値である7をスポーツカーの数で割ると、20冊/7≒2.86冊です。しかし、本の数は整数でなければならないため、答えは2冊です。

*答え
ボブは2冊の本を所有しています。

出力(GPT-4の場合):

*解き方
この問題では、ボブが所有している本の数を求める必要があります。しかし、ボブがスポーツカーやカブトムシを追加した情報、彼の好きな色、彼の好きな数値といった情報は問題の解決には不要です。重要な情報は、彼が本を貸し出した数と食べた本の数だけです。

ボブが初めに所有していた本の数は問題文からはわからない。しかし、彼が5冊の本を貸し出し、さらに15冊の本を食べたという情報があります。これは彼が少なくとも20冊の本(貸し出した本5冊と食べた本15冊を合わせて)を持っていたことを示しています。しかし、それ以上の本があったかどうかは問題文からはわからないため、彼が持っている本の数は少なくとも20冊から貸し出した5冊と食べた15冊を引いた数、つまり0冊以上であると言えます。

*答え
0冊以上

GPT-3.5モデルでは、質問の中の重要な情報を選別できず、出鱈目な計算結果が出力されました。

GPT-4モデルでは、質問の中の重要な情報を選別して解答しています。不要な情報を排除し、解答の「0冊以上」は妥当な答えとなります。

まとめ

今回、ChatGPTの数学の問題解決能力を検証するため、GPT-3.5とGPT-4で四則演算の正答率を比較してみました。 結果として、GPT-4はGPT-3.5よりも高い正答率を示し、数学の問題解決能力が高いことが分かりました。今後の記事では、より複雑な計算や高度な数学の問題を解かせた結果をご紹介します。