GPT-4についての重要リークまとめ！GPT-4の構造の一部が判明？

2023年6月21日
AIニュース

最近、GPT-4に関する重要なリーク情報が浮上してきました。この情報はMetaのPyTorchの開発リーダーも認めており、一部のコミュニティでも似た話が交わされています。そのため、情報の確度はかなり高いと言えるでしょう。

i might have heard the same 😃 — I guess info like this is passed around but no one wants to say it out loud.
GPT-4: 8 x 220B experts trained with different data/task distributions and 16-iter inference.
Glad that Geohot said it out loud.

Though, at this point, GPT-4 is… https://t.co/mfsK7a6Bh7
— Soumith Chintala (@soumithchintala) June 20, 2023

1 GPT-4の構造についてのリーク
2 モデルの現状についてのリーク
3 運用コストについてのリーク

GPT-4の構造についてのリーク

Unexpected description of GPT4 architecture from geohotz in a recent interview he gave. At least it’s plausible. pic.twitter.com/stxxQYCKyq
— Michaël Benesty (@pommedeterre33) June 20, 2023

リーク情報によると、GPT-4は220Bパラメータのモデルを8つ持つ混合モデルとされています。これは各モデルが別々のデータやタスクで学習を行っているという意味です。これらを合計すると、GPT-4は驚異的な1.76兆パラメータを有することになります。

さらに、出力時には16回の推論を行うと述べられています。また、その過程にはいくつかの細かなトリックが含まれているとされていますが、詳細は不明です。

モデルの現状についてのリーク

現在、より小型化したモデルが使用されている可能性が高いとも言われています。一方で、1.2兆パラメータ説も存在し、モデルの一部でパラメータが共有されていると考えられています。

運用コストについてのリーク

そして、避けて通れないのが運用コストの問題です。GPT-4のモデルサイズを考えれば、運用コストは非常に高くなることは容易に想像できます。実際、アルトマンは以前、「GPT不足のため機能解放が十分にできていない」と述べていました。これが今回のリーク情報を踏まえて理解すると、さらにその意味が深くなります。

このように、新たなリーク情報はGPT-4の構造とパフォーマンスについて新たな視点を提供しています。さらなる詳細が待ち望まれます。