最近、GPT-4に関する重要なリーク情報が浮上してきました。この情報はMetaのPyTorchの開発リーダーも認めており、一部のコミュニティでも似た話が交わされています。そのため、情報の確度はかなり高いと言えるでしょう。
GPT-4の構造についてのリーク
リーク情報によると、GPT-4は220Bパラメータのモデルを8つ持つ混合モデルとされています。これは各モデルが別々のデータやタスクで学習を行っているという意味です。これらを合計すると、GPT-4は驚異的な1.76兆パラメータを有することになります。
さらに、出力時には16回の推論を行うと述べられています。また、その過程にはいくつかの細かなトリックが含まれているとされていますが、詳細は不明です。
モデルの現状についてのリーク
現在、より小型化したモデルが使用されている可能性が高いとも言われています。一方で、1.2兆パラメータ説も存在し、モデルの一部でパラメータが共有されていると考えられています。
運用コストについてのリーク
そして、避けて通れないのが運用コストの問題です。GPT-4のモデルサイズを考えれば、運用コストは非常に高くなることは容易に想像できます。実際、アルトマンは以前、「GPT不足のため機能解放が十分にできていない」と述べていました。これが今回のリーク情報を踏まえて理解すると、さらにその意味が深くなります。
このように、新たなリーク情報はGPT-4の構造とパフォーマンスについて新たな視点を提供しています。さらなる詳細が待ち望まれます。