OpenAIは、11月6日(現地時間)に開発者向けカンファレンス「OpenAI DevDay」を開催され、Youtubeでもライブ配信が行われました。
本記事では、GPT-4 Turbo、Assistants API、GPTsなどのDevDayで発表された新しい情報を解説いたします。
参考:OpenAI
128Kコンテキスト対応のGPT-4 Turbo
OpenAIは、今年3月にGPT-4をリリースし、7月にはすべての開発者に向けて一般公開しました。そして、今回新しいAPIのモデルのGPT-4 Turboを発表しました。
GPT-4 Turboの主な特徴を紹介します。
①コンテキストトークンの拡張
128Kのコンテキストトークンをサポート可能になりました。これは、300ページを超えるテキスト量に相当します。
②知識のカットオフの拡張
知識のカットオフがこれまでの2021年9月から2023年4月まで拡張されます。
ちなみに、ChatGPTのデフォルトモデルも既に知識のカットオフが更新されています。
ChatGPTは2021年9月までしか学習をしていない、いわゆる「知識のカットオフ」がされていることは以前PROMPTYでもご紹介しました。 しかし最近は国内外でChatGPTの有料版であるGPT-4の知識が2022年1月までに延長[…]
③Function Callingのアップデート
アプリケーションや外部APIの機能をモデルに説明することができ、JSONオブジェクトを出力してこれらの機能を呼び出す「Function Calling」がアップデートされました。
このアップデートにより、複数の操作を一つのメッセージで行えるようになり、例えば「車の窓を開けてエアコンを切る」といった複数の動作を一度に指示することが可能です。
④JSON mode
GPT-4 Turboは、XMLフォーマットで常に応答するなど、指示に忠実に従うタスクにおいて、前モデルを超える性能を発揮します。新しいJSONモードでは、モデルが有効なJSONでの応答を保証し、開発者がChat Completions APIでJSONを生成する際に役立ちます。
⑤再現性のある応答とlog probabilities
新しく導入されたseedパラメータにより、モデルは一貫した出力を返すことが可能となります。これはデバッグの再生、より包括的なユニットテストの実施、モデルの挙動に対するコントロール向上に役立ちます。
さらに、GPT-4 TurboとGPT-3.5 Turboが生成する出力トークンの「log probabilities」を返す機能も導入される予定です。
GPT-3.5 Turboもアップデート
デフォルトで16KのコンテキストウィンドウをサポートするGPT-3.5 Turboもリリースされます。新しい3.5 Turboは、指示追従、JSONモード、並行Function Callingがサポートされています
12月11日にはgpt-3.5-turboを使用するアプリケーションが新モデルに自動的にアップグレードされ、古いモデルは2024年6月13日まで利用可能です。
マルチモーダルのAPI
①画像認識:GPT-4 Turbo with vision
GPT-4 Turboは、Chat Completions APIを介して画像を入力として受け付けることができます。これにより、キャプションの生成や実世界の画像の詳細分析、図表を含む文書の読み取りなど様々なユースケースに対応できます。
特に、BeMyEyesはこの技術を活用して、視覚障害者や低視力の方々の日常生活のタスクを支援しています。
開発者は、API内でgpt-4-vision-previewを使用することにより、この機能にアクセスできるようになっています。また、安定版リリースの際にはGPT-4 Turboのモデルにも視覚支援機能が実装される予定です。
価格は入力画像のサイズに依存し、1080×1080ピクセルの画像を処理する場合$0.00765です。
2023年9月25日、OpenAIはChatGPTに新しく画像認識、音声認識、及び発話機能を追加することを発表しました。 これによって、画像をChatGPTに認識させてチャットを行うことより直感的な体験が可能になります。 今回[…]
②画像生成:DALL・E3
DALL·E 3をImage API経由でアプリや製品に統合することが可能です。
Snap、Coca-Cola、Shutterstockといった大手企業は、DALL·E 3を使用して、顧客やキャンペーンのためにプログラムによる画像やデザインを生成しています。
モデレーション機能を内蔵しており、開発者は不適切な使用に対する保護を強化できます。
提供されるフォーマットと品質のオプションは多様で、1枚あたり$0.04から画像を生成できます。
OpenAIは、10月19日(米国時間)にChatGPT PlusおよびEnterpriseに加入したすべてのユーザーが画像生成AI「DALL・E3」を利用可能になったことを発表しました。 この新機能により、ユーザーは自然言語のプロ[…]
③音声合成:Text-to-speech (TTS)
TTS(Text To Speech)APIを通じて、テキストから人間のような音声を生成することができます。
TTSモデルは、6つのプリセットボイスと2つのモデルバリアント(リアルタイム使用に最適化されたttsと、高品質な音声を生成するtts-1-hd)を選択できます。
価格は入力1000文字あたり$0.015からとなっており、このサービスを始めるためのガイドも提供されています。
以下からボイスのサンプルを聴くことができます。
https://cdn.openai.com/new-models-and-developer-products-announced-at-devday/audio/scenic-alloy.mp3
開発者向けのAssistants API
開発者が自らのアプリケーション内でエージェントを構築するための新機能「Assistants API」がリリースされました。
このAPIは、特定の指示に従い、追加知識を活用し、モデルやツールを呼び出してタスクを実行する、目的に特化したAIアシスタントを提供します。
引用元:OpenAI
Assistants APIでは、以下のようなツールを呼び出すことができます。
- Code Interpreter:
サンドボックス化された実行環境でPythonコードを書いて実行し、グラフやチャートを生成したり、多様なデータやフォーマットのファイルを処理したりできます。アシスタントにコードを反復実行させ、困難なコードや数学の問題などを解決することができます。 - Retrieval:
独自のドメインデータ、製品情報、ユーザーから提供されたドキュメントなど、モデル外部からの知識でアシスタントを補強します。つまり、ドキュメントの埋め込みを計算して保存したり、チャンキングや検索アルゴリズムを実装したりする必要がありません。Assitants APIは、ChatGPTで知識検索を構築した経験に基づいて、使用する検索手法を最適化します。 - Function calling:
アシスタントが定義した機能を呼び出し、そのレスポンスをメッセージに取り入れることができます。
Assistants APIによる重要な変更点は「永続的で無限に長いスレッド」の導入です。これによって、開発者がコンテキストウィンドウの制約を回避しながら、スレッド状態の管理をOpenAIに任せることができます。
OpenAIのプラットフォームは、プライバシーを最優先としており、Assitants APIに関しても渡されたデータやファイルはモデルのトレーニングに使用されることはありません。
Assistants APIはベータ版として提供され、開発者は「Assistants playground」を通じて、コードを書くことなく試用することが可能です。
モデルのカスタマイズ
GPT-4のファインチューニング
現在、OpenAIはGPT-4のファインチューニング機能の実験アクセスプログラムを開始しています。
このプログラムの初期結果によれば、GPT-4をファインチューニングする際には、GPT-3.5のファインチューニングで実現された大幅な改善に比べて、さらに追加作業が必要とされています。
GPT-4ファインチューニングの品質と安全性が向上するにつれて、GPT-3.5ファインチューニングを活用している開発者には、ファインチューニングコンソール内でGPT-4プログラムへの応募オプションが提示される予定です。
カスタムモデルプログラム
組織が自身のニーズに合わせてGPT-4モデルを訓練するための「カスタムモデルプログラム」も開始しました。これは、数十億トークン以上の非常に大規模な独自データセットを持つ組織に適用されます。
選ばれた組織はOpenAIの研究者グループと協力し、ドメイン特有のプレトレーニングの追加から、特定のドメインに適応したカスタムRLポストトレーニングプロセスの実施まで、モデルトレーニングプロセスの全てをカスタマイズすることができます。
参加組織は、彼らのカスタムモデルに対して専属のアクセス権を持ち、他の顧客への共有や他モデルとのトレーニングには使用されません。また、OpenAIへ提供された独自のデータは、他のコンテキストで再利用されることはありません。
このプログラムは始めは限定的で高価なプログラムとしてスタートします。
価格とレート制限
価格の引き下げ
プラットフォーム全体で価格が引き下げられました。表は全て1000トークンあたりの価格です。
Older models | New models | |
GPT-4 Turbo | GPT-4 8K Input: $0.03 Output: $0.06 GPT-4 32K Input: $0.06 Output: $0.012 | GPT-4 Turbo 128K Input: $0.01 Output: $0.03 |
GPT-3.5 Turbo | GPT-3.5 Turbo 4K Input: $0.0015 Output: $0.002 GPT-3.5 Turbo 16K Input: $0.003 Output: $0.004 | GPT-3.5 Turbo 16K Input: $0.001 Output: $0.002 |
GPT-3.5 Turbo fine-tuning | GPT-3.5 Turbo 4K fine-tuning Training: $0.008 Input: $0.012 Output: $0.016 | GPT-3.5 Turbo 4K and 16K fine-tuning Training: $0.008 Input: $0.003 Output: $0.006 |
引用元:OpenAI
レート制限の引き上げ
ユーザーがアプリケーションを拡大できるように、全ての有料GPT-4顧客に対して、1分あたりのトークン利用可能数を2倍にしました。レート制限の自動引き上げを決定する使用量ティアも公開しています。
また、ユーザーはアカウント設定から利用制限の拡大をリクエストすることができます。
自分だけのChatGPTを作成できる「GPTs」
GPTsとは?
個々のニーズに合わせてChatGPTのカスタムバージョンを作成できる「GPTs」が発表されました。これは、日々の生活、仕事、家庭での特定のタスクに役立つように設計されたものです。
GPTsでは、ユーザーがプログラミング知識なしに、自身のGPTを容易に構築できます。これらは個人の利用はもちろんのこと、会社の内部利用や広く一般に公開することも可能です。
ChatGPT PlusとEnterpriseユーザーは、本日からCanvaやZapier AI Actionsを含む既存のGPTsを利用できます。
GPT Storeのリリース
GPTsは本日から公開され、ユーザーは自分のGPTを共有することができます。
今月末には、検証済みビルダーによる作品を特集するGPT Storeがオープン予定です。
ストア内でのGPTは検索可能となり、リーダーボードを上ることもできます。さらに、「生産性」「教育」「エンターテインメント」などのカテゴリで、特に有用で楽しいGPTを紹介します。
プライバシーと安全性を考慮した設計
OpenAIは、プライバシーと安全性に細心の注意を払ってGPTsを構築しました。ユーザーのデータは、ビルダーと共有されず、サードパーティAPIを使用する場合もデータの送信を選択できます。また、ビルダーは、自分たちがカスタマイズしたGPTによるユーザーのチャットを、モデルの改善と訓練に利用するかどうかを選択できます。
GPTsと実世界の統合
GPTsは、内部のAPIを定義し、実世界でのデータやサービスと統合することが可能です。これにより、データベースの操作、メールの送信、eコマースサイトの管理など、より実用的なタスクに対応できます。プラグインベータ機能を利用することで、既存のプラグインを新たなアクションへと簡単に移行させることができます。
実際のデモ
今回のカンファレンスでは、GPTsのデモが行われました。Zapier AI Actionsを使って今日の予定を尋ねると、連携しているGoogle Calenderを参照して今日の予定を回答しています。
GPTを作る過程は、会話を開始し、指示を出して追加の知識を提供することから始まります。また、ウェブ検索、画像作成、データ分析などの機能も選択できます。
カンファレンスでは、サム・アルトマンが実際にGPTsを使ってスタートアップ創業者をサポートするツールを開発していました。
まとめ
開発者向けカンファレンス「OpenAI DevDay」では、多くの新しい発表がありました。
- 膨大な数のトークンに対応した「GPT-4 Turbo」
- GPT-4Vを始めとしたマルチモーダルAPI
- 開発者向けの「Assistants API」
- 自らのニーズに合わせてカスタマイズできる「GPTs」
開発者や企業はもちろん、一般的なユーザーとっても革新的なツールが公開されています。
今回の発表を機に、生成AIを日々の生活、仕事、家庭に活用してみてはいかがでしょうか。
OpenAI DevDayの配信アーカイブはこちらから