OpenAI テキストから動画を生成するAIモデル「Sora」を発表 最大60秒の動画を作成可能

OpenAIは2月15日(現地時間)、テキストから動画を生成する(Text to Video)AIモデル「Sora」を公開しました。

現在、Soraはリスクを評価するためのレッドチームや、フィードバックを得るためにビジュアルアーティスト、デザイナー、映画製作者に提供されています。

参考:OpenAI

複雑なシーンも一貫性のある動画を生成できる

Soraは、ユーザーが入力したプロンプトを元に最大1分間の動画を作成することができます。

複数の登場人物、特定の動作、そして対象と背景の細部まで正確に描写する複雑なシーンを生成する能力を持ちます。深い言語理解に基づき、プロンプトを正確に解釈し、生き生きとした感情を表現するキャラクターを創出することができます。また、ユーザーがプロンプトで要求した内容だけでなく、それらが物理的な世界でどのように存在するかも理解しているとのこと。

しかし、現在のモデルには限界もあり、複雑なシーンの物理を正確にシミュレートするのが難しく、物事の原因と結果を理解できない場合があります。例えば、人がクッキーを一口かじった後、そのクッキーにかじった痕が残らないこともあるようです。

製品に組み込む前に安全対策を

OpenAIは、Soraをの製品で利用可能にする前にいくつかの重要な安全対策を実施します。誤情報、憎悪的なコンテンツ、偏見などの分野のドメイン専門家であるレッドチーマーと協力しており、モデルをテストしています。

また、Soraによって生成されたビデオを検出する検出分類器など、誤解を招くコンテンツを検出するためのツールも開発しています。将来、OpenAI製品にモデルを展開する場合は、C2PAメタデータを含める予定となっています。また、DALL·E 3で使用する製品に構築した既存の安全方法もSoraにも適用しています。

Soraで生成された動画

以下にSoraで生成された動画をご紹介します。中には、現実の描写と見分けがつかないようなクオリティの動画もあります。

出典:OpenAI

1.プロンプト「A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.」

看板などの文字は出力できていませんが、滑らかな動きで違和感のない動画が生成されています。動画にしても一貫性のある人物が生成できています。

2. プロンプト「Reflections in the window of a train traveling through the Tokyo suburbs.」

暗くなった際に人物の顔が映り込むシーンはAIが生成したとは思えない描写です。

3. プロンプト「A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.more」

本物の映画のトレーラーのようなクオリティやアングルが目を惹きます。

4.プロンプト:「Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.」

波と連動して船が流される描写は、実際の物理法則を理解しているように思えます。

5.プロンプト「 A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.」

動物の見た目や雪の動きもリアルで非常にクオリティが高いです。

まとめ

OpenAIはテキストから動画を生成するAI「Sora」を公開しました。

ChatGPTで知られるOpenAIが公開した今回のAIモデルは、他の動画生成AIが生成する動画とは一線を画すクオリティで生成できる動画の時間も長くなっています。

OpenAIは、Soraは実世界を理解してシミュレートするモデルの基盤として機能し、これをAGIを達成するための重要なマイルストーンだと考えている、と述べています。

関連記事

Stability AIは、11月21日に画像生成モデル「Stable Diffusion」に基づく動画生成モデル「Stable Video Diffusion」をリリースしたことを発表しました。現在、Stable Video Diffu[…]

関連記事

Metaは、11月16日にテキストから動画を生成できる「Emu Video」と、テキストによる指示で画像を編集できる「Emu Edit」の2つのAIツールを発表しました。 現在「Emu Video」と「Emu Edit」は、デモサイ[…]

関連記事

テキストや画像から動画を生成できるAIサービス「Ruway Gen2」がアップデートされました。 テキストや画像から動画を生成する機能が向上したことにより、忠実性の改善 、一貫性も大幅に向上されています。 参考:Venture[…]