Meta 動画生成AI「Emu Video」と画像編集AI「Emu Edit」を発表

Metaは、11月16日にテキストから動画を生成できる「Emu Video」と、テキストによる指示で画像を編集できる「Emu Edit」の2つのAIツールを発表しました。

現在「Emu Video」と「Emu Edit」は、デモサイトでプロンプトと生成できる動画の例を見ることができます。

参考:Meta

テキストから動画を生成できる「Emu Video」

Emu Videoでは、テキストによる指示(プロンプト)から、4秒の長さの動画を生成することができます。解像度は512×512ピクセルで、毎秒16フレームのフレームレートで再生されます。

Emu Videoのアプローチでは、初めにテキストプロンプトを使用して画像を作成し、その後、その画像と追加のテキストを元に動画を生成します。この二段階のプロセスにより、動画生成モデルのトレーニングが効率化されています。

詳しいプロセスはEmu Videoの論文から確認することができます。

引用:Meta

また、こちらのデモサイトでプロンプトと生成できる動画の例を見ることができます。

プロンプトを4つ選択することで幾つかのパターンの動画を生成することができます。

「A gray British Shorthair dancing energetically in the sky, in paper cut craft illustration style」を選択した場合、次のような動画が生成されました。

自由なプロンプトで動画を生成することができるようになれば、広告などの動画制作が瞬時に行えるようになるでしょう。

テキストによる指示で画像を編集できる「Emu Edit」

Emu Editは、プロンプトを用いてさまざまな画像編集ができるツールです。Emu Editでは、背景の削除や追加、色彩や形状の変更、オブジェクトの検出やセグメンテーションといった機能が含まれています。

このモデルのトレーニングには、合成された1000万のサンプルを含む大規模なデータセットが利用されました。このデータセットには、各サンプルごとに入力画像、実行タスクの詳細、目的の出力画像が含まれています。

Emu Editを幅広い画像編集タスクに対応するため、マルチタスクでトレーニングしています。これらのタスクには、領域ベースの編集タスク、自由形式の編集タスク、コンピュータビジョンタスクなどが含まれ、すべて生成タスクとして定式化されています。

さらに、これら多岐にわたるタスクを効果的に処理するために、学習したタスク埋め込みの概念を導入しています。これは、生成プロセスを正しい生成タスクに導くために使用されます。マルチタスクトレーニングと学習したタスク埋め込みの活用は、編集指示を正確に実行するモデルの能力を大幅に向上させることを実証しています。

マルチタスクトレーニングデータセットのデータ分布(引用:Meta

また、こちらのデモサイトで画像の編集例を見ることができます。

「Replace the cow with an alien(牛をエイリアンに置き換える)」「Without the juice(ジュースをなくす)」といったオブジェクトの変更から、「Change the background to space(背景を宇宙に変更)」といった背景の変更、「In the style of a comic book(コミック風のスタイル)」といった絵柄の変更まで自在に編集が可能になっています。

今後の展望

Metaは、今回のEmu VideoとEmu Editについて、現在は基礎研究の段階ですが、大いに潜在的な用途があると述べています。

メディアを探す代わりに、自分自身のアニメーションステッカーやGIFをその場で生成し、グループチャットで送信したり、技術的なスキルなしに自分の写真や画像を編集することができます。さらに、静止画をアニメーション化することで、Instagramの投稿に追加の魅力を与えることもできると述べています。。

このように、Emu Video・Emu Editが広い範囲で活用できることを強調しています。

まとめ

Metaは、新しい動画生成AI「Emu Video」と画像編集AI「Emu Edit」を発表しました。どちらもテキストプロンプトから高度な動画・画像を生成できることがデモサイトからも確認できます。

まだ研究段階とのことですが、今後はFacebookやInstagramへの統合が期待できます。「Emu Video」と「Emu Edit」がFacebookやInstagramに統合されれば、ユーザーはよりリアルでクリエイティブなコンテンツを容易に作成できるようになるでしょう。

関連記事

テキストや画像から動画を生成できるAIサービス「Ruway Gen2」がアップデートされました。 テキストや画像から動画を生成する機能が向上したことにより、忠実性の改善 、一貫性も大幅に向上されています。 参考:Venture[…]