Stability AI 画像生成AIモデル「Stable Diffusion 3」を公開 画像内に正確な文字を生成可能

英Stability AIは2月22日(現地時間)、新しい画像生成AIモデル「Stable Diffusion 3」を発表しました。このモデルは複数被写体のプロンプトや画質、文字生成などのパフォーマンスが向上しています。

現在は先行プレビュー版のウェイティングリストの登録が開始しています。

参考:Stability AI

画像内の文字の描写精度が向上

Stable Diffusion 3はこれまでのモデルに比べて、複数被写体のプロンプトや画質、文字生成といったパフォーマンスが大幅に向上していますが、特に注目するのは画像内の文字の生成です。

これまでのStable DiffusionやOpenAIのDALL・E3などの画像生成AIでは画像内に正確な文字列を生成するのは困難でしたが、Stable Diffusion 3で生成された画像をみると、正確にアルファベットの文字列を生成することができています。

プロンプトEpic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says “Stable Diffusion 3” made out of colorful energyで生成された画像。画像のクオリティはもちろん、アルファベットや数字も形が崩れず正確に描写されていることがわかります。

出典:Stability AI

Stable Diffusion 3では、他にも様々な書体やデザインに対応して、画像内に文字を生成を生成できることが分かります。

出典:Stability AI

技術レポートは今後公開の予定

現在Stable Diffusion 3のモデルは、800Mから8Bのパラメータに対応しています。これにより、アクセスの民主化とユーザーのクリエイティブなニーズへの最適な形で応えるための拡張性と品質が提供されます。

Stable Diffusion 3は拡散トランスフォーマー・アーキテクチャフロー・マッチングを組み合わせています。近日中に詳細な技術レポートが公開される予定です。

出典:Stability AI

Stability AIは、生成AIがオープンで安全にアクセス可能であることを保証するという私たちのコミットメントは揺るぎないものです。Stable Diffusion 3では、個人、開発者、企業が創造性を発揮できるような適応性の高いソリューションを提供し、人類の可能性を活性化するというミッションに沿って努力する、述べています。

まとめ

Stability AIは新しい画像生成AIモデル「Stable Diffusion 3」を発表しました。このモデルでは画像内の文字生成の精度などが大幅に向上しています。現在ウェイティングリストから先行プレビュー版に登録できます。

Stable Diffusionは2022年8月に公開されたAIモデルで、これまでテキストから画像が生成できるStable Diffusion 1.5やXL、動画に対応したStable Video Diffusionなどが公開されています。

こちらの記事も是非ご覧ください。

関連記事

「Stable Diffusion 1.5の特徴を詳しく知りたい...」「Web UIでの操作方法がよくわからない...」そう思う方もいるのではないでしょうか。 今回PROMPTYでは、Stable Diffusion 1.5とは何[…]

関連記事

「Stable Diffusionの最新モデルが知りたい...」「Stable Diffusion XL って何?」そう思う方もいるのではないでしょうか。 これまで研究目的で公開されていたStable Diffusion XLアップ[…]

関連記事

Stability AIは、11月21日に画像生成モデル「Stable Diffusion」に基づく動画生成モデル「Stable Video Diffusion」をリリースしたことを発表しました。現在、Stable Video Diffu[…]