英Stability AIは2月22日(現地時間)、新しい画像生成AIモデル「Stable Diffusion 3」を発表しました。このモデルは複数被写体のプロンプトや画質、文字生成などのパフォーマンスが向上しています。
現在は先行プレビュー版のウェイティングリストの登録が開始しています。
参考:Stability AI
画像内の文字の描写精度が向上
Stable Diffusion 3はこれまでのモデルに比べて、複数被写体のプロンプトや画質、文字生成といったパフォーマンスが大幅に向上していますが、特に注目するのは画像内の文字の生成です。
これまでのStable DiffusionやOpenAIのDALL・E3などの画像生成AIでは画像内に正確な文字列を生成するのは困難でしたが、Stable Diffusion 3で生成された画像をみると、正確にアルファベットの文字列を生成することができています。
プロンプト「Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says “Stable Diffusion 3” made out of colorful energy」で生成された画像。画像のクオリティはもちろん、アルファベットや数字も形が崩れず正確に描写されていることがわかります。
出典:Stability AI
Stable Diffusion 3では、他にも様々な書体やデザインに対応して、画像内に文字を生成を生成できることが分かります。
出典:Stability AI
技術レポートは今後公開の予定
現在Stable Diffusion 3のモデルは、800Mから8Bのパラメータに対応しています。これにより、アクセスの民主化とユーザーのクリエイティブなニーズへの最適な形で応えるための拡張性と品質が提供されます。
Stable Diffusion 3は拡散トランスフォーマー・アーキテクチャとフロー・マッチングを組み合わせています。近日中に詳細な技術レポートが公開される予定です。
出典:Stability AI
Stability AIは、生成AIがオープンで安全にアクセス可能であることを保証するという私たちのコミットメントは揺るぎないものです。Stable Diffusion 3では、個人、開発者、企業が創造性を発揮できるような適応性の高いソリューションを提供し、人類の可能性を活性化するというミッションに沿って努力する、述べています。
まとめ
Stability AIは新しい画像生成AIモデル「Stable Diffusion 3」を発表しました。このモデルでは画像内の文字生成の精度などが大幅に向上しています。現在ウェイティングリストから先行プレビュー版に登録できます。
Stable Diffusionは2022年8月に公開されたAIモデルで、これまでテキストから画像が生成できるStable Diffusion 1.5やXL、動画に対応したStable Video Diffusionなどが公開されています。
こちらの記事も是非ご覧ください。
「Stable Diffusion 1.5の特徴を詳しく知りたい...」「Web UIでの操作方法がよくわからない...」そう思う方もいるのではないでしょうか。 今回PROMPTYでは、Stable Diffusion 1.5とは何[…]
「Stable Diffusionの最新モデルが知りたい...」「Stable Diffusion XL って何?」そう思う方もいるのではないでしょうか。 これまで研究目的で公開されていたStable Diffusion XLアップ[…]
Stability AIは、11月21日に画像生成モデル「Stable Diffusion」に基づく動画生成モデル「Stable Video Diffusion」をリリースしたことを発表しました。現在、Stable Video Diffu[…]