Openiiは、「Create Image」と呼ばれる新しい関数であるChatGPT内で直接画像の生成を直接統合することを発表しました。Multimodale GPT-4Oモデルに基づいています、このテクノロジーを使用すると、The-Eなどの外部ツールから切り替える必要なく、テキストプロンプトを作成するだけで、正確で詳細な画像を作成できます。この関数は、Dall-Eの制限と同様の使用制限(1日あたり約3枚)であっても、無料ユーザーを含むすべてのサブスクリプションレベルのロールアウトフェーズの下に既にあります。
視覚的な一貫性の優れた品質
Openaiの研究責任者であるGabriel Gohによると、おかげで品質の重要な飛躍を告げますバインディングと呼ばれる新しい容量、または属性とオブジェクトの間の正しい関連性。過去にモデルがしばしば色や形を混乱させた場合 - たとえば、青の代わりに赤い星を作成する - 15〜20個の異なる一貫したオブジェクトで画像を取得できるようになりました。これは、精度と視覚的信頼性の観点からの重要な前進を表しています。
もう1つの重要な側面は、画像内のテキストの利回りです。生成された著作は、以前の標準よりもはるかに読みやすく、エラーなしです。 「それは小さな一定の改善で作られた長い仕事でした」とゴーは説明しました。このシステムは、権威あるアプローチを利用します、Dall-Eが使用する従来の拡散モデルの代わりに、テキストの書き方と同様に、ラインごとにラインを構築します。これは、テキストの詳細の最大の精度の秘密の1つである可能性があります。
実用的なアプリケーションと驚くべきデモンストレーション
新しい機能のプレゼンテーション中に、チームは実際の使用の例を示しました:コヒーレントなキャラクターを備えたマルチパジンコミック、科学図、情報ポスター、透明な背景を持つロゴ。テストの1つでは、ChatGptは、ニュートンのプリズム実験の画像を生成しました、正しくラベル付けされたコンポーネントを備えています。モデルに統合された世界の知識のおかげで、実験が何であるかを説明することなく、これらすべて。
画像の生成には以前よりも数秒多く必要ですが、Openiiは、品質が待機を正当化することを強調しています。 「本当に有用な結果を提供できる場合は、さらに数秒を使用することを好みます」と、マルチモデールチームの製品リードであるJackie Shannon氏は述べています。