さて、私はいくつかの調査を行い、すべてを読んだ後、私の結論は次のとおりです。 4o Native Image Gen は、最初に潜在的なパッチ トークンの巨大なグリッドを吐き出し、それを拡散デコーダーに渡し、バンドごとに ~25 インチのノイズ除去ステップを実行してから、結果のピクセルを表示します。その後、パッチマージを実行し、c2pa 来歴メタデータを埋め込み、重いマルチモーダル セーフティ フィルターを実行し、それぞれが数 100 ミリ秒追加されます。また、bc 4oネイティブ画像生成は文字通り同じ4oインスタンス(個別のツール呼び出しではありません)であり、チャットコンテキスト全体をVRAMに保持しながら、1000の画像トークンをジャグリングするため、GPUは多くのマルチタスクを行っています。 一方、Grok: Aurora は、生のトークン/秒スループット (~1.2k t/s が主張) を目的とした MoE であり、拡散を完全にスキップします。1回のパスで離散画像トークンを自己回帰的に出力し、ライトVQデコーダーを介して1024x768のjpegにフィードし、透かしを追加し、クイックポリシースイープを実行して、画像を送信します。アップスケーラー、マルチバンド拡散、チャットコンテキストがなく、リクエストごとに1フレームなので、ほぼ瞬時に感じられます トレードオフは、4o は小さなテキスト、レイアウトの忠実度、およびマルチターン編集の一貫性 (伝えられる) を処理するために余分な FLOP を書き込むのに対し、Grok は jpeg をより早く取得できるように速度が調整されていることです。
Deva Hazarika
Deva Hazarika8月9日 00:59
私はAI画像生成についてあまり知りませんが、GPTのアプローチが、画像とGrokのアプローチを思いつくのに多くの時間がかかることが興味深いと思います。
はい、私は研究に LLM を使用しましたが、いいえ、これを書くために LLM を使用しませんでした。
うわー、これを読み返すと、タイプミスが多すぎて恥ずかしいです
補遺: [編集済み] によって、4o の場合、ほぼ確実に従来のグリッド vae ではなく 1D シーケンスであると訂正されました
6.83K