分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

さて、私はいくつかの調査を行い、すべてを読んだ後、私の結論は次のとおりです。 4o Native Image Gen は、最初に潜在的なパッチトークンの巨大なグリッドを吐き出し、それを拡散デコーダーに渡し、バンドごとに ~25 インチのノイズ除去ステップを実行してから、結果のピクセルを表示します。その後、パッチマージを実行し、c2pa 来歴メタデータを埋め込み、重いマルチモーダルセーフティフィルターを実行し、それぞれが数 100 ミリ秒追加されます。また、bc 4oネイティブ画像生成は文字通り同じ4oインスタンス(個別のツール呼び出しではありません)であり、チャットコンテキスト全体をVRAMに保持しながら、1000の画像トークンをジャグリングするため、GPUは多くのマルチタスクを行っています。一方、Grok: Aurora は、生のトークン/秒スループット (~1.2k t/s が主張) を目的とした MoE であり、拡散を完全にスキップします。1回のパスで離散画像トークンを自己回帰的に出力し、ライトVQデコーダーを介して1024x768のjpegにフィードし、透かしを追加し、クイックポリシースイープを実行して、画像を送信します。アップスケーラー、マルチバンド拡散、チャットコンテキストがなく、リクエストごとに1フレームなので、ほぼ瞬時に感じられますトレードオフは、4o は小さなテキスト、レイアウトの忠実度、およびマルチターン編集の一貫性 (伝えられる) を処理するために余分な FLOP を書き込むのに対し、Grok は jpeg をより早く取得できるように速度が調整されていることです。

はい、私は研究に LLM を使用しましたが、いいえ、これを書くために LLM を使用しませんでした。

うわー、これを読み返すと、タイプミスが多すぎて恥ずかしいです

補遺: [編集済み] によって、4o の場合、ほぼ確実に従来のグリッド vae ではなく 1D シーケンスであると訂正されました

6.83K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable