一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

好吧，我做了一些研究，根據我所閱讀的內容，這是我的收穫： 4o 原生圖像生成首先會產生一個巨大的潛在補丁令牌網格，然後將其交給擴散解碼器，該解碼器在每個頻段上進行約 25 次去噪步驟，然後顯示結果像素。之後，它會運行補丁合併，嵌入 c2pa 來源元數據，並運行重的多模態安全過濾器，每個過濾器都會增加幾百毫秒的延遲。此外，由於 4o 原生圖像生成實際上是同一個 4o 實例（而不是單獨的工具調用），它在 VRAM 中保持整個聊天上下文，同時處理數以萬計的圖像令牌，因此 GPU 正在進行大量的多任務處理。與此同時，Grok: Aurora 是一個針對原始令牌/秒吞吐量（聲稱約 1.2k t/s）的 MoE，完全跳過擴散。它以自回歸的方式在單次通過中發出離散圖像令牌，通過輕量級 VQ 解碼器轉換為 1024x768 的 jpeg，添加水印，進行快速政策掃描，然後發送圖像。沒有升級器、多頻帶擴散、沒有聊天上下文，每次請求只有一幀，因此感覺幾乎是瞬時的。其權衡在於 4o 消耗額外的 FLOPs 來處理小文本、佈局保真度和多輪編輯一致性（據說），而 Grok 則針對速度進行調整，以便更快地獲得 jpeg。

是的，我使用了LLMs進行研究，但不，我沒有使用它來寫這個。

哇，重新閱讀這個時候發現有這麼多錯字，我真該感到羞愧。

附錄：我已被[刪除]更正，對於4o，幾乎可以肯定它是一個1d序列，而不是傳統的網格變分自編碼器（vae）

6.83K