好吧,我做了一些研究,根據我所閱讀的內容,這是我的收穫: 4o 原生圖像生成首先會產生一個巨大的潛在補丁令牌網格,然後將其交給擴散解碼器,該解碼器在每個頻段上進行約 25 次去噪步驟,然後顯示結果像素。之後,它會運行補丁合併,嵌入 c2pa 來源元數據,並運行重的多模態安全過濾器,每個過濾器都會增加幾百毫秒的延遲。此外,由於 4o 原生圖像生成實際上是同一個 4o 實例(而不是單獨的工具調用),它在 VRAM 中保持整個聊天上下文,同時處理數以萬計的圖像令牌,因此 GPU 正在進行大量的多任務處理。 與此同時,Grok: Aurora 是一個針對原始令牌/秒吞吐量(聲稱約 1.2k t/s)的 MoE,完全跳過擴散。它以自回歸的方式在單次通過中發出離散圖像令牌,通過輕量級 VQ 解碼器轉換為 1024x768 的 jpeg,添加水印,進行快速政策掃描,然後發送圖像。沒有升級器、多頻帶擴散、沒有聊天上下文,每次請求只有一幀,因此感覺幾乎是瞬時的。 其權衡在於 4o 消耗額外的 FLOPs 來處理小文本、佈局保真度和多輪編輯一致性(據說),而 Grok 則針對速度進行調整,以便更快地獲得 jpeg。
Deva Hazarika
Deva Hazarika8月9日 00:59
我對AI圖像生成了解不多,但發現GPT的方法需要花費很多時間來產生圖像,而Grok的方法則是盡可能快速地產生一些東西,這點很有趣。
是的,我使用了LLMs進行研究,但不,我沒有使用它來寫這個。
哇,重新閱讀這個時候發現有這麼多錯字,我真該感到羞愧。
附錄:我已被[刪除]更正,對於4o,幾乎可以肯定它是一個1d序列,而不是傳統的網格變分自編碼器(vae)
6.83K