熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
好吧,我做了一些研究,根據我所閱讀的內容,這是我的收穫:
4o 原生圖像生成首先會產生一個巨大的潛在補丁令牌網格,然後將其交給擴散解碼器,該解碼器在每個頻段上進行約 25 次去噪步驟,然後顯示結果像素。之後,它會運行補丁合併,嵌入 c2pa 來源元數據,並運行重的多模態安全過濾器,每個過濾器都會增加幾百毫秒的延遲。此外,由於 4o 原生圖像生成實際上是同一個 4o 實例(而不是單獨的工具調用),它在 VRAM 中保持整個聊天上下文,同時處理數以萬計的圖像令牌,因此 GPU 正在進行大量的多任務處理。
與此同時,Grok: Aurora 是一個針對原始令牌/秒吞吐量(聲稱約 1.2k t/s)的 MoE,完全跳過擴散。它以自回歸的方式在單次通過中發出離散圖像令牌,通過輕量級 VQ 解碼器轉換為 1024x768 的 jpeg,添加水印,進行快速政策掃描,然後發送圖像。沒有升級器、多頻帶擴散、沒有聊天上下文,每次請求只有一幀,因此感覺幾乎是瞬時的。
其權衡在於 4o 消耗額外的 FLOPs 來處理小文本、佈局保真度和多輪編輯一致性(據說),而 Grok 則針對速度進行調整,以便更快地獲得 jpeg。
是的,我使用了LLMs進行研究,但不,我沒有使用它來寫這個。
哇,重新閱讀這個時候發現有這麼多錯字,我真該感到羞愧。
附錄:我已被[刪除]更正,對於4o,幾乎可以肯定它是一個1d序列,而不是傳統的網格變分自編碼器(vae)
6.83K
熱門
排行
收藏