Va bene, ho fatto alcune ricerche e dopo tutto ciò che ho letto, ecco il mio riassunto: 4o native image gen prima genera una grande griglia di token di patch latenti, poi la passa a un decodificatore di diffusione che esegue circa 25 passaggi di denoising per banda prima di mostrare i pixel risultanti. Dopo di che, esegue una fusione di patch, incorpora i metadati di provenienza c2pa e applica filtri di sicurezza multimodali pesanti, ognuno dei quali aggiunge qualche centinaio di millisecondi. Inoltre, poiché 4o native image gen è letteralmente la stessa istanza di 4o (non una chiamata a uno strumento separato), mantiene l'intero contesto della chat nella VRAM mentre gestisce decine di migliaia di token di immagine, quindi la GPU sta facendo MOLTO multitasking. Nel frattempo, Grok: Aurora è un MoE mirato al throughput di token grezzi/sec (~1.2k t/s dichiarati) e salta completamente la diffusione. Emette autoregressivamente token di immagine discreti in un unico passaggio, li alimenta attraverso un leggero decodificatore VQ a un jpeg 1024x768, aggiunge un watermark, esegue una rapida verifica delle politiche e invia l'immagine. Non c'è un upscaler, diffusione multi banda, nessun contesto di chat e un fotogramma per richiesta, quindi sembra quasi istantaneo. Il compromesso è che 4o consuma FLOP extra per gestire piccoli testi, fedeltà di layout e coerenza di modifica multi turno (presumibilmente), mentre Grok è ottimizzato per la velocità per farti avere il jpeg prima.
Deva Hazarika
Deva Hazarika9 ago, 00:59
Non so molto sulla generazione di immagini tramite AI, ma trovo interessante come l'approccio di GPT richieda molto tempo per generare un'immagine rispetto all'approccio di Grok che produce qualcosa il più rapidamente possibile.
Sì, ho usato LLM per fare ricerche, ma NO non ne ho usato uno per scrivere questo.
wow rileggendo questo ci sono così tanti errori di battitura di cui dovrei vergognarmi
addendum: Sono stato corretto da [redacted] che per 4o, è quasi certamente una sequenza 1d NON un tradizionale grid vae
6,83K