Bine, am făcut câteva cercetări și, după tot ce am citit, iată concluzia mea: 4O Native Image Gen scuipă mai întâi o grilă uriașă de jetoane de patch latente, apoi le înmânează unui decodor de difuzie care face ~25 de pași de eliminare a zgomotului pe bandă înainte de a arăta pixelii rezultați. După aceea, rulează o fuziune de patch-uri, încorporează metadate de proveniență c2pa și rulează filtre de siguranță multimodale grele, fiecare adăugând câteva 100 ms. De asemenea, generarea de imagini nativă bc 4o este literalmente aceeași instanță 4o (nu un apel separat), păstrează întregul context de chat în VRAM în timp ce jonglează cu 10 din 1000 de jetoane de imagine, așa că GPU-ul face o mulțime de multitasking. între timp Grok: Aurora este un MoE care vizează debitul brut de token/sec (~1.2k t/s revendicat) și sare complet difuzia. Emite automat jetoane de imagine discrete într-o singură trecere, le alimentează printr-un decodor VQ ușor la un jpeg 1024x768, adaugă un filigran, face o măturare rapidă a politicii și trimite imaginea. Nu există upscaler, difuzie multibandă, context de chat și un cadru pe cerere, astfel încât să se simtă aproape instantaneu compromisul este că 4o arde FLOP-uri suplimentare pentru a gestiona textul mic, fidelitatea aspectului și consistența editării pe mai multe ture (se presupune), în timp ce Grok este reglat pentru viteză pentru a vă obține jpeg mai devreme.
Deva Hazarika
Deva Hazarika9 aug. 2025
Nu știu prea multe despre generarea de imagini AI, dar mi se pare interesant cum abordarea GPT necesită mult timp pentru a veni cu o abordare imagine vs Grok de a trage ceva cât mai repede posibil
Da, am folosit LLM-uri pentru a cerceta, dar NU am folosit unul pentru a scrie asta.
wow recitind asta, sunt atât de multe greșeli de scriere mi-ar trebui să îmi fie rușine
addendum: Am fost corectat de [redactat] că pentru 4o, este aproape sigur o secvență 1d NU o rețea tradițională
333