DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Okej, jag gjorde lite efterforskningar, och efter allt jag läst, här är min takeaway: 4o native image gen spottar först ut ett gigantiskt rutnät av latenta patch-tokens och ger det sedan till en diffusionsavkodare som gör ~25ish denoisingsteg per band innan de resulterande pixlarna visas. Efter det kör den en patch merge, bäddar in c2pa-proveniensmetadata och kör ett tungt multimodalt säkerhetsfilter, som var och en lägger till några 100 ms. Dessutom är bc 4o native image gen bokstavligen samma 4o-instans (inte ett separat verktygsanrop), den behåller hela chattkontexten i VRAM samtidigt som den jonglerar med 10-tals 1000-tals bildtokens, så GPU:n gör MYCKET multitasking. under tiden Grok: Aurora är en MoE som riktar sig till rå token/sek genomströmning (~1.2k t/s hävdad) och hoppar över diffusion helt. Den avger automatiskt diskreta bildtokens i ett enda pass, matar dem genom en lätt VQ-avkodare till en 1024x768 jpeg, lägger till en vattenstämpel, gör en snabb policysvep och skickar bilden. Det finns ingen uppskalare, flerbandsdiffusion, ingen chattkontext och en ram per begäran så det känns nästan omedelbart kompromissen är att thst 4o bränner extra FLOPs för att hantera liten text, layouttrohet och konsistens med flera varv (påstås), medan Grok är inställd på hastighet för att ge dig jpeg tidigare.

Ja, jag använde LLM:er för att forska, men NEJ, jag använde inte en för att skriva detta.

wow läsa om detta det finns så många stavfel jag borde skämmas

tillägg: Jag har blivit rättad av [redigerad] att för 4o är det nästan säkert en 1d-sekvens INTE en traditionell rutnätsva

338

Topp

Rankning

Favoriter