Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Okej, jag gjorde lite efterforskningar, och efter allt jag läst, här är min takeaway:
4o native image gen spottar först ut ett gigantiskt rutnät av latenta patch-tokens och ger det sedan till en diffusionsavkodare som gör ~25ish denoisingsteg per band innan de resulterande pixlarna visas. Efter det kör den en patch merge, bäddar in c2pa-proveniensmetadata och kör ett tungt multimodalt säkerhetsfilter, som var och en lägger till några 100 ms. Dessutom är bc 4o native image gen bokstavligen samma 4o-instans (inte ett separat verktygsanrop), den behåller hela chattkontexten i VRAM samtidigt som den jonglerar med 10-tals 1000-tals bildtokens, så GPU:n gör MYCKET multitasking.
under tiden Grok: Aurora är en MoE som riktar sig till rå token/sek genomströmning (~1.2k t/s hävdad) och hoppar över diffusion helt. Den avger automatiskt diskreta bildtokens i ett enda pass, matar dem genom en lätt VQ-avkodare till en 1024x768 jpeg, lägger till en vattenstämpel, gör en snabb policysvep och skickar bilden. Det finns ingen uppskalare, flerbandsdiffusion, ingen chattkontext och en ram per begäran så det känns nästan omedelbart
kompromissen är att thst 4o bränner extra FLOPs för att hantera liten text, layouttrohet och konsistens med flera varv (påstås), medan Grok är inställd på hastighet för att ge dig jpeg tidigare.

9 aug. 2025
Jag vet inte mycket om AI-bildgenerering men tycker att det är intressant hur GPT-metoden tar mycket tid att komma på bild vs Grok-metoden att bara skjuta ut något så snabbt som möjligt


Ja, jag använde LLM:er för att forska, men NEJ, jag använde inte en för att skriva detta.
wow läsa om detta det finns så många stavfel jag borde skämmas
tillägg: Jag har blivit rättad av [redigerad] att för 4o är det nästan säkert en 1d-sekvens INTE en traditionell rutnätsva
338
Topp
Rankning
Favoriter