Ok, jeg gjorde litt research, og etter alt jeg leste, her er min takeaway: 4o native image gen spytter først ut et gigantisk rutenett med latente patch-tokens, og gir det deretter til en diffusjonsdekoder som gjør ~25ish demoising-trinn per bånd før de viser de resulterende pikslene. Etter det kjører den en patch-sammenslåing, bygger inn c2pa-herkomstmetadata og kjører tunge multimodale sikkerhetsfiltre, som hver legger til noen få 100 ms. Også bc 4o native image gen er bokstavelig talt den samme 4o-forekomsten (ikke et eget verktøykall), den holder hele chat-konteksten i VRAM mens den sjonglerer 10-vis av 1000-vis av bildetokens, så GPUen gjør MYE multitasking. i mellomtiden er Grok: Aurora en MoE rettet mot rå token/sek-gjennomstrømning (~1,2k t/s hevdet) og hopper over diffusjon helt. Den sender automatisk ut diskrete bildetokens i en enkelt passering, mater dem gjennom en lett VQ-dekoder til en 1024x768 jpeg, legger til et vannmerke, gjør et raskt policysveip og sender bildet. Det er ingen oppskalering, multibåndsdiffusjon, ingen chat-kontekst og ett bilde per forespørsel, så det føles nesten umiddelbart avveiningen er at 4o brenner ekstra FLOP-er for å håndtere liten tekst, layoutkvalitet og multi turn-redigeringskonsistens (angivelig), mens Grok er innstilt for hastighet for å gi deg jpeg raskere.
Deva Hazarika
Deva Hazarika9. aug., 00:59
Jeg vet ikke så mye om AI-bildegenerering, men synes det er interessant hvordan GPT-tilnærmingen tar mye tid å komme opp med bilde vs Grok-tilnærming for å bare skyte ut noe så raskt som mulig
Ja, jeg brukte LLM-er til å forske, men NEI, jeg brukte ikke en til å skrive dette.
wow leser dette på nytt, det er så mange skrivefeil at jeg burde skamme meg
tillegg: Jeg har blitt korrigert av [redigert] at for 4o er det nesten helt sikkert en 1d-sekvens IKKE et tradisjonelt rutenett vae
5,43K