Dobrze, zrobiłem trochę badań i po wszystkim, co przeczytałem, oto moje wnioski: 4o native image gen najpierw generuje ogromną siatkę latentnych tokenów patch, a następnie przekazuje to do dekodera dyfuzji, który wykonuje około 25 kroków denoisingu na pasmo, zanim pokaże wynikowe piksele. Po tym wykonuje scalanie patchy, osadza metadane pochodzenia c2pa i uruchamia ciężkie filtry bezpieczeństwa multimodalnego, z których każdy dodaje kilka setnych sekundy. Również ponieważ 4o native image gen jest dosłownie tym samym instancją 4o (nie jest to osobne wywołanie narzędzia), utrzymuje cały kontekst czatu w VRAM, jednocześnie zarządzając dziesiątkami tysięcy tokenów obrazów, więc GPU wykonuje DUŻO multitaskingu. Tymczasem Grok: Aurora to MoE skierowane na surową przepustowość tokenów/sekundę (około 1,2k t/s) i całkowicie pomija dyfuzję. Autoregresywnie emituje dyskretne tokeny obrazów w jednym przejściu, przesyła je przez lekki dekoder VQ do jpeg o rozdzielczości 1024x768, dodaje znak wodny, przeprowadza szybkie przeszukiwanie polityki i wysyła obraz. Nie ma upscale'a, wielopasmowej dyfuzji, żadnego kontekstu czatu i jednego kadru na żądanie, więc wydaje się niemal natychmiastowy. Wymiana polega na tym, że 4o zużywa dodatkowe FLOPy, aby obsłużyć mały tekst, wierność układu i spójność edycji wieloetapowej (rzekomo), podczas gdy Grok jest dostosowany do szybkości, aby szybciej dostarczyć jpeg.
Deva Hazarika
Deva Hazarika9 sie 2025
I don’t know much about AI image generation but find it interesting how GPT approach is take a lot of time to come up with image vs Grok approach of just firing something out as quickly as possible
Tak, użyłem LLM do badań, ale NIE, nie użyłem go do napisania tego.
wow, czytając to ponownie, jest tyle błędów, że powinienem się wstydzić
dodatek: Zostałem poprawiony przez [redacted], że dla 4o to prawie na pewno sekwencja 1d, a NIE tradycyjny grid vae
330