Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Dobrze, zrobiłem trochę badań i po wszystkim, co przeczytałem, oto moje wnioski: 4o native image gen najpierw generuje ogromną siatkę latentnych tokenów patch, a następnie przekazuje to do dekodera dyfuzji, który wykonuje około 25 kroków denoisingu na pasmo, zanim pokaże wynikowe piksele. Po tym wykonuje scalanie patchy, osadza metadane pochodzenia c2pa i uruchamia ciężkie filtry bezpieczeństwa multimodalnego, z których każdy dodaje kilka setnych sekundy. Również ponieważ 4o native image gen jest dosłownie tym samym instancją 4o (nie jest to osobne wywołanie narzędzia), utrzymuje cały kontekst czatu w VRAM, jednocześnie zarządzając dziesiątkami tysięcy tokenów obrazów, więc GPU wykonuje DUŻO multitaskingu. Tymczasem Grok: Aurora to MoE skierowane na surową przepustowość tokenów/sekundę (około 1,2k t/s) i całkowicie pomija dyfuzję. Autoregresywnie emituje dyskretne tokeny obrazów w jednym przejściu, przesyła je przez lekki dekoder VQ do jpeg o rozdzielczości 1024x768, dodaje znak wodny, przeprowadza szybkie przeszukiwanie polityki i wysyła obraz. Nie ma upscale'a, wielopasmowej dyfuzji, żadnego kontekstu czatu i jednego kadru na żądanie, więc wydaje się niemal natychmiastowy. Wymiana polega na tym, że 4o zużywa dodatkowe FLOPy, aby obsłużyć mały tekst, wierność układu i spójność edycji wieloetapowej (rzekomo), podczas gdy Grok jest dostosowany do szybkości, aby szybciej dostarczyć jpeg.

Tak, użyłem LLM do badań, ale NIE, nie użyłem go do napisania tego.

wow, czytając to ponownie, jest tyle błędów, że powinienem się wstydzić

dodatek: Zostałem poprawiony przez [redacted], że dla 4o to prawie na pewno sekwencja 1d, a NIE tradycyjny grid vae

330

Najlepsze

Ranking

Ulubione