DApp Store | Centrum Web3 pro události a hry

Populární témata

Dobře, udělal jsem si průzkum a po tom všem, co jsem přečetl, zde je můj poznatek: 4O Native Image Gen nejprve vyplivne obří mřížku latentních patch tokenů a poté ji předá difuznímu dekodéru, který provede ~25 kroků odšumování na pásmo, než zobrazí výsledné pixely. Poté spustí patch merge, vloží metadata původu c2pa a spustí těžký multimodální bezpečnostní filtr, z nichž každý přidá několik 100 ms. Také bc 4o native image gen je doslova stejná instance 4o (nejedná se o samostatné volání nástroje), udržuje celý kontext chatu ve VRAM a zároveň žongluje s 10 z 1000 obrazových tokenů, takže GPU provádí HODNĚ multitaskingu. mezitím Grok: Aurora je MoE zaměřené na propustnost hrubých tokenů/s (~1,2 tisíc t/s deklarováno) a difúzi zcela přeskakuje. Autoregresně vysílá diskrétní obrazové tokeny v jednom průchodu, přivádí je přes lehký dekodér VQ do jpegu 1024x768, přidává vodoznak, provádí rychlé čištění zásad a odesílá obraz. Není zde žádný upscaler, vícepásmová difúze, žádný kontext chatu a jeden snímek na požadavek, takže to působí téměř okamžitě kompromisem je, že 4o vypaluje další FLOPy, aby zvládl malý text, věrnost rozvržení a konzistenci úprav s více otáčkami (údajně), zatímco Grok je vyladěn na rychlost, aby vám jpeg poskytl dříve.

Ano, použil jsem LLM k výzkumu, ale NE, nepoužil jsem žádný k napsání tohoto článku.

wow, znovu to čtu je tolik překlepů, měl bych se stydět

dodatek: Byl jsem opraven [vymazáno], že pro 4o je to téměř jistě 1D sekvence NE tradiční mřížka vae

6,46K

Top

Hodnocení

Oblíbené

Co je v trendu on-chain

Populární na X

Nejvyšší finanční vklady v poslední době

Nejpozoruhodnější