Dobře, udělal jsem si průzkum a po tom všem, co jsem přečetl, zde je můj poznatek: 4O Native Image Gen nejprve vyplivne obří mřížku latentních patch tokenů a poté ji předá difuznímu dekodéru, který provede ~25 kroků odšumování na pásmo, než zobrazí výsledné pixely. Poté spustí patch merge, vloží metadata původu c2pa a spustí těžký multimodální bezpečnostní filtr, z nichž každý přidá několik 100 ms. Také bc 4o native image gen je doslova stejná instance 4o (nejedná se o samostatné volání nástroje), udržuje celý kontext chatu ve VRAM a zároveň žongluje s 10 z 1000 obrazových tokenů, takže GPU provádí HODNĚ multitaskingu. mezitím Grok: Aurora je MoE zaměřené na propustnost hrubých tokenů/s (~1,2 tisíc t/s deklarováno) a difúzi zcela přeskakuje. Autoregresně vysílá diskrétní obrazové tokeny v jednom průchodu, přivádí je přes lehký dekodér VQ do jpegu 1024x768, přidává vodoznak, provádí rychlé čištění zásad a odesílá obraz. Není zde žádný upscaler, vícepásmová difúze, žádný kontext chatu a jeden snímek na požadavek, takže to působí téměř okamžitě kompromisem je, že 4o vypaluje další FLOPy, aby zvládl malý text, věrnost rozvržení a konzistenci úprav s více otáčkami (údajně), zatímco Grok je vyladěn na rychlost, aby vám jpeg poskytl dříve.
Deva Hazarika
Deva Hazarika9. 8. 00:59
O generování obrázků pomocí umělé inteligence toho moc nevím, ale přijde mi zajímavé, jak přístup GPT zabere spoustu času, než přijdete s přístupem image vs Grok, kdy se něco prostě co nejrychleji vypálí
Ano, použil jsem LLM k výzkumu, ale NE, nepoužil jsem žádný k napsání tohoto článku.
wow, znovu to čtu je tolik překlepů, měl bych se stydět
dodatek: Byl jsem opraven [vymazáno], že pro 4o je to téměř jistě 1D sekvence NE tradiční mřížka vae
6,46K