Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dobře, udělal jsem si průzkum a po tom všem, co jsem přečetl, zde je můj poznatek:
4O Native Image Gen nejprve vyplivne obří mřížku latentních patch tokenů a poté ji předá difuznímu dekodéru, který provede ~25 kroků odšumování na pásmo, než zobrazí výsledné pixely. Poté spustí patch merge, vloží metadata původu c2pa a spustí těžký multimodální bezpečnostní filtr, z nichž každý přidá několik 100 ms. Také bc 4o native image gen je doslova stejná instance 4o (nejedná se o samostatné volání nástroje), udržuje celý kontext chatu ve VRAM a zároveň žongluje s 10 z 1000 obrazových tokenů, takže GPU provádí HODNĚ multitaskingu.
mezitím Grok: Aurora je MoE zaměřené na propustnost hrubých tokenů/s (~1,2 tisíc t/s deklarováno) a difúzi zcela přeskakuje. Autoregresně vysílá diskrétní obrazové tokeny v jednom průchodu, přivádí je přes lehký dekodér VQ do jpegu 1024x768, přidává vodoznak, provádí rychlé čištění zásad a odesílá obraz. Není zde žádný upscaler, vícepásmová difúze, žádný kontext chatu a jeden snímek na požadavek, takže to působí téměř okamžitě
kompromisem je, že 4o vypaluje další FLOPy, aby zvládl malý text, věrnost rozvržení a konzistenci úprav s více otáčkami (údajně), zatímco Grok je vyladěn na rychlost, aby vám jpeg poskytl dříve.

9. 8. 00:59
O generování obrázků pomocí umělé inteligence toho moc nevím, ale přijde mi zajímavé, jak přístup GPT zabere spoustu času, než přijdete s přístupem image vs Grok, kdy se něco prostě co nejrychleji vypálí


Ano, použil jsem LLM k výzkumu, ale NE, nepoužil jsem žádný k napsání tohoto článku.
wow, znovu to čtu je tolik překlepů, měl bych se stydět
dodatek: Byl jsem opraven [vymazáno], že pro 4o je to téměř jistě 1D sekvence NE tradiční mřížka vae
6,46K
Top
Hodnocení
Oblíbené