In Ordnung, ich habe etwas recherchiert, und nach allem, was ich gelesen habe, hier ist mein Fazit: 4o native image gen gibt zuerst ein riesiges Gitter von latenten Patch-Token aus, übergibt das dann an einen Diffusionsdecoder, der ~25 Denoising-Schritte pro Band durchführt, bevor er die resultierenden Pixel anzeigt. Danach wird ein Patch-Merge durchgeführt, c2pa Provenienz-Metadaten eingebettet und es werden schwere multimodale Sicherheitsfilter ausgeführt, die jeweils ein paar 100 ms hinzufügen. Auch weil 4o native image gen buchstäblich dasselbe 4o-Instanz ist (kein separater Toolaufruf), behält es den gesamten Chat-Kontext im VRAM, während es 10s von 1000s von Bild-Token jongliert, sodass die GPU eine Menge Multitasking macht. In der Zwischenzeit: Grok: Aurora ist ein MoE, das auf den Durchsatz von Roh-Token/Sekunde abzielt (~1,2k t/s behauptet) und die Diffusion vollständig überspringt. Es gibt autoregressiv diskrete Bild-Token in einem einzigen Durchgang aus, leitet sie durch einen leichten VQ-Decoder zu einem 1024x768 JPEG, fügt ein Wasserzeichen hinzu, führt einen schnellen Richtlinien-Check durch und sendet das Bild. Es gibt keinen Upscaler, keine Multi-Band-Diffusion, keinen Chat-Kontext und ein Frame pro Anfrage, sodass es fast sofort erscheint. Der Kompromiss ist, dass 4o zusätzliche FLOPs verbraucht, um kleinen Text, Layout-Fidelity und Konsistenz bei mehrmaligen Bearbeitungen (angeblich) zu handhaben, während Grok auf Geschwindigkeit abgestimmt ist, um dir das JPEG schneller zu liefern.
Deva Hazarika
Deva Hazarika9. Aug., 00:59
Ich weiß nicht viel über die KI-Bilderzeugung, finde es aber interessant, wie der Ansatz von GPT viel Zeit benötigt, um ein Bild zu erstellen, im Vergleich zum Ansatz von Grok, der einfach so schnell wie möglich etwas herausfeuert.
Ja, ich habe LLMs zur Recherche verwendet, aber NEIN, ich habe keines verwendet, um dies zu schreiben.
Wow, beim nochmal Lesen gibt es so viele Tippfehler, dass ich mich schämen sollte.
Nachtrag: Ich wurde von [redacted] korrigiert, dass es für 4o fast sicher eine 1d-Sequenz und KEIN traditionelles Grid-VAE ist.
6,87K