Baiklah saya melakukan riset, dan setelah semua yang saya baca, inilah kesimpulan saya: 4o Native Image Gen pertama-tama memuntahkan kisi raksasa token patch laten, lalu menyerahkannya ke dekoder difusi yang melakukan ~25ish langkah denoise per band sebelum menunjukkan piksel yang dihasilkan. Setelah itu, ia menjalankan penggabungan tambalan, menyematkan metadata asal c2pa, dan menjalankan filter keamanan multimodal yang berat, masing-masing menambahkan beberapa 100 ms. Juga gen gambar asli bc 4o secara harfiah adalah instance 4o yang sama (bukan panggilan alat terpisah), itu menjaga seluruh konteks obrolan di VRAM sambil menyulap 10 dari 1000 token gambar, jadi GPU melakukan BANYAK multitasking. sementara itu Grok: Aurora adalah MoE yang ditujukan untuk throughput token mentah/detik (~1.2k t/s diklaim) dan melewatkan difusi sepenuhnya. Ini secara regresif memancarkan token gambar diskrit dalam satu lintasan, memasukkannya melalui dekoder VQ ringan ke JPEG 1024x768, menambahkan tanda air, melakukan sapuan kebijakan cepat, dan mengirim gambar. Tidak ada upscaler, difusi multi band, tidak ada konteks obrolan, dan satu frame per permintaan sehingga terasa hampir instan trade-off adalah 4o membakar FLOP ekstra untuk menangani teks kecil, kesetiaan tata letak, dan konsistensi pengeditan multi giliran (diduga), sementara Grok disetel untuk kecepatan agar Anda mendapatkan jpeg lebih cepat.
Deva Hazarika
Deva Hazarika9 Agu, 00.59
Saya tidak tahu banyak tentang pembuatan gambar AI tetapi merasa menarik bagaimana pendekatan GPT membutuhkan banyak waktu untuk menghasilkan pendekatan gambar vs Grok dengan hanya menembakkan sesuatu secepat mungkin
Ya, saya menggunakan LLM untuk meneliti, tetapi TIDAK saya tidak menggunakannya untuk menulis ini.
wow membaca ulang ini ada begitu banyak kesalahan ketik yang harus saya malu
tambahan: Saya telah dikoreksi oleh [disunting] bahwa untuk 4o, hampir pasti ini adalah urutan 1d BUKAN vae grid tradisional
6,83K