Está bien, hice algo de investigación y después de todo lo que leí, aquí está mi conclusión: 4o native image gen primero genera una enorme cuadrícula de tokens de parches latentes, luego se lo entrega a un decodificador de difusión que realiza aproximadamente 25 pasos de eliminación de ruido por banda antes de mostrar los píxeles resultantes. Después de eso, ejecuta una fusión de parches, incrusta metadatos de procedencia c2pa y aplica filtros de seguridad multimodal pesados, cada uno añadiendo unos pocos cientos de milisegundos. Además, como 4o native image gen es literalmente la misma instancia de 4o (no una llamada a una herramienta separada), mantiene todo el contexto del chat en VRAM mientras maneja decenas de miles de tokens de imagen, por lo que la GPU está haciendo MUCHO multitasking. Mientras tanto, Grok: Aurora es un MoE orientado al rendimiento bruto de tokens/segundo (se afirma que ~1.2k t/s) y omite completamente la difusión. Emite de manera autorregresiva tokens de imagen discretos en una sola pasada, los alimenta a través de un decodificador VQ ligero a un jpeg de 1024x768, añade una marca de agua, realiza una rápida revisión de políticas y envía la imagen. No hay escalador, difusión de múltiples bandas, ni contexto de chat, y un fotograma por solicitud, por lo que se siente casi instantáneo. El compromiso es que 4o consume FLOPs adicionales para manejar texto pequeño, fidelidad de diseño y consistencia de edición en múltiples turnos (supuestamente), mientras que Grok está ajustado para velocidad para que obtengas el jpeg más rápido.
Deva Hazarika
Deva Hazarika9 ago 2025
No sé mucho sobre la generación de imágenes con IA, pero me parece interesante cómo el enfoque de GPT toma mucho tiempo para crear una imagen frente al enfoque de Grok de simplemente lanzar algo lo más rápido posible.
Sí, utilicé LLMs para investigar, pero NO, no utilicé uno para escribir esto.
vaya, al volver a leer esto hay tantos errores tipográficos que debería sentirme avergonzado
adenda: Me han corregido por [redacted] que para 4o, casi con certeza es una secuencia 1d NO un vae de cuadrícula tradicional.
324