Está bien, hice algo de investigación y después de todo lo que leí, aquí está mi conclusión: 4o generación de imágenes nativas primero produce una enorme cuadrícula de tokens de parches latentes, luego se lo entrega a un decodificador de difusión que realiza aproximadamente 25 pasos de desruido por banda antes de mostrar los píxeles resultantes. Después de eso, ejecuta una fusión de parches, incrusta metadatos de procedencia c2pa y aplica filtros de seguridad multimodal pesados, cada uno añadiendo unos pocos cientos de milisegundos. Además, como la generación de imágenes nativas 4o es literalmente la misma instancia 4o (no una llamada a una herramienta separada), mantiene todo el contexto del chat en VRAM mientras maneja decenas de miles de tokens de imagen, por lo que la GPU está haciendo MUCHO multitasking. Mientras tanto, Grok: Aurora es un MoE orientado al rendimiento bruto de tokens/segundo (se afirma que ~1.2k t/s) y omite completamente la difusión. Emite de manera autorregresiva tokens de imagen discretos en una sola pasada, los alimenta a través de un decodificador VQ ligero a un jpeg de 1024x768, añade una marca de agua, realiza una rápida revisión de políticas y envía la imagen. No hay escalador, difusión de múltiples bandas, ni contexto de chat, y un cuadro por solicitud, por lo que se siente casi instantáneo. El compromiso es que 4o quema FLOPs adicionales para manejar texto pequeño, fidelidad de diseño y consistencia de edición en múltiples turnos (supuestamente), mientras que Grok está ajustado para velocidad para obtenerte el jpeg más rápido.
Deva Hazarika
Deva Hazarika9 ago, 00:59
No sé mucho sobre la generación de imágenes con IA, pero me parece interesante cómo el enfoque de GPT toma mucho tiempo para crear una imagen, en comparación con el enfoque de Grok que simplemente lanza algo lo más rápido posible.
Sí, utilicé LLMs para investigar, pero NO, no utilicé uno para escribir esto.
vaya, al volver a leer esto hay tantos errores tipográficos que debería sentirme avergonzado
adenda: He sido corregido por [redacted] que para 4o, casi seguramente es una secuencia 1d NO un vae de cuadrícula tradicional.
6.84K