Certo, fiz algumas pesquisas e, após tudo o que li, aqui está o que eu tirei como conclusão: O gerador de imagem nativo 4o primeiro produz uma grade gigante de tokens de patch latentes, depois entrega isso a um decodificador de difusão que faz cerca de 25 passos de desruído por banda antes de mostrar os pixels resultantes. Depois disso, ele executa uma fusão de patch, incorpora metadados de proveniência c2pa e executa filtros de segurança multimodal pesados, cada um adicionando alguns 100 ms. Além disso, como o gerador de imagem nativo 4o é literalmente a mesma instância 4o (não uma chamada de ferramenta separada), ele mantém todo o contexto do chat na VRAM enquanto lida com dezenas de milhares de tokens de imagem, então a GPU está fazendo MUITO multitasking. Enquanto isso, o Grok: Aurora é um MoE voltado para a taxa de transferência de tokens brutos/segundo (~1,2k t/s reivindicados) e ignora completamente a difusão. Ele emite autoregressivamente tokens de imagem discretos em uma única passagem, os alimenta através de um decodificador VQ leve para um jpeg de 1024x768, adiciona uma marca d'água, faz uma rápida varredura de políticas e envia a imagem. Não há upscaler, difusão de múltiplas bandas, nem contexto de chat, e um quadro por solicitação, então parece quase instantâneo. A troca é que o 4o consome FLOPs extras para lidar com texto pequeno, fidelidade de layout e consistência de edição em múltiplas turnos (alegadamente), enquanto o Grok é ajustado para velocidade para te entregar o jpeg mais rápido.
Deva Hazarika
Deva Hazarika9/08/2025
Não sei muito sobre geração de imagens por IA, mas acho interessante como a abordagem do GPT leva muito tempo para criar uma imagem, em comparação com a abordagem do Grok, que é simplesmente disparar algo o mais rápido possível.
Sim, usei LLMs para pesquisar, mas NÃO, não usei um para escrever isto.
uau, ao reler isto, há tantos erros de digitação que eu deveria ter vergonha
adendo: Fui corrigido por [redacted] que para 4o, é quase certamente uma sequência 1d, NÃO um vae de grade tradicional.
326