Tudo bem, fiz algumas pesquisas e, depois de tudo o que li, aqui está minha conclusão: 4o Native Image Gen primeiro cospe uma grade gigante de tokens de patch latentes e, em seguida, entrega isso a um decodificador de difusão que faz ~ 25 etapas de redução de ruído por banda antes de mostrar os pixels resultantes. Depois disso, ele executa uma mesclagem de patches, incorpora metadados de proveniência c2pa e executa filtros de segurança multimodais pesados, cada um adicionando alguns 100 ms. Além disso, bc 4o geração de imagem nativa é literalmente a mesma instância 4o (não uma chamada de ferramenta separada), ele mantém todo o contexto de bate-papo em VRAM enquanto faz malabarismos com 10s de 1000s de tokens de imagem, então a GPU está fazendo MUITA multitarefa. enquanto isso, Grok: Aurora é um MoE voltado para a taxa de transferência bruta de token / s (~ 1,2k t / s reivindicado) e ignora totalmente a difusão. Ele emite tokens de imagem discretos de forma autorregressiva em uma única passagem, alimenta-os através de um decodificador VQ leve para um jpeg de 1024x768, adiciona uma marca d'água, faz uma varredura rápida de política e envia a imagem. Não há upscaler, difusão multibanda, contexto de bate-papo e um quadro por solicitação, por isso parece quase instantâneo a desvantagem é que o 4o queima FLOPs extras para lidar com texto pequeno, fidelidade de layout e consistência de edição de várias voltas (supostamente), enquanto o Grok é ajustado para velocidade para obter o jpeg mais cedo.
Deva Hazarika
Deva Hazarika9 de ago. de 2025
Não sei muito sobre geração de imagens de IA, mas acho interessante como a abordagem GPT leva muito tempo para chegar à abordagem de imagem versus Grok de apenas disparar algo o mais rápido possível
Sim, usei LLMs para pesquisar, mas NÃO, não usei um para escrever isso.
wow relendo isso há tantos erros de digitação que eu deveria ter vergonha
adendo: Fui corrigido por [redigido] que para 4o, é quase certo que uma sequência 1d NÃO é uma grade tradicional vae
339