Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
D'accord, j'ai fait quelques recherches, et après tout ce que j'ai lu, voici ce que j'en retire :
Le générateur d'images natif 4o produit d'abord une énorme grille de tokens de patch latents, puis la transmet à un décodeur de diffusion qui effectue environ 25 étapes de débruitage par bande avant d'afficher les pixels résultants. Après cela, il effectue une fusion de patch, intègre des métadonnées de provenance c2pa, et applique de lourds filtres de sécurité multimodaux, chacun ajoutant quelques centaines de millisecondes. De plus, comme le générateur d'images natif 4o est littéralement la même instance 4o (pas un appel d'outil séparé), il conserve tout le contexte de la discussion dans la VRAM tout en jonglant avec des dizaines de milliers de tokens d'image, donc le GPU fait BEAUCOUP de multitâche.
Pendant ce temps, Grok : Aurora est un MoE visant un débit brut de tokens/sec (environ 1,2k t/s revendiqué) et évite complètement la diffusion. Il émet de manière autoregressive des tokens d'image discrets en un seul passage, les alimente à travers un décodeur VQ léger pour obtenir un jpeg 1024x768, ajoute un filigrane, effectue un rapide balayage de politique, et envoie l'image. Il n'y a pas d'upscaler, pas de diffusion multi-bande, pas de contexte de discussion, et une image par requête, donc cela semble presque instantané.
Le compromis est que 4o consomme des FLOPs supplémentaires pour gérer le petit texte, la fidélité de mise en page, et la cohérence des modifications sur plusieurs tours (soi-disant), tandis que Grok est réglé pour la vitesse afin de vous fournir le jpeg plus rapidement.

9 août, 00:59
Je ne sais pas grand-chose sur la génération d'images par IA, mais je trouve intéressant que l'approche de GPT prenne beaucoup de temps pour produire une image, alors que l'approche de Grok consiste simplement à sortir quelque chose aussi rapidement que possible.


Oui, j'ai utilisé des LLM pour faire des recherches, mais NON je n'en ai pas utilisé un pour écrire cela.
wow en relisant cela, il y a tellement de fautes que je devrais avoir honte
addendum : J'ai été corrigé par [redacted] que pour 4o, c'est presque certainement une séquence 1d et NON un vae de grille traditionnel.
6,84K
Meilleurs
Classement
Favoris