Un trillion de jetons par jour. Est-ce beaucoup ? « Et quand nous regardons de près le nombre de jetons servis par les API Foundry, nous avons traité plus de 100t de jetons ce trimestre, soit 5 fois plus qu'il y a un an, y compris un record de 50t de jetons rien que le mois dernier. » En avril, Microsoft a partagé une statistique, révélant que leur produit Foundry traite environ 1,7t de jetons par mois. Hier, Vipul a partagé qu'il traite 2t d'inférence open-source par jour. En juillet, Google a annoncé un chiffre stupéfiant : « Lors de l'I/O en mai, nous avons annoncé que nous avons traité 480 trillions de jetons par mois sur nos surfaces. Depuis, nous avons doublé ce chiffre, traitant maintenant plus de 980 trillions de jetons par mois, une augmentation remarquable. » Google traite 32,7t par jour, 16 fois plus que Together et 574 fois plus que le volume d'avril de Microsoft Foundry. À partir de ces chiffres, nous pouvons tirer quelques hypothèses : 1. L'inférence open-source représente une fraction à un chiffre de l'inférence. Il n'est pas clair quelle fraction des jetons d'inférence de Google provient de leurs modèles open-source comme Gemma. Mais, si nous supposons qu'Anthropic et OpenAI traitent 5t-10t de jetons par jour et sont tous fermés, plus qu'Azure est à peu près de taille similaire, alors l'inférence open-source est probablement autour de 1-3 % de l'inférence totale. 2. Les agents sont encore à leurs débuts. Le point de données de Microsoft suggère que les agents au sein de GitHub, Visual Studio, Copilot Studio et Microsoft Fabric contribuent à moins de 1 % de l'inférence AI globale sur Azure. 3. Avec Microsoft qui devrait investir 80 milliards de dollars par rapport aux 85 milliards de dollars de Google dans l'infrastructure des centres de données AI cette année, les charges de travail d'inférence AI de chaque entreprise devraient augmenter considérablement grâce à la mise en ligne de matériel et aux améliorations algorithmiques. « Grâce à l'optimisation logicielle seule, nous livrons 90 % de jetons en plus pour le même GPU par rapport à l'année dernière. » Microsoft tire plus de limonade numérique de ses GPU et Google doit également faire de même. Quand verrons-nous les premiers 10t ou 50t de jetons AI traités par jour ? Cela ne peut pas être loin maintenant. - Estimations sorties de nulle part ! - Google et Azure à 33t de jetons par jour chacun, Together et 5 autres néo-clouds à environ 2t de jetons par jour chacun, et Anthropic et OpenAI à 5t de jetons par jour, nous donne 88t de jetons par jour. Si nous supposons que 5 % des jetons de Google proviennent de modèles open-source, cela représente 1,65t de jetons par jour, soit environ 1,9 % de l'inférence totale. Encore une fois, des calculs très approximatifs.