En biljon tokens per dag. Är det mycket? "Och när vi tittar snävt på bara antalet tokens som betjänas av Foundry API:er, bearbetade vi över 100 ton tokens detta kvartal, en ökning med 5 gånger jämfört med året innan, inklusive ett rekord på 50 ton tokens bara förra månaden." I april delade Microsoft med sig av en statistik som avslöjade att deras Foundry-produkt bearbetar cirka 1,7 biljoner tokens per månad. Igår delade Vipul bearbetar 2t av öppen källkodsinferens dagligen. I juli tillkännagav Google en häpnadsväckande siffra: "På I/O i maj meddelade vi att vi bearbetade 480 biljoner månatliga tokens på våra ytor. Sedan dess har vi fördubblat den siffran och bearbetar nu över 980 biljoner månatliga tokens, en anmärkningsvärd ökning." Google bearbetar 32,7 ton dagligen, 16 gånger mer än Together och 574 gånger mer än Microsoft Foundrys aprilvolym. Från dessa siffror kan vi dra några hypoteser : 1. Inferens med öppen källkod är en ensiffrig bråkdel av slutsatsdragning. Det är oklart hur stor andel av Googles inferenstokens som kommer från deras öppen källkodsmodeller som Gemma. Men om vi antar att Anthropic och OpenAI är 5t-10t tokens per dag och att alla med sluten källkod, plus att Azure är ungefär lika stora, så är inferens med öppen källkod sannolikt cirka 1-3 % av den totala inferensen. 2. Agenterna är tidiga. Microsofts datapunkt tyder på att agenterna i GitHub, Visual Studio, Copilot Studio och Microsoft Fabric bidrar med mindre än 1 % av den totala AI-inferensen i Azure. 3. Eftersom Microsoft förväntas investera 80 miljarder dollar jämfört med Googles 85 miljarder dollar i AI-datacenterinfrastruktur i år, bör arbetsbelastningen för AI-inferens för varje företag öka avsevärt både genom hårdvara som kommer online och algoritmiska förbättringar. "Enbart genom mjukvaruoptimering levererar vi 90 % fler tokens för samma GPU jämfört med för ett år sedan." Microsoft pressar ut mer digital lemonad ur sina GPU:er och Google måste också göra liknande. När kommer vi att se de första 10t eller 50t AI-tokens bearbetas per dag? Det kan inte vara långt borta nu. - Uppskattningar ur tomma intet! - Google och Azure för 33t tokens per dag vardera, Together och 5 andra neoclouds för ungefär 2t tokens per dag vardera, och Anthropic och OpenAI för 5t tokens per dag, ger oss 88t tokens per dag. Om vi antar att 5 % av Googles tokens kommer från modeller med öppen källkod är det 1,65 ton tokens per dag, eller ungefär 1,9 % av den totala slutsatsdragningen. Återigen, mycket grov matematik