Jag tycker att detta är ett bra sätt att visualisera AI-racet med hjälp av det långlivade GPQA Diamond-benchmarket. Du kan se hur länge OpenAI haft fältet för sig självt, Metas uppgång (och kollaps), den plötsliga upphämtningen (och sedan stagnationen) av xAI, och inträdet av öppna viktiga kinesiska LLM:er.
Graduate-Level Google-Proof Q&A-testet (GPQA) är en serie svåra flervalsfrågor utformade för att testa avancerad kunskap. Icke-experter med internetåtkomst får 34 % rätt, doktorer med internetåtkomst får 65–70 % inom sitt specialområde. Vi är förmodligen nära mättnad
Jag befallde Codex att detta skulle göras. Data från @EpochAIResearch.
1,41K