GAUSS: Allgemeine Bewertung der zugrunde liegenden strukturierten Fähigkeiten in Mathematik Wir freuen uns, GAUSS zu starten, einen KI-Benchmark der nächsten Generation für Mathematik, der darauf abzielt, die Einschränkungen der niedrigen Fähigkeitsauflösung in den heutigen Benchmarks zu überwinden. Was es tut GAUSS bewertet LLMs über 12 kognitive Fähigkeitsdimensionen hinweg, die Wissen, Denken, Lernen und Kreativität umfassen, und bietet einen präzisen und umfassenden Überblick über die mathematischen Fähigkeiten der Modelle. Warum es wichtig ist Durch die Aufdeckung von Stärken und Schwächen auf einer feinkörnigen Ebene legt GAUSS die Grundlage für den Fortschritt der Mathematik-KI von oberflächlicher Mustererkennung hin zu echtem Denken und Verständnis. Was wir herausgefunden haben Bei der Anwendung von GAUSS auf das Denken von GPT-5 haben wir gelernt: ✅ Stark in Taxonomie-Rückruf, Bewertung von Argumenten, Plausibilitätsprüfungen, Zusammenfassung fortgeschrittener Arbeiten und Problemlösung ❌ Schwach in der Anwendung von Theoremen, symbolischer Berechnung, Anwendung von Problemlösungsstrategien, geometrischer Intuition und Verallgemeinerung. Was kommt als Nächstes Wir erstellen kuratierte Problemsets mit Rubriken durch Community-Crowdsourcing, Fähigkeitsdiagramme für LLMs und einen KI-Autobewertungsmechanismus, Grundlagen für das Modelltraining in Richtung mathematischer Superintelligenz. Wir laden alle herzlich ein, der GAUSS-Community beizutreten, Probleme über unser Portal einzureichen und die Zukunft der Mathematik-KI mitzugestalten! Diese Arbeit wurde von mir und Jiaxin Zhang (@JiaxinZhang626) bei @hyperbolic_labs / @Caltech, zusammen mit Qiuyu Ren & Tahsin Saffat bei @UCBerkeley, Lily Liu (@eqhylxx) bei @UCBerkeley → jetzt @OpenAI, Zitong Yang (@ZitongYang0) bei @Stanford, Prof. Banghua Zhu (@BanghuaZ) bei @nvidia / @UW und Prof. Yi Ma (@YiMaTweets) bei @UCBerkeley / @HKUniversity geleitet. Links und Details unten 👇 (1/n)