GAUSS: Evaluarea generală a competențelor structurate subiacente în matematică Suntem încântați să lansăm GAUSS, un benchmark matematic AI de ultimă generație, construit pentru a depăși limitările rezoluției scăzute a abilităților din benchmark-urile de astăzi. Ce face GAUSS profilează LLM-urile în 12 dimensiuni ale abilităților cognitive, care acoperă cunoștințele, raționamentul, învățarea și creativitatea, oferind o imagine precisă și cuprinzătoare a abilităților matematice ale modelelor. De ce contează Prin expunerea punctelor forte și a punctelor slabe la un nivel fin, GAUSS pune bazele pentru avansarea AI matematică de la recunoașterea modelelor la nivel de suprafață către raționament și înțelegere autentică. Ce am descoperit Aplicând GAUSS la gândirea GPT-5, am învățat: ✅ Puternic în amintirea taxonomiei, evaluarea argumentelor, verificarea plauzibilității, rezumarea lucrărilor avansate și punerea de probleme ❌ Slab în aplicarea teoremei, calculul simbolic, aplicarea strategiilor de rezolvare a problemelor, intuiția geometrică și generalizarea. Ce urmează Construim seturi de probleme cu rubrici prin crowdsourcing comunitar, diagrame de abilități pentru LLM și un auto-grader AI, baze pentru antrenamentul modelelor către superinteligența matematică. Invităm cu căldură pe toată lumea să se alăture comunității GAUSS, să contribuie cu probleme prin intermediul portalului nostru și să ajute la modelarea viitorului Math AI! Această lucrare a fost condusă de mine și Jiaxin Zhang (@JiaxinZhang626) la @hyperbolic_labs / @Caltech, împreună cu Qiuyu Ren și Tahsin Saffat la @UCBerkeley, Lily Liu (@eqhylxx) la @UCBerkeley → acum @OpenAI, Zitong Yang (@ZitongYang0) la @Stanford, Prof. Banghua Zhu (@BanghuaZ) la @nvidia / @UW și Prof. Yi Ma (@YiMaTweets) la @UCBerkeley / @HKUniversity. Link-uri și detalii de mai jos 👇 (1/n)