Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GAUSS: Generell bedömning av underliggande strukturerade färdigheter i matematik
Vi är glada över att lansera GAUSS, nästa generations benchmark för matematik och AI som är byggd för att övervinna begränsningarna med låg färdighetsupplösning i dagens benchmarks.
Vad gör den?
GAUSS profilerar LLM:er över 12 kognitiva färdighetsdimensioner, som spänner över kunskap, resonemang, lärande och kreativitet, och erbjuder en exakt och heltäckande bild av modellernas matematiska förmåga.
Varför är det viktigt?
Genom att exponera styrkor och svagheter på en finkornig nivå lägger GAUSS grunden för att utveckla matematisk AI från mönsterigenkänning på ytnivå till genuint resonemang och förståelse.
Våra iakttagelser
Genom att tillämpa GAUSS på GPT-5-tänkandet lärde vi oss:
✅ Stark i taxonomiåterkallelse, utvärdering av argument, rimlighetskontroller, sammanfattning av avancerade artiklar och problemformulering
❌ Svag i teoremtillämpning, symbolisk beräkning, tillämpning av problemlösningsstrategier, geometrisk intuition och generalisering.
Vad kommer härnäst
Vi bygger kurerade problemuppsättningar med rubriker via crowdsourcing i communityn, färdighetsdiagram för LLM:er och en AI-automatisk graderare, grunden för modellträning mot matematisk superintelligens.
Vi välkomnar varmt alla att gå med i GAUSS-gemenskapen, bidra med problem via vår portal och hjälpa till att forma framtiden för Math AI!
Detta arbete leddes av mig själv och Jiaxin Zhang(@JiaxinZhang626) vid @hyperbolic_labs @Caltech, tillsammans med Qiuyu Ren & Tahsin Saffat vid @UCBerkeley, Lily Liu (@eqhylxx) vid @UCBerkeley → nu @OpenAI, Zitong Yang (@ZitongYang0) vid @Stanford, Prof. Banghua Zhu (@BanghuaZ) vid @nvidia / @UW, och Prof. Yi Ma (@YiMaTweets) vid @UCBerkeley / @HKUniversity.
Länkar och detaljer nedan 👇 (1/n)


Topp
Rankning
Favoriter