DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

GAUSS: Generell bedömning av underliggande strukturerade färdigheter i matematik Vi är glada över att lansera GAUSS, nästa generations benchmark för matematik och AI som är byggd för att övervinna begränsningarna med låg färdighetsupplösning i dagens benchmarks. Vad gör den? GAUSS profilerar LLM:er över 12 kognitiva färdighetsdimensioner, som spänner över kunskap, resonemang, lärande och kreativitet, och erbjuder en exakt och heltäckande bild av modellernas matematiska förmåga. Varför är det viktigt? Genom att exponera styrkor och svagheter på en finkornig nivå lägger GAUSS grunden för att utveckla matematisk AI från mönsterigenkänning på ytnivå till genuint resonemang och förståelse. Våra iakttagelser Genom att tillämpa GAUSS på GPT-5-tänkandet lärde vi oss: ✅ Stark i taxonomiåterkallelse, utvärdering av argument, rimlighetskontroller, sammanfattning av avancerade artiklar och problemformulering ❌ Svag i teoremtillämpning, symbolisk beräkning, tillämpning av problemlösningsstrategier, geometrisk intuition och generalisering. Vad kommer härnäst Vi bygger kurerade problemuppsättningar med rubriker via crowdsourcing i communityn, färdighetsdiagram för LLM:er och en AI-automatisk graderare, grunden för modellträning mot matematisk superintelligens. Vi välkomnar varmt alla att gå med i GAUSS-gemenskapen, bidra med problem via vår portal och hjälpa till att forma framtiden för Math AI! Detta arbete leddes av mig själv och Jiaxin Zhang(@JiaxinZhang626) vid @hyperbolic_labs @Caltech, tillsammans med Qiuyu Ren & Tahsin Saffat vid @UCBerkeley, Lily Liu (@eqhylxx) vid @UCBerkeley → nu @OpenAI, Zitong Yang (@ZitongYang0) vid @Stanford, Prof. Banghua Zhu (@BanghuaZ) vid @nvidia / @UW, och Prof. Yi Ma (@YiMaTweets) vid @UCBerkeley / @HKUniversity. Länkar och detaljer nedan 👇 (1/n)

Topp

Rankning

Favoriter