Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Hyperbolic
GAUSS gaat niet alleen over of LLM's het juiste antwoord geven, het toont hun sterke en zwakke punten in verschillende wiskundige vaardigheden.
Trots om ons onderzoek voor de GAUSS benchmark te onthullen samen met onderzoekers van CalTech, UC Berkeley, Stanford, NVIDIA, de Universiteit van Washington en de Universiteit van HK. Bekijk het hier:

Jasper12 sep, 20:59
GAUSS: Algemene Beoordeling van Onderliggende Gestructureerde Vaardigheden in Wiskunde
We zijn enthousiast om GAUSS te lanceren, een benchmark voor wiskunde-AI van de volgende generatie, ontworpen om de beperkingen van lage vaardigheidsresolutie in de huidige benchmarks te overwinnen.
Wat het doet
GAUSS profileert LLM's over 12 cognitieve vaardigheidsdimensies, variërend van kennis, redeneren, leren en creativiteit, en biedt een nauwkeurig en uitgebreid overzicht van de wiskundige vaardigheden van modellen.
Waarom het belangrijk is
Door sterke en zwakke punten op een fijnmazig niveau bloot te leggen, legt GAUSS de basis voor de vooruitgang van wiskunde-AI van oppervlakkige patroonherkenning naar oprechte redenering en begrip.
Wat we hebben ontdekt
Door GAUSS toe te passen op GPT-5 Thinking, hebben we geleerd:
✅ Sterk in taxonomieherinnering, evalueren van argumenten, plausibiliteitscontroles, samenvatten van geavanceerde papers en het stellen van problemen
❌ Zwak in toepassing van stellingen, symbolische berekeningen, toepassing van probleemoplossingsstrategieën, geometrische intuïtie en generalisatie.
Wat is de volgende stap
We bouwen samengestelde probleemsets met rubrieken via gemeenschapscrowdsourcing, vaardigheidskaarten voor LLM's en een AI-autocorrector, fundamenten voor modeltraining richting wiskunde-superintelligentie.
We nodigen iedereen van harte uit om deel uit te maken van de GAUSS-gemeenschap, problemen bij te dragen via ons portaal en te helpen de toekomst van wiskunde-AI vorm te geven!
Dit werk werd geleid door mijzelf en Jiaxin Zhang (@JiaxinZhang626) bij @hyperbolic_labs / @Caltech, samen met Qiuyu Ren & Tahsin Saffat bij @UCBerkeley, Lily Liu (@eqhylxx) bij @UCBerkeley → nu @OpenAI, Zitong Yang (@ZitongYang0) bij @Stanford, Prof. Banghua Zhu (@BanghuaZ) bij @nvidia / @UW, en Prof. Yi Ma (@YiMaTweets) bij @UCBerkeley / @HKUniversity.
Links en details hieronder 👇 (1/n)


138
Boven
Positie
Favorieten