Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Hyperbolic
GAUSS to nie tylko kwestia tego, czy LLM-y dają poprawną odpowiedź, ale pokazuje ich mocne i słabe strony w różnych umiejętnościach matematycznych.
Z dumą prezentujemy nasze badania dotyczące benchmarku GAUSS we współpracy z badaczami z CalTech, UC Berkeley, Stanford, NVIDIA, Uniwersytetu Waszyngtońskiego i Uniwersytetu w Hongkongu. Sprawdź to na

Jasper12 wrz, 20:59
GAUSS: Ogólna Ocena Podstawowych Umiejętności Strukturalnych w Matematyce
Cieszymy się, że możemy zaprezentować GAUSS, benchmark AI w matematyce nowej generacji, stworzony w celu przezwyciężenia ograniczeń niskiej rozdzielczości umiejętności w dzisiejszych benchmarkach.
Co to robi
GAUSS profiluje LLM-y w 12 wymiarach umiejętności poznawczych, obejmujących wiedzę, rozumowanie, uczenie się i kreatywność, oferując precyzyjny i kompleksowy obraz zdolności matematycznych modeli.
Dlaczego to ma znaczenie
Ujawniwszy mocne i słabe strony na szczegółowym poziomie, GAUSS kładzie fundamenty dla rozwoju AI w matematyce od rozpoznawania wzorców na powierzchni do prawdziwego rozumowania i zrozumienia.
Co odkryliśmy
Zastosowując GAUSS do myślenia GPT-5, dowiedzieliśmy się:
✅ Silny w przypominaniu taksonomii, ocenie argumentów, sprawdzaniu prawdopodobieństwa, podsumowywaniu zaawansowanych prac i stawianiu problemów
❌ Słaby w zastosowaniu twierdzeń, obliczeniach symbolicznych, stosowaniu strategii rozwiązywania problemów, intuicji geometrycznej i generalizacji.
Co dalej
Budujemy starannie dobrane zestawy problemów z rubrykami poprzez crowdsourcing społecznościowy, wykresy umiejętności dla LLM-ów oraz automatycznego oceniacza AI, fundamenty dla treningu modeli w kierunku superinteligencji matematycznej.
Serdecznie zapraszamy wszystkich do dołączenia do społeczności GAUSS, wniesienia problemów przez nasz portal i pomocy w kształtowaniu przyszłości AI w matematyce!
Prace te prowadziłem ja oraz Jiaxin Zhang (@JiaxinZhang626) w @hyperbolic_labs / @Caltech, razem z Qiuyu Ren i Tahsin Saffat w @UCBerkeley, Lily Liu (@eqhylxx) w @UCBerkeley → teraz @OpenAI, Zitong Yang (@ZitongYang0) w @Stanford, prof. Banghua Zhu (@BanghuaZ) w @nvidia / @UW oraz prof. Yi Ma (@YiMaTweets) w @UCBerkeley / @HKUniversity.
Linki i szczegóły poniżej 👇 (1/n)


95
Najlepsze
Ranking
Ulubione