Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GAUSS: Obecné hodnocení základních strukturovaných dovedností v matematice
Jsme nadšeni, že můžeme spustit GAUSS, srovnávací test matematické umělé inteligence nové generace, který byl vytvořen tak, aby překonal omezení nízkého rozlišení dovedností v dnešních srovnávacích testech.
Náplň činnosti
GAUSS profiluje LLM ve 12 dimenzích kognitivních dovedností, které zahrnují znalosti, uvažování, učení a kreativitu a nabízejí přesný a komplexní pohled na matematické schopnosti modelů.
Proč na tom záleží
Odhalením silných a slabých stránek na jemné úrovni GAUSS pokládá základy pro pokrok matematické umělé inteligence od rozpoznávání vzorů na povrchové úrovni ke skutečnému uvažování a porozumění.
Co jsme zjistili
Při aplikaci GAUSS na myšlení GPT-5 jsme se naučili:
✅ Silný v taxonomii, vyhodnocování argumentů, ověřování věrohodnosti, shrnutí pokročilých prací a kladení problémů
❌ Slabé v aplikaci vět, symbolických výpočtech, aplikacích strategií řešení problémů, geometrické intuici a zobecnění.
Co bude dál
Vytváříme kurátorské sady problémů s rubrikami prostřednictvím komunitního crowdsourcingu, grafů dovedností pro LLM a automatického hodnotitele AI, což jsou základy pro trénink modelů směrem k matematické superinteligenci.
Srdečně zveme všechny, aby se připojili ke komunitě GAUSS, přispívali problémy prostřednictvím našeho portálu a pomáhali utvářet budoucnost matematické umělé inteligence!
Tuto práci jsem vedl já a Jiaxin Zhang (@JiaxinZhang626) na @hyperbolic_labs / @Caltech, spolu s Qiuyu Ren & Tahsin Saffat na @UCBerkeley, Lily Liu (@eqhylxx) na @UCBerkeley → nyní @OpenAI, Zitong Yang (@ZitongYang0) na @Stanford, prof. Banghua Zhu (@BanghuaZ) na @nvidia / @UW a prof. Yi Ma (@YiMaTweets) na @UCBerkeley / @HKUniversity.
Odkazy a podrobnosti níže 👇 (1/n)


Top
Hodnocení
Oblíbené