GAUSS: Obecné hodnocení základních strukturovaných dovedností v matematice Jsme nadšeni, že můžeme spustit GAUSS, srovnávací test matematické umělé inteligence nové generace, který byl vytvořen tak, aby překonal omezení nízkého rozlišení dovedností v dnešních srovnávacích testech. Náplň činnosti GAUSS profiluje LLM ve 12 dimenzích kognitivních dovedností, které zahrnují znalosti, uvažování, učení a kreativitu a nabízejí přesný a komplexní pohled na matematické schopnosti modelů. Proč na tom záleží Odhalením silných a slabých stránek na jemné úrovni GAUSS pokládá základy pro pokrok matematické umělé inteligence od rozpoznávání vzorů na povrchové úrovni ke skutečnému uvažování a porozumění. Co jsme zjistili Při aplikaci GAUSS na myšlení GPT-5 jsme se naučili: ✅ Silný v taxonomii, vyhodnocování argumentů, ověřování věrohodnosti, shrnutí pokročilých prací a kladení problémů ❌ Slabé v aplikaci vět, symbolických výpočtech, aplikacích strategií řešení problémů, geometrické intuici a zobecnění. Co bude dál Vytváříme kurátorské sady problémů s rubrikami prostřednictvím komunitního crowdsourcingu, grafů dovedností pro LLM a automatického hodnotitele AI, což jsou základy pro trénink modelů směrem k matematické superinteligenci. Srdečně zveme všechny, aby se připojili ke komunitě GAUSS, přispívali problémy prostřednictvím našeho portálu a pomáhali utvářet budoucnost matematické umělé inteligence! Tuto práci jsem vedl já a Jiaxin Zhang (@JiaxinZhang626) na @hyperbolic_labs / @Caltech, spolu s Qiuyu Ren & Tahsin Saffat na @UCBerkeley, Lily Liu (@eqhylxx) na @UCBerkeley → nyní @OpenAI, Zitong Yang (@ZitongYang0) na @Stanford, prof. Banghua Zhu (@BanghuaZ) na @nvidia / @UW a prof. Yi Ma (@YiMaTweets) na @UCBerkeley / @HKUniversity. Odkazy a podrobnosti níže 👇 (1/n)