トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GAUSS:数学における基礎となる構造化スキルの一般的な評価
今日のベンチマークにおけるスキル解像度の低さの限界を克服するために構築された次世代の数学 AI ベンチマークである GAUSS を発表できることを嬉しく思います。
機能
GAUSSは、知識、推論、学習、創造性にまたがる12の認知スキル次元にわたってLLMをプロファイリングし、モデルの数学的能力を正確かつ包括的に把握します。
なぜ重要なのか
GAUSS は、長所と短所をきめ細かいレベルで明らかにすることで、数学 AI を表面レベルのパターン認識から真の推論と理解へと進めるための基礎を築きます。
わかったこと
GAUSS を GPT-5 Thinking に適用すると、次のことがわかりました。
✅ 分類学の想起、議論の評価、妥当性チェック、高度な論文の要約、問題の提起に強い
❌ 定理の応用、記号計算、問題解決戦略の応用、幾何学的直観、一般化に弱い。
次のステップ
私たちは、コミュニティのクラウドソーシング、LLM のスキル チャート、AI 自動採点器を通じて、ルーブリックを使用して厳選された問題セットを構築し、数学の超知能に向けたモデル トレーニングの基盤を構築しています。
GAUSSコミュニティに参加し、ポータルを通じて問題に貢献し、Math AIの未来を形作る手助けをしていただくことを心から歓迎します!
この研究は、私と@hyperbolic_labs/@CaltechのJiaxin Zhang(@JiaxinZhang626)が主導し、@UCBerkeleyのQiuyu Ren&Tahsin Saffat、のQiuyu Ren&Tahsin Saffat、@UCBerkeley →のLily Liu(@OpenAI@eqhylxx)、@StanfordのZitong Yang(@ZitongYang0)、@nvidia/@UWのBanghua Zhu教授(@BanghuaZ)、@UCBerkeley/@HKUniversityのYi Ma教授(@YiMaTweets)によって主導されました。
以下のリンクと詳細 👇 (1/n)


トップ
ランキング
お気に入り