Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GAUSS: Đánh giá tổng quát các kỹ năng cấu trúc cơ bản trong Toán học
Chúng tôi rất vui mừng thông báo ra mắt GAUSS, một tiêu chuẩn AI toán học thế hệ tiếp theo được xây dựng để vượt qua những hạn chế của độ phân giải kỹ năng thấp trong các tiêu chuẩn hiện nay.
Nó làm gì
GAUSS đánh giá các LLM trên 12 chiều kích kỹ năng nhận thức, bao gồm kiến thức, lý luận, học tập và sáng tạo, cung cấp một cái nhìn chính xác và toàn diện về khả năng toán học của các mô hình.
Tại sao điều này quan trọng
Bằng cách phơi bày những điểm mạnh và điểm yếu ở mức độ chi tiết, GAUSS đặt nền tảng cho việc phát triển AI toán học từ nhận diện mẫu bề mặt đến lý luận và hiểu biết thực sự.
Chúng tôi đã tìm thấy gì
Khi áp dụng GAUSS vào tư duy GPT-5, chúng tôi đã học được:
✅ Mạnh trong việc nhớ phân loại, đánh giá lập luận, kiểm tra tính hợp lý, tóm tắt các bài báo nâng cao và đặt ra vấn đề
❌ Yếu trong việc áp dụng định lý, tính toán ký hiệu, áp dụng chiến lược giải quyết vấn đề, trực giác hình học và tổng quát hóa.
Điều gì tiếp theo
Chúng tôi đang xây dựng các bộ vấn đề được tuyển chọn với các tiêu chí thông qua việc crowdsourcing từ cộng đồng, biểu đồ kỹ năng cho các LLM, và một hệ thống chấm điểm tự động AI, nền tảng cho việc đào tạo mô hình hướng tới siêu trí tuệ toán học.
Chúng tôi nhiệt liệt mời mọi người tham gia cộng đồng GAUSS, đóng góp các vấn đề thông qua cổng thông tin của chúng tôi và giúp định hình tương lai của AI Toán học!
Công việc này được dẫn dắt bởi tôi và Jiaxin Zhang (@JiaxinZhang626) tại @hyperbolic_labs / @Caltech, cùng với Qiuyu Ren & Tahsin Saffat tại @UCBerkeley, Lily Liu (@eqhylxx) tại @UCBerkeley → hiện tại là @OpenAI, Zitong Yang (@ZitongYang0) tại @Stanford, Prof. Banghua Zhu (@BanghuaZ) tại @nvidia / @UW, và Prof. Yi Ma (@YiMaTweets) tại @UCBerkeley / @HKUniversity.
Các liên kết và chi tiết bên dưới 👇 (1/n)


Hàng đầu
Thứ hạng
Yêu thích