GAUSS bukan hanya tentang apakah LLM mendapatkan jawaban yang benar, tetapi juga menunjukkan kekuatan dan kelemahan mereka di berbagai keterampilan dalam matematika. Bangga mengungkap penelitian kami untuk tolok ukur GAUSS dengan para peneliti dari CalTech, UC Berkeley, Stanford, NVIDIA, University of Washington, dan University of HK. Lihat di