Pekerjaan hebat oleh @JamesTamplin untuk bergerak melampaui eval standar untuk menilai model AI. Mengejutkan melihat Gemini 2.5 Flash melenyapkan pada simulasi minecraft ini.
Kradleai
Kradleai23 jam lalu
Halo Dunia, kami Kami mengevaluasi model perbatasan dengan memasukkannya ke dalam simulasi. Jadi apa yang terjadi ketika 6 model perbatasan bersaing dalam #Minecraft untuk GPU? Video dan 🧵
1,69K