Pekerjaan hebat oleh @JamesTamplin untuk bergerak melampaui eval standar untuk menilai model AI.
Mengejutkan melihat Gemini 2.5 Flash melenyapkan pada simulasi minecraft ini.
Halo Dunia, kami
Kami mengevaluasi model perbatasan dengan memasukkannya ke dalam simulasi.
Jadi apa yang terjadi ketika 6 model perbatasan bersaing dalam #Minecraft untuk GPU?
Video dan 🧵