Gran trabajo de @JamesTamplin para ir más allá de las evaluaciones estándar para juzgar los modelos de IA. Sorprendente ver a Gemini 2.5 Flash arrasar en esta simulación de Minecraft.
Kradleai
Kradleaihace 23 horas
Hola mundo, estamos Evaluamos los modelos de frontera poniéndolos en simulaciones. Entonces, ¿qué sucede cuando 6 modelos de frontera compiten en #Minecraft por las GPU? Video y 🧵
1.69K