Hienoa työtä @JamesTamplin siirtyä tavallisia eval-arvoja pidemmälle tekoälymallien arvioimiseksi. Yllättävää nähdä Gemini 2.5 Flashin tuhoutuvan tässä minecraft-simulaatiossa.