Bra jobbat av @JamesTamplin för att gå bortom standardutvärderingar för att bedöma AI-modeller. Förvånande att se Gemini 2.5 Flash utplånas i denna minecraft-simulering.