Công việc tuyệt vời của @JamesTamplin để vượt ra ngoài các đánh giá tiêu chuẩn nhằm đánh giá các mô hình AI. Thật bất ngờ khi thấy Gemini 2.5 Flash vượt trội trong mô phỏng minecraft này.