Một số tiêu chuẩn đánh giá của tác nhân cảm thấy giống như việc đánh giá các công cụ tìm kiếm hoặc các công cụ ngẫu nhiên khác nhiều hơn là một mô hình, và tôi nghĩ điều đó hơi kỳ lạ, nhưng không thấy cách nào để tách rời.
Có thể giả lập kết quả công cụ để xem cách mà mô hình sử dụng chúng? Tôi không biết, nhưng sẽ thật kỳ lạ khi so sánh các mô hình khi các công cụ của chúng có thể có ảnh hưởng lớn hơn cả mô hình.