Algunos benchmarks de agentes se sienten más como evaluar motores de búsqueda u otras herramientas aleatorias que como un modelo, y creo que es un poco raro, pero no veo una forma de desacoplarlo. ¿Quizás simular resultados de herramientas para ver cómo las utiliza el modelo? No lo sé, pero va a ser raro comparar modelos cuando sus herramientas pueden tener más impacto que el propio modelo.