Algunos puntos de referencia de agentes se sienten como una evaluación comparativa de motores de búsqueda u otras herramientas aleatorias tanto como un modelo, y creo que es un poco extraño, pero no veo una forma de desacoplarse. ¿Quizás resultados de herramientas simuladas para ver cómo las utiliza el modelo? No sé, pero va a ser extraño comparar modelos cuando sus herramientas pueden tener más impacto que el modelo