Certains benchmarks d'agents ressemblent plus à des benchmarks de moteurs de recherche ou d'autres outils aléatoires qu'à un modèle, et je trouve ça un peu étrange, mais je ne vois pas comment les dissocier. Peut-être simuler les résultats d'outils pour voir comment le modèle les utilise ? Je ne sais pas, mais ça va être bizarre de comparer des modèles quand leurs outils peuvent avoir plus d'impact que le modèle.