Sommige agent benchmarks voelen meer als het benchmarken van zoekmachines of andere willekeurige tools dan als een model, en ik vind het een beetje vreemd, maar ik zie geen manier om het los te koppelen. Misschien mock toolresultaten om te zien hoe het model ze gebruikt? Ik weet het niet, maar het gaat vreemd zijn om modellen te vergelijken wanneer hun tools mogelijk meer impact hebben dan het model.