Vissa agent benchmarks känns som benchmarking sökmotorer eller andra slumpmässiga verktyg lika mycket som en modell, och jag tycker att det är lite konstigt, men ser inte ett sätt att frikoppla. Kanske simulera verktygsresultat för att se hur modellen använder dem? Idk, men det kommer att bli konstigt att jämföra modeller när deras verktyg kan ha större inverkan än modellen