Unele benchmark-uri ale agenților se simt ca un benchmarking al motoarelor de căutare sau a altor instrumente aleatorii la fel de mult ca un model și cred că este puțin ciudat, dar nu văd o modalitate de a se decupla. Poate rezultatele instrumentelor simulate pentru a vedea cum le utilizează modelul? Idk, dar va fi ciudat să compari modele atunci când instrumentele lor pot avea un impact mai mare decât modelul