Noen agentbenchmarks føles som benchmarking av søkemotorer eller andre tilfeldige verktøy like mye som en modell, og jeg synes det er litt rart, men ser ikke en måte å koble fra på. Kanskje falske verktøyresultater for å se hvordan modellen bruker dem? Idk, men det kommer til å være rart å sammenligne modeller når verktøyene deres kan ha mer innvirkning enn modellen