Některé benchmarky agentů mi připadají jako benchmarking vyhledávačů nebo jiných náhodných nástrojů stejně jako model a myslím, že je to trochu divné, ale nevidím způsob, jak to oddělit. Možná mock výsledky nástrojů, abyste viděli, jak je model využívá? Idk, ale bude divné porovnávat modely, když jejich nástroje mohou mít větší dopad než model