Alguns benchmarks de agentes parecem benchmarking de mecanismos de pesquisa ou outras ferramentas aleatórias, tanto quanto um modelo, e acho um pouco estranho, mas não vejo uma maneira de desacoplar. Talvez resultados de ferramentas simuladas para ver como o modelo os utiliza? Não sei, mas vai ser estranho comparar modelos quando suas ferramentas podem ter mais impacto do que o modelo