Niektóre benchmarki agentów wydają się być bardziej porównywaniem wyszukiwarek lub innych losowych narzędzi niż modelu, i myślę, że to trochę dziwne, ale nie widzę sposobu na odłączenie tego. Może wyniki narzędzi mockowych, aby zobaczyć, jak model je wykorzystuje? Nie wiem, ale będzie dziwnie porównywać modele, gdy ich narzędzia mogą mieć większy wpływ niż sam model.