Деякі бенчмарки агентів схожі на порівняльний аналіз пошукових систем або інших випадкових інструментів так само, як і модель, і я думаю, що це трохи дивно, але не бачачи способу відокремитися. Можливо, імітувати результати інструментів, щоб побачити, як модель їх використовує? Idk, але буде дивно порівнювати моделі, коли їхні інструменти можуть мати більший вплив, ніж модель