一些代理基准测试感觉就像是在基准测试搜索引擎或其他随机工具,而不仅仅是模型,我觉得这有点奇怪,但看不到解耦的方法。 也许可以模拟工具结果,看看模型如何利用它们?我不知道,但在比较模型时,它们的工具可能比模型本身更有影响,这将会很奇怪。