一些代理基準測試感覺就像是在基準測試搜索引擎或其他隨機工具,而不僅僅是模型,我覺得這有點奇怪,但看不到解耦的方法。 也許可以模擬工具結果,看看模型如何利用它們?我不知道,但在比較模型時,它們的工具可能比模型本身更有影響,這將會很奇怪。