一部のエージェントベンチマークは、モデルと同じくらい検索エンジンやその他のランダムツールをベンチマークしているように感じられ、少し奇妙だと思いますが、分離する方法が見当たりません。 モデルがツール結果をどのように利用するかを確認するために、ツールの結果をモックするかもしれませんか?Idk、しかし、ツールがモデルよりも大きな影響を与える可能性がある場合に、モデルを比較するのは奇妙です