Einige Agenten-Benchmarks fühlen sich an wie das Benchmarking von Suchmaschinen oder anderen zufälligen Tools, ebenso sehr wie von einem Modell, und ich finde das ein bisschen seltsam, aber ich sehe keinen Weg, das zu entkoppeln. Vielleicht Mock-Tool-Ergebnisse, um zu sehen, wie das Modell sie nutzt? Ich weiß nicht, aber es wird seltsam sein, Modelle zu vergleichen, wenn ihre Tools möglicherweise mehr Einfluss haben als das Modell.