Beberapa tolok ukur agen terasa seperti membandingkan mesin pencari atau alat acak lainnya sebanyak model, dan saya pikir itu agak aneh, tetapi tidak melihat cara untuk memisahkan. Mungkin hasil alat tiruan untuk melihat bagaimana model menggunakannya? Idk, tapi akan aneh untuk membandingkan model ketika alat mereka mungkin memiliki dampak lebih besar daripada model