Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Algunos benchmarks de agentes se sienten más como evaluar motores de búsqueda u otras herramientas aleatorias que como un modelo, y creo que es un poco raro, pero no veo una forma de desacoplarlo.
¿Quizás simular resultados de herramientas para ver cómo las utiliza el modelo? No lo sé, pero va a ser raro comparar modelos cuando sus herramientas pueden tener más impacto que el propio modelo.
Parte superior
Clasificación
Favoritos