Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ho appena unito un PR per un ambiente per migliorare l'LLM come giudice e valutare i modelli sulla loro capacità di esprimere giudizi!
Sapevi che tutti gli ambienti RL verificabili sono quasi equivalenti ai benchmark (e viceversa!)? Quindi abbiamo aggiunto un comando di valutazione alla base di Atropo e ora è possibile eseguire benchmark attraverso gli ambienti di Atroposo.
Ci sentivamo frustrati dal lavorare con così tanti framework di benchmark obsoleti o inutilizzabili, quindi abbiamo implementato la modalità di sola valutazione in Atropos, il nostro framework per ambienti RL.
Quindi il nostro primo porting al di fuori dei nostri ambienti esistenti è stato @natolambert's Reward-Bench!
Nota: al momento supporta solo modelli di ricompensa generativa (regolari giudici LLM).
Dai un'occhiata al PR qui:

20,66K
Principali
Ranking
Preferiti