Ho appena unito un PR per un ambiente per migliorare l'LLM come giudice e valutare i modelli sulla loro capacità di esprimere giudizi! Sapevi che tutti gli ambienti RL verificabili sono quasi equivalenti ai benchmark (e viceversa!)? Quindi abbiamo aggiunto un comando di valutazione alla base di Atropo e ora è possibile eseguire benchmark attraverso gli ambienti di Atroposo. Ci sentivamo frustrati dal lavorare con così tanti framework di benchmark obsoleti o inutilizzabili, quindi abbiamo implementato la modalità di sola valutazione in Atropos, il nostro framework per ambienti RL. Quindi il nostro primo porting al di fuori dei nostri ambienti esistenti è stato @natolambert's Reward-Bench! Nota: al momento supporta solo modelli di ricompensa generativa (regolari giudici LLM). Dai un'occhiata al PR qui:
20,66K