DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Ho appena unito un PR per un ambiente per migliorare l'LLM come giudice e valutare i modelli sulla loro capacità di esprimere giudizi! Sapevi che tutti gli ambienti RL verificabili sono quasi equivalenti ai benchmark (e viceversa!)? Quindi abbiamo aggiunto un comando di valutazione alla base di Atropo e ora è possibile eseguire benchmark attraverso gli ambienti di Atroposo. Ci sentivamo frustrati dal lavorare con così tanti framework di benchmark obsoleti o inutilizzabili, quindi abbiamo implementato la modalità di sola valutazione in Atropos, il nostro framework per ambienti RL. Quindi il nostro primo porting al di fuori dei nostri ambienti esistenti è stato @natolambert's Reward-Bench! Nota: al momento supporta solo modelli di ricompensa generativa (regolari giudici LLM). Dai un'occhiata al PR qui:

20,66K

Principali

Ranking

Preferiti

On-chain di tendenza

Di tendenza su X

Principali fondi recenti

Più popolari