Atropos v0.3 est maintenant disponible ! Notre cadre d'environnements RL a connu de nombreuses améliorations depuis v0.2 - quelques points forts : - Atropos peut désormais être utilisé comme un cadre de référence et d'évaluation par @rogershijin, avec notre premier benchmark externe, Reward-Bench 2 ! - Ajout du Reasoning Gym, un dépôt d'environnement externe porté dans Atropos avec plus de 100 tâches de raisonnement par @neurosp1ke et ses amis. - @max_paperclips a intégré le bootcamp de raisonnement de @intern_lm, ajoutant plus de 1000 nouvelles tâches de raisonnement pour RL. - @dmayhem93, l'ingénieur principal d'Atropos, a ajouté des dizaines de corrections de bogues et d'autres améliorations de fiabilité et de compatibilité, un meilleur support pour les environnements multiples, et CI/CD. - Beaucoup des environnements hackathon d'Atropos ont été fusionnés dans /environments/community - les énumérer tous prendrait presque tout l'espace de l'écran, mais quelques points forts : VR-CLI par @JakeABoggs, Philosophie RLAIF, Enseignants LLM Adaptatifs, WebVoyager, conception de protéines par @hallerite, un environnement de routage de modèle par @gabinfay, plusieurs sur la preuve lean, l'arène catbot, pokemon showdown, poker, médecins utiles, poésie sanskrite par @khoomeik et bien plus encore ! - D'autres nouveaux environnements officiellement supportés incluent : Format de réponse suivant l'environnement Environnement Pydantic vers JSON porté du travail de @MatternJustus Suivi des instructions porté du travail de @natolambert et @allen_ai Comptage de lettres - 47 nouveaux contributeurs ! Consultez le changelog complet ici :