¡Atropos v0.3 ya está disponible! Nuestro marco de Entornos RL ha recibido muchas mejoras desde v0.2 - algunos aspectos destacados: - ¡Atropos ahora puede ser utilizado como un marco de evaluación y referencia por @rogershijin, con nuestro primer benchmark externo, Reward-Bench 2! - Se añadió el Reasoning Gym, un repositorio de entornos externos portado a Atropos con más de 100 tareas de razonamiento por @neurosp1ke y amigos. - @max_paperclips integró el bootcamp de razonamiento de @intern_lm, añadiendo más de 1000 nuevas tareas de razonamiento para RL. - @dmayhem93, el ingeniero principal de Atropos, añadió docenas de correcciones de errores y otras mejoras de fiabilidad y compatibilidad, mejor soporte para múltiples entornos y CI/CD. - Muchos de los entornos del hackathon de Atropos se han fusionado en /environments/community - enumerarlos todos ocuparía la mayor parte del espacio en pantalla, pero algunos aspectos destacados son: VR-CLI por @JakeABoggs, Filosofía RLAIF, Profesores LLM Adaptativos, WebVoyager, diseño de proteínas por @hallerite, un entorno de enrutamiento de modelos por @gabinfay, múltiples en pruebas lean, la arena de catbots, enfrentamiento de pokemon, póker, doctores útiles, poesía sánscrita por @khoomeik y mucho más! - Otros nuevos entornos oficialmente soportados incluyen: Formato de respuesta siguiendo el entorno Entorno Pydantic a JSON portado del trabajo de @MatternJustus Seguimiento de instrucciones portado del trabajo de @natolambert y @allen_ai Conteo de letras - ¡47 nuevos contribuyentes! Consulta el changelog completo aquí: