Atropos v0.3 är nu ute! Vårt ramverk för RL-miljöer har sett många uppgraderingar sedan v0.2 - några höjdpunkter: - Atropos kan nu användas som ett ramverk för benchmarking och utvärdering av @rogershijin, med vår första externa benchmark, Reward-Bench 2! - Lade till Reasoning Gym, ett repo för gym i extern miljö som överfördes till atropos med över 100 resonemangsuppgifter av @neurosp1ke och vänner - @max_paperclips integrerade @intern_lm:s resonemang bootcamp och lade till 1000+ nya resonemangsuppgifter för RL - @dmayhem93 lade Atropos chefsingenjör till dussintals buggfixar och andra förbättringar av tillförlitlighet och kompatibilitet, bättre stöd för flera miljöer och CI/CD - Många av Atropos hackathon-miljöer har slagits ihop till /environments/community - att lista dem alla skulle ta upp det mesta av skärmutrymmet, men några höjdpunkter: VR-CLI av @JakeABoggs, filosofi RLAIF, adaptiva LLM-lärare, WebVoyager, proteindesign av @hallerite, en modellroutingmiljö av @gabinfay, flera på lean proving, catbot arena, pokemon showdown, poker, hjälpsamma läkare, sanskritpoesi av @khoomeik och så mycket mer! - Andra viktiga nya miljöer som stöds officiellt är: Svarsformat följande miljö Pydantic till JSON-miljö porterad från @MatternJustus arbete Instruktion Följer portat från @natolambert och @allen_ai arbete Räkning av bokstäver - 47 helt nya bidragsgivare! Kolla in hela ändringsloggen här: