Atropos v0.3 a fost acum disponibil! Cadrul nostru RL Environments a cunoscut o mulțime de actualizări de la v0.2 - câteva puncte importante: - Atropos poate fi acum folosit ca cadru de benchmarking și evaluări de @rogershijin, cu primul nostru benchmark extern, Reward-Bench 2! - S-a adăugat Reasoning Gym, un depozit de gimnastică de mediu extern portat în atropos cu peste 100 de sarcini de raționament de @neurosp1ke și prieteni - @max_paperclips bootcamp de raționament integrat @intern_lm, adăugând 1000+ noi sarcini de raționament pentru RL - @dmayhem93 inginerul șef al Atropos a adăugat zeci de remedieri de erori și alte îmbunătățiri de fiabilitate și compatibilitate, suport mai bun pentru mai multe medii și CI/CD - Multe dintre mediile hackathon-ului Atropos au fost fuzionate în /environments/community - pentru a le enumera pe toate ar ocupa cea mai mare parte a spațiului de pe ecran, dar câteva puncte importante: VR-CLI de @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, design de proteine de @hallerite, un mediu de rutare a modelelor de @gabinfay, multiple pe lean proving, arena catbot, pokemon showdown, poker, medici utili, poezie sanscrită de @khoomeik și multe altele! - Alte medii noi notabile acceptate oficial includ: Formatul răspunsului urmează mediul Mediul Pydantic în JSON portat de la @MatternJustus de lucru Instrucțiuni care urmează portate din munca lui @natolambert și @allen_ai Numărarea literelor - 47 de contribuitori noi! Consultați jurnalul complet de modificări aici: