Atropos v0.3 đã ra mắt! Khung môi trường RL của chúng tôi đã có nhiều nâng cấp kể từ v0.2 - một số điểm nổi bật: - Atropos giờ đây có thể được sử dụng như một khung đánh giá và chuẩn hóa bởi @rogershijin, với chuẩn hóa bên ngoài đầu tiên của chúng tôi, Reward-Bench 2! - Thêm Reasoning Gym, một kho môi trường bên ngoài được chuyển sang Atropos với hơn 100 nhiệm vụ lý luận bởi @neurosp1ke và bạn bè - @max_paperclips đã tích hợp bootcamp lý luận của @intern_lm, thêm hơn 1000 nhiệm vụ lý luận mới cho RL - @dmayhem93, kỹ sư trưởng của Atropos, đã thêm hàng chục bản sửa lỗi và các cải tiến về độ tin cậy và khả năng tương thích, hỗ trợ tốt hơn cho nhiều môi trường, và CI/CD - Nhiều môi trường hackathon của Atropos đã được hợp nhất vào /environments/community - để liệt kê tất cả sẽ chiếm hầu hết không gian màn hình, nhưng một số điểm nổi bật: VR-CLI bởi @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, thiết kế protein bởi @hallerite, một môi trường định tuyến mô hình bởi @gabinfay, nhiều trên chứng minh lean, đấu trường catbot, pokemon showdown, poker, bác sĩ hữu ích, thơ sanskrit bởi @khoomeik và còn nhiều hơn nữa! - Các môi trường mới chính thức hỗ trợ đáng chú ý khác bao gồm: Định dạng câu trả lời theo môi trường Môi trường Pydantic sang JSON được chuyển từ công việc của @MatternJustus Theo dõi hướng dẫn được chuyển từ công việc của @natolambert và @allen_ai Đếm chữ cái - 47 người đóng góp hoàn toàn mới! Hãy xem nhật ký thay đổi đầy đủ tại đây: