Tại sao mô hình RL dựa trên mô hình ngoại tuyến vẫn khó mở rộng cho các nhiệm vụ dài hạn? Gặp gỡ MAC, một phương pháp MBRL có thể mở rộng, vượt trội hơn đáng kể so với các phương pháp MBRL ngoại tuyến trước đó trên OGBench dài hạn, với các vòng lặp mô hình 100 bước ổn định. Trang dự án: