为什么基于模型的离线强化学习在扩展到长时间任务时仍然如此困难? 介绍MAC,这是一种可扩展的MBRL方法,在长时间OGBench上显著超越了之前的离线MBRL方法,具有稳定的100步模型滚动。 项目页面: