為什麼基於模型的離線強化學習在擴展到長期任務時仍然如此困難? 認識 MAC,一種可擴展的 MBRL 方法,在長期 OGBench 上顯著超越了先前的離線 MBRL 方法,並且具有穩定的 100 步模型推演。 項目頁面: