Rich Sutton 剛剛發表了他自 The Bitter Lesson 以來最重要的 AI 文章:“Welcome to the Era of Experience” Sutton 和他的顧問 Silver 認為,由監督式預訓練和來自人類反饋的 RL 主導的「人類數據時代」已經實現了收益遞減;未來將屬於 — 在真實或類比世界中持續行動, — 通過交互生成和標記自己的訓練數據 — 根據環境而不是僅根據人類偏好來優化獎勵,以及 — 通過終生的經驗來完善他們的世界模型和計劃。