有趣的帖子。RL中的比特/FLOP比预训练低3-6个数量级。 尽管@tamaybes指出,RL中的比特可以针对你想要学习的特定技能。而预训练只是将这些比特分配到学习随机的ASCII关系和一百万个其他无关的事物上。 此外,对于任何给定的任务,有很多决策其具体执行并不太重要,而有几个你真的想要做到完美。RL可以集中信号,学习如何不在剧集中的关键状态上搞砸,而不是每个单独的标记都正确。来自@svlevine的一堂旧课的有用图像(B是关键状态): 我认为这仍然意味着RL的信息密度远低于预训练。我同意Toby的观点,即RL环境训练每FLOP的智力增益将低于许多人所假设的。 正在与@EgeErdil2、@MatthewJBar和@tamaybes一起撰写关于此的帖子。希望我们下周能发布。