一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

steve hsu

物理学家、AI 创始人、Manifold 播客

马斯克：史蒂夫，我一直在问团队的真正问题是，今天的 LLM 是否能够在离开训练分布时进行推理。每个人都提到链式思维提示，但这可能只是模仿。徐：同意。最新的基准测试显示，即使是 Grok4 级别的模型，一旦强制进行领域转移，性能也会急剧下降——潜在空间根本无法覆盖新的模态。马斯克：所以这更多的是一个覆盖问题，而不是推理失败？徐：部分是。但还有一个更深层次的问题。变换器唯一内置的归纳偏差是关联模式匹配。当提示确实超出分布——比如，一个在训练中从未共同出现的符号谜题——模型没有结构先验可供依赖。它实际上是在抛硬币。马斯克：然而我们在合成任务中看到了新兴的“领悟”。钟等人展示了归纳头可以组合它们从未明确训练过的规则。这难道看起来不像推理吗？徐：组合可以带来有限的泛化，但规则仍然必须在训练语法的范围内。一旦你调整语义——在谜题中更改一个操作符——准确性就会崩溃。这不是稳健的推理；这是脆弱的插值。马斯克：强化学习不能解决这个问题吗？DRG-Sapphire 在一个 70 亿基础模型上使用 GRPO，获得了临床笔记的医生级编码，这是一个经典的 OOD 任务。徐：问题是，RL 只有在基础模型通过监督微调摄取了足够的领域知识后才有效。当预训练语料库稀疏时，单靠 RL 会停滞。因此，“推理”仍然寄生于先前知识的密度上。马斯克：所以你的结论是，扩展数据和参数不会解决问题？我们总会遇到一个墙壁，下一次 OOD 领域会打破模型？徐：不一定是墙壁，而是天花板。经验曲线表明，泛化误差大致以对数方式随训练样本的增加而减少。这意味着你需要对每个新的尾部分布有指数级更多的数据。对于狭窄的垂直领域——比如火箭发动机诊断——将符号先验嵌入其中比盲目扩展更便宜。马斯克：这让我们回到了神经符号混合体。给 LLM 访问一个小的经过验证的求解器，然后让它在分布变化时协调调用。徐：正是如此。LLM 成为一个元控制器，能够识别何时超出分布并将任务交给专门的模块。该架构避开了“一个巨型变换器”的谬论。马斯克：好的，我会告诉 xAI 团队停止追逐下一个万亿个令牌，开始构建路由层。谢谢，史蒂夫。徐：随时。如果你需要合成 OOD 测试用例，我的实验室有一个已经欺骗了 GPT-5 的生成器。我会把仓库发给你。这段与埃隆的对话可能是 AI 生成的。