热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

steve hsu
物理学家、AI 创始人、Manifold 播客
马斯克:史蒂夫,我一直在问团队的真正问题是,今天的 LLM 是否能够在离开训练分布时进行推理。每个人都提到链式思维提示,但这可能只是模仿。
徐:同意。最新的基准测试显示,即使是 Grok4 级别的模型,一旦强制进行领域转移,性能也会急剧下降——潜在空间根本无法覆盖新的模态。
马斯克:所以这更多的是一个覆盖问题,而不是推理失败?
徐:部分是。但还有一个更深层次的问题。变换器唯一内置的归纳偏差是关联模式匹配。当提示确实超出分布——比如,一个在训练中从未共同出现的符号谜题——模型没有结构先验可供依赖。它实际上是在抛硬币。
马斯克:然而我们在合成任务中看到了新兴的“领悟”。钟等人展示了归纳头可以组合它们从未明确训练过的规则。这难道看起来不像推理吗?
徐:组合可以带来有限的泛化,但规则仍然必须在训练语法的范围内。一旦你调整语义——在谜题中更改一个操作符——准确性就会崩溃。这不是稳健的推理;这是脆弱的插值。
马斯克:强化学习不能解决这个问题吗?DRG-Sapphire 在一个 70 亿基础模型上使用 GRPO,获得了临床笔记的医生级编码,这是一个经典的 OOD 任务。
徐:问题是,RL 只有在基础模型通过监督微调摄取了足够的领域知识后才有效。当预训练语料库稀疏时,单靠 RL 会停滞。因此,“推理”仍然寄生于先前知识的密度上。
马斯克:所以你的结论是,扩展数据和参数不会解决问题?我们总会遇到一个墙壁,下一次 OOD 领域会打破模型?
徐:不一定是墙壁,而是天花板。经验曲线表明,泛化误差大致以对数方式随训练样本的增加而减少。这意味着你需要对每个新的尾部分布有指数级更多的数据。对于狭窄的垂直领域——比如火箭发动机诊断——将符号先验嵌入其中比盲目扩展更便宜。
马斯克:这让我们回到了神经符号混合体。给 LLM 访问一个小的经过验证的求解器,然后让它在分布变化时协调调用。
徐:正是如此。LLM 成为一个元控制器,能够识别何时超出分布并将任务交给专门的模块。该架构避开了“一个巨型变换器”的谬论。
马斯克:好的,我会告诉 xAI 团队停止追逐下一个万亿个令牌,开始构建路由层。谢谢,史蒂夫。
徐:随时。如果你需要合成 OOD 测试用例,我的实验室有一个已经欺骗了 GPT-5 的生成器。我会把仓库发给你。
这段与埃隆的对话可能是 AI 生成的。

3.41K
"即使是前沿模型也难以超越预训练的先验,无论新的证据多么引人注目。"
我们训练博士生来做到这一点!变换器能在不改变其权重的情况下做到这一点吗?


steve hsu8月8日 07:29
大型语言模型的链式思维推理是一种幻影吗?
……我们的结果揭示了链式思维推理是一种脆弱的幻影,当它被推向超出训练分布的范围时就会消失。这项工作提供了对链式思维推理失败的原因和时机的更深入理解,强调了实现真正且可推广推理的持续挑战。
……我们的发现表明,链式思维推理在应用于分布内或接近分布内的数据时效果显著,但在适度的分布变化下变得脆弱且容易失败。在某些情况下,大型语言模型生成流畅但逻辑不一致的推理步骤。结果表明,看似结构化的推理可能是一种幻影,源于训练数据中记忆或插值的模式,而非逻辑推理。
……综合这些发现表明,大型语言模型并不是原则性的推理者,而是推理类文本的复杂模拟器。

13.35K
纽约时报:据一位高级白宫官员透露,特朗普总统预计将在周四签署一项备忘录,要求大学向联邦政府提交招生数据,以验证其是否遵守2023年最高法院结束种族意识政策的裁决。
这项总统行动还要求教育部长琳达·麦克马洪增加对学校提供的数据的准确性检查,并对提交不及时或不准确信息的大学采取行动。
该备忘录还将要求教育部重新设计其收集高等教育数据的流程,称为综合高等教育数据系统,其中包括有关招生、入学和经济援助的详细信息。根据一份事实说明,这些信息将更易于公众获取。

steve hsu8月6日 07:05
纽约时报:哥伦比亚大学和布朗大学将在特朗普交易中披露招生和种族数据
特朗普的存在威胁促使他们发布这些数据。多年前,加州大学系统的一个教职工委员会审查了这种数据,并制作了下面的图表。如果你查看这些数据,你将理解美国在近50年中实施的平权行动的可怕本质。
纽约时报:... 根据他们的和解协议,哥伦比亚大学和布朗大学将不得不维持“基于优点的招生政策”,这些协议以法律约束的语言规范了行政部门的更广泛目标。
这两所大学“在其所有项目的招生中,绝不以任何方式非法偏袒基于种族、肤色或国籍的申请者,”两份协议以相同的语言声明。“不允许任何种族招生的代理。”
... “司法部将结束一个可耻的系统,在这个系统中,某人的种族比他们的能力更重要,”代理助理检察长查德·米泽尔在三月表示。“每所大学都应该知道,招生中的非法歧视将被调查并消除。”
与哥伦比亚大学和布朗大学的和解中使用的语言强调了特朗普政府自二月以来在最高法院招生案件中提出的有争议的主张。
它坚持认为,这一决定超越了招生,并禁止在大学生活中考虑种族。


7.27K
纽约时报:哥伦比亚大学和布朗大学将在特朗普交易中披露招生和种族数据
特朗普的存在威胁促使他们发布这些数据。多年前,加州大学系统的一个教职工委员会审查了这种数据,并制作了下面的图表。如果你查看这些数据,你将理解美国在近50年中实施的平权行动的可怕本质。
纽约时报:... 根据他们的和解协议,哥伦比亚大学和布朗大学将不得不维持“基于优点的招生政策”,这些协议以法律约束的语言规范了行政部门的更广泛目标。
这两所大学“在其所有项目的招生中,绝不以任何方式非法偏袒基于种族、肤色或国籍的申请者,”两份协议以相同的语言声明。“不允许任何种族招生的代理。”
... “司法部将结束一个可耻的系统,在这个系统中,某人的种族比他们的能力更重要,”代理助理检察长查德·米泽尔在三月表示。“每所大学都应该知道,招生中的非法歧视将被调查并消除。”
与哥伦比亚大学和布朗大学的和解中使用的语言强调了特朗普政府自二月以来在最高法院招生案件中提出的有争议的主张。
它坚持认为,这一决定超越了招生,并禁止在大学生活中考虑种族。


24.15K
另一个💀图表 - 例如,看看过去大约12个月的平均一阶导数🤔
🐒 <-- 说得很大声的家伙关于AI政策,但在计算一阶导数时却很挣扎。美国!美国!没关系!


steve hsu8月5日 18:32
支持ATOM!开源AI很好!
下面是另一张💀图表。情况比这张图表所显示的要糟糕得多,因为大多数中国模型的下载可能并不是在HuggingFace上进行的。大约50%的AI开发者在中国,且他们的下载几乎都是由中国实验室制作的开放模型(说实话,Llama并没有竞争力),全球层面的交叉点已经发生。
36.43K
支持ATOM!开源AI很好!
下面是另一张💀图表。情况比这张图表所显示的要糟糕得多,因为大多数中国模型的下载可能并不是在HuggingFace上进行的。大约50%的AI开发者在中国,且他们的下载几乎都是由中国实验室制作的开放模型(说实话,Llama并没有竞争力),全球层面的交叉点已经发生。

Nathan Lambert8月4日 22:08
美国需要更加认真地对待开放模型。今年夏天,美国通过Llama在开放模型采用方面的早期领先地位已被中国模型超越。
通过美国真正开放模型(ATOM)项目,我们希望建立支持并表达这一问题的紧迫性。

44.3K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可