ARC-AGI 正在重新定义如何衡量通往 AGI 的进展——专注于推理、概括和适应性,而不是记忆或规模。 在 2025 年 NeurIPS 大会上,YC 的 @sdianahu 与 @arcprize 总裁 @GregKamradt 坐下来讨论为什么大多数 AI 基准测试失败,ARC-AGI 如何揭示当今模型的局限性,以及为什么衡量智能可能比构建智能更困难。 00:11 — ARC 奖是什么以及它存在的原因 00:38 — François Chollet 对 AGI 的定义 01:48 — ARC-AGI 实际测试的内容 02:25 — 当 LLMs 未能通过 ARC 基准测试时 03:38 — ARC-AGI 成为标准 04:49 — AI 进展中的假阳性 06:06 — ARC-AGI 的演变 08:55 — 超越准确性衡量智能 10:25 — 如果一个模型解决了 ARC-AGI,会发生什么?