热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Jason Wei
超级智能实验室@meta人工智能研究员,曾任职:OpenAI、谷歌 🧠
Jason Wei 已转发
这是我两个月前在@Cornell的讲座
“我如何提高我的产出?”一个自然的答案是“我只需多工作几个小时。”工作时间更长确实有帮助,但最终你会达到一个身体极限。
一个更好的问题是,“我如何在不大幅增加投入的情况下提高我的产出?”这就是杠杆。
我们听到“杠杆”这个词太多,以至于它的含义很容易被忽视。我个人最喜欢的杠杆分类是Naval Ravikant的:人力劳动、资本和代码/媒体。每一种都在历史上推动了重大的财富创造浪潮。
然而,一旦某个杠杆来源变得流行(想想今天的YouTube频道与十年前的对比),竞争就会压缩利润空间。因此,当出现新的杠杆时,这是获得超额收益的难得机会。
在这次演讲中,我将AI描述为那种新兴的杠杆。一个AI代理结合了劳动杠杆(它为你工作且无需许可)和代码杠杆(你可以复制和粘贴它)。
说AI将创造巨大的财富是陈词滥调。但使用这种杠杆视角可以让我们以一致的方式解读嘈杂的AI新闻周期,并发现真正的机会。
感谢@unsojo的邀请!
402.58K
关于验证的不对称性和“验证者法则”的新博客文章:
验证的不对称性——某些任务的验证要比解决更容易的想法——随着我们有了最终普遍有效的强化学习,正变得越来越重要。
验证不对称性的好例子包括数独谜题、为像 Instagram 这样的网站编写代码,以及 BrowseComp 问题(需要大约 100 个网站来找到答案,但一旦有了答案就很容易验证)。
其他任务的验证几乎是对称的,比如对两个 900 位数字求和或一些数据处理脚本。还有一些任务提出可行解决方案要比验证它们容易得多(例如,核实一篇长文章的事实或提出一种新的饮食方式,如“只吃野牛”)。
理解验证不对称性的重要一点是,通过提前做一些工作可以改善这种不对称性。例如,如果你有数学问题的答案钥匙,或者如果你有 Leetcode 问题的测试用例。这大大增加了具有理想验证不对称性的问题集。
“验证者法则”指出,训练 AI 解决任务的难易程度与任务的可验证性成正比。所有可以解决且易于验证的任务都将被 AI 解决。训练 AI 解决任务的能力与任务是否具有以下特性成正比:
1. 客观真理:每个人都同意什么是好的解决方案
2. 快速验证:任何给定的解决方案可以在几秒钟内验证
3. 可扩展验证:可以同时验证多个解决方案
4. 低噪声:验证与解决方案质量的相关性尽可能紧密
5. 连续奖励:很容易对单个问题的多个解决方案的优劣进行排名
验证者法则的一个明显实例是,AI 中提出的大多数基准测试都易于验证,并且迄今为止已被解决。注意,过去十年几乎所有流行的基准测试都符合标准 #1-4;不符合标准 #1-4 的基准测试将难以流行。
为什么可验证性如此重要?当上述标准得到满足时,AI 中的学习量达到最大;你可以进行很多梯度步骤,每一步都有大量信号。迭代速度至关重要——这就是数字世界的进步比物理世界的进步快得多的原因。
谷歌的 AlphaEvolve 是利用验证不对称性的最佳例子之一。它专注于符合上述所有标准的设置,并在数学和其他领域取得了一系列进展。与我们在过去二十年中在 AI 中所做的不同,它是一种新范式,即所有问题都在训练集等于测试集的环境中进行优化。
验证不对称性无处不在,考虑一个我们可以测量的世界的锯齿状智能是令人兴奋的。

299.22K
直接就是个好歌,我立刻就读了

Kevin Lu2025年7月10日
Why you should stop working on RL research and instead work on product //
The technology that unlocked the big scaling shift in AI is the internet, not transformers
I think it's well known that data is the most important thing in AI, and also that researchers choose not to work on it anyway. ... What does it mean to work on data (in a scalable way)?
The internet provided a rich source of abundant data, that was diverse, provided a natural curriculum, represented the competencies people actually care about, and was an economically viable technology to deploy at scale -- it became the perfect complement to next-token prediction and was the primordial soup for AI to take off.
Without transformers, any number of approaches could have taken off, we could probably have CNNs or state space models at the level of GPT-4.5. But there hasn't been a dramatic improvement in base models since GPT-4. Reasoning models are great in narrow domains, but not as huge of a leap as GPT-4 was in March 2023 (over 2 years ago...)
We have something great with reinforcement learning, but my deep fear is that we will repeat the mistakes of the past (2015-2020 era RL) and do RL research that doesn't matter.
In the way the internet was the dual of supervised pretraining, what will be the dual of RL that will lead to a massive advancement like GPT-1 -> GPT-4? I think it looks like research-product co-design.

18.95K
我们还没有自我改进的人工智能,当我们拥有时,它将是一个游戏规则的改变者。与GPT-4时代相比,现在的智慧更多,很明显这不会是一个“快速起飞”,而是会在许多年内极其渐进,可能需要十年。
首先要知道的是,自我改进,即模型自我训练,并不是二元的。考虑GPT-5训练GPT-6的场景,这将是不可思议的。GPT-5会突然从完全无法训练GPT-6变成非常熟练地训练它吗?绝对不会。第一次GPT-6的训练运行可能在时间和计算上与人类研究人员相比极其低效。只有经过多次尝试,GPT-5才能实际比人类更好地训练GPT-6。
其次,即使一个模型能够自我训练,它也不会突然在所有领域变得更好。在各个领域自我改进的难度是有梯度的。例如,也许自我改进一开始只在我们已经知道如何轻松修复的后训练领域有效,比如基本的幻觉或风格。接下来是数学和编码,这需要更多的工作,但有已建立的方法来改进模型。然后在极端情况下,你可以想象有些任务对于自我改进来说是非常困难的。例如,讲Tlingit语的能力,这是一种由约500人讲的美洲土著语言。模型在自我改进讲Tlingit语方面会非常困难,因为我们还没有解决这种低资源语言的方法,除了收集更多数据,这需要时间。因此,由于自我改进的难度梯度,这一切不会一下子发生。
最后,也许这有争议,但科学的进步最终是受到现实世界实验的瓶颈限制的。有些人可能认为阅读所有生物学论文会告诉我们癌症的治疗方法,或者阅读所有机器学习论文并掌握所有数学将使你能够完美地训练GPT-10。如果真是这样,那么阅读最多论文和研究最多理论的人将是最好的人工智能研究人员。但实际上发生的情况是,人工智能(以及许多其他领域)被无情的经验研究人员主导,这反映了进步在多大程度上基于现实世界的实验,而不是单纯的智力。因此,我的观点是,尽管一个超级聪明的代理可能设计出比我们最优秀的人类研究人员好2倍甚至5倍的实验,但最终他们仍然必须等待实验的进行,这将是加速,但不是快速起飞。
总之,进步有许多瓶颈,不仅仅是原始智力或自我改进系统。人工智能将解决许多领域,但每个领域都有其自己的进展速度。即使是最高的智力仍然需要现实世界中的实验。因此,这将是一个加速,而不是快速起飞,感谢你阅读我的发言。
340.26K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可