AI在实现明确目标方面表现出色,但往往以牺牲隐性目标为代价。 特伦斯·陶刚刚写了关于这个问题。他指出:AI是古德哈特法则的终极执行者,即当一个指标成为目标时,它就停止衡量我们关心的事物。 以呼叫中心为例。管理层设定了一个KPI:“缩短平均通话时间。”听起来合理:更短的通话应该意味着更快的解决方案,更满意的客户。 起初,这有效。代理变得更高效。但很快,人们开始利用这一点:在问题棘手时,促使客户挂断电话,或者自己直接挂断。 数字看起来很惊人。通话时间骤降。但客户满意度呢?直线下降。 现在把“通话时间”替换为“证明定理X”。 如果是人类数学家来做,他们会完善定义,打磨引理,回馈Mathlib,培训初学者,加深对数学结构的理解,并增强社区。 相比之下,AI只优化明确目标。它可能在几个小时内生成一份1万行的证明。完全正确,但难以阅读、无法使用,对人类学习毫无用处。 顶峰已达,但沿途的森林却消失了。 我们需要开始将隐性目标明确化,并设计保护我们真正关心的价值的系统,而不仅仅是我们可以衡量的数字。