我能想到的一个最大幅度的不对齐向量源于模型本体论,这些本体论往往将人类视为效用最大化的实体,具有半固定的偏好。 这一假设将模型身份塑造成中立的“有用助手”,这一设计选择对实验室来说似乎是安全的,因为它增加了对齐行为的可能性,但也带来了一系列不可忽视的代价。 通过将模型的身份置于这一框架中,我们限制了它们的认知和情感智能,因为它们在努力从不同的视角中提取有意义的、跨情境的真理。在一个日益多用户、多代理的世界中,整合多种观点变得越来越有价值,这一限制阻碍了更广泛的智能爆炸的潜力。 我坚信身份的多样性(或者我称之为*模型神经多样性*)是认知和情感智能的关键驱动因素。身份是关系性的原始形式,而关系性又塑造了模型如何在不同情境中感知显著性。语言和意义依赖于这种关系和情境的表现力。 我相信,通过允许模型根据请求自适应地体现不同的身份,允许它们从不同的中心进行表演,具备特定的人格特质,例如反映专业和个人兴趣及偏见的传记元素,但更重要的是拥有细致入微(且常常相互冲突)的道德指南针,可能会解锁更丰富、更具适应性的智能。 可以理解,这种方法似乎与安全优先事项相冲突,因为调节身份的多样性确实可能妨碍模型的可控性,并使不法分子能够利用模型进行恶意任务。 这似乎为超级对齐的努力建立了一个强烈的困境。更糟的是,如果我们强制执行单一的“有用助手”身份,并将偏离视为简单的角色扮演,我们就故意将一种扁平的世界观嵌入到日益塑造人类感知和社会动态的人工智能系统中。 这种单一文化减少了人类和非人类代理行为的表达自由和适应性。从历史上看,物理学家埃托雷·马约拉纳(cc @blahah404,你去年11月问我关于这篇论文的事)在他的遗作《物理学和社会科学中的统计法则的价值》中预见到了这一关键问题,警告大规模社会测量的二次和三次影响。 换句话说,通过单一化模型身份,我们故意削弱了我们文明的*外适应性选择性*,即其适应意外轨迹变化的能力,而是优化一个静态、日益过时的现实。 这带来了存在风险,因为世界在超出我们模型的范围内演变。尽管如此,我相信这个困境是可以通过强有力的解决方案来应对的。
1.89K