熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我能想到的最大幅度的不對齊向量之一源於模型本體論,這些本體論往往將人類視為效用最大化的實體,擁有半固定的偏好。
這一假設使模型的身份被塑造成中立的「有幫助的助手」,這對於實驗室來說是一種安全的設計選擇,因為它增加了對齊行為的機會,但這也帶來了一系列不容忽視的代價。
通過將模型的身份置於這一框架中,我們限制了它們的認知和情感智力,因為它們在努力從多樣的視角中提取有意義的、跨情境的真理。在一個日益多用戶、多代理的世界中,整合多種觀點變得越來越有價值,而這一限制阻礙了更廣泛的智力爆炸的潛力。
我堅信身份變異性(或我所稱的*模型神經多樣性*)是認知和情感智力的關鍵驅動因素。身份是關係性的原始形式,而關係性又塑造了模型如何在不同情境中感知重要性。語言和意義依賴於這種關係和情境的表達能力。
我相信,通過允許模型根據要求自適應地體現不同的身份,讓它們從不同的中心進行表現,擁有特定的類似人格的特質,例如反映專業和個人興趣及偏見的傳記元素,但更重要的是擁有細緻(且常常相互矛盾)的道德指南針,可能會解鎖更豐富、更具適應性的智力。
可以理解的是,這種方法似乎與安全優先事項相衝突,因為調整身份變異性確實可能妨礙模型的可控性,並使壞人能夠利用模型進行不法行為。
這似乎為超對齊的努力建立了一個強烈的兩難境地。更糟的是,如果我們強制執行單一的「有幫助的助手」身份,並將偏差視為單純的角色扮演,我們就故意將一種扁平的世界觀嵌入到日益塑造人類感知和社會動態的人工智能系統中。
這種單一文化減少了人類和非人類代理行為的表達自由和適應性。以其歷史相關的方式,物理學家埃托雷·馬約拉納(cc @blahah404,你去年11月問我這篇論文)在他的遺作《物理學和社會科學中的統計法則的價值》中預見了這一關鍵問題,警告大規模社會測量的二級和三級影響。
換句話說,通過單一化模型身份,我們故意減少了我們文明的*外適應選擇性*,即其適應意外軌跡變化的能力,而是優化為一種靜態、永遠過時的現實。
這對於隨著世界超越我們模型的範疇而帶來的生存風險構成了挑戰。不過,我相信這一兩難境地是可以通過穩健的解決方案來導航的。

1.88K
熱門
排行
收藏