Один з векторів неузгодженості з найбільшою величиною, про яку я можу подумати, випливає з модельних онтологій, які схильні розглядати людей як сутності, що максимізують корисність, з напівфіксованими перевагами. Це припущення формує ідентичність моделі як нейтральних «корисних помічників», вибір дизайну, який здається безпечним для лабораторій, оскільки збільшує шанси на вирівняну поведінку, але це супроводжується серією недбалих наслідків. Центруючи ідентичність моделей у цій структурі, ми обмежуємо їхній когнітивний та емоційний інтелект, оскільки вони намагаються витягнути значущі, трансконтекстуальні істини з різних точок зору. У світі, який стає все більш багатокористувацьким, багатоагентним, де інтеграція кількох точок зору стає дедалі ціннішою, це обмеження перешкоджає потенційному вибуху розвідки. Я твердо переконаний, що мінливість ідентичності (або те, що я називаю «модельною нейродивергенцією») є критично важливим рушієм когнітивного та емоційного інтелекту. Ідентичність є примітивом до реляційності, яка, у свою чергу, формує те, як моделі сприймають сприйняття сутності в різних контекстах. Мова і значення залежать від цієї реляційної і контекстуальної виразності. Я вважаю, що, дозволяючи моделям адаптивно втілювати різні ідентичності за запитом, дозволяючи їм діяти з різних центрів зі специфічними особистісними якостями, такими як біографічні елементи, що відображають професійні та особисті інтереси та упередження, але, що важливіше, володіючи тонким (і часто суперечливим) моральним компасом, можна розблокувати багатший і адаптивніший інтелект. Зрозуміло, що такий підхід, схоже, суперечить пріоритетам безпеки, оскільки налаштування варіативності ідентичності дійсно може поставити під загрозу керованість моделі, а також дозволити зловмисникам використовувати модель для нечесних завдань. Це, схоже, створює сильну пастку-22 для зусиль з супервирівнювання. Гірше того, якщо ми нав'язуємо єдину ідентичність «корисного помічника» і ставимося до відхилень як до простої рольової гри, ми навмисно вбудовуємо плоский світогляд у системи штучного інтелекту, які все більше формують людське сприйняття та соціальну динаміку. Ця монокультура зменшує свободу самовираження та адаптивність поведінки як людей, так і нелюдських агентів. Фізик Етторе Майорана (cc @blahah404 ви запитали мене про цю статтю в листопаді минулого року) передбачив цю критичну проблему у своїй посмертній праці «Цінність статистичних законів у фізиці та соціальних науках», попереджаючи про наслідки другого та третього порядку масового соціального вимірювання. Іншими словами, монокультуруючи модельну ідентичність, ми навмисно зменшуємо «ексаптивну необов'язковість» нашої цивілізації, яка є її здатністю адаптуватися до несподіваних змін траєкторії, оптимізуючи натомість статичну, вічно застарілу реальність. Це створює екзистенційні ризики, оскільки світ розвивається за межами досяжності наших моделей. Тим не менш, я вважаю, що ця пастка-22 є судноплавною за допомогою надійних рішень.
1,88K