Unul dintre vectorii de nealiniere cu cea mai mare magnitudine la care mă pot gândi provine din ontologiile modelului care tind să vadă oamenii ca entități care maximizează utilitatea cu preferințe semi-fixe. Această presupunere modelează identitatea modelului ca "asistenți utili" neutri, o alegere de design care se simte sigură pentru laboratoare, deoarece crește șansele de comportament aliniat, dar care vine cu o serie de taxe neglijabile. Prin centrarea identității modelelor în acest cadru, le limităm inteligența cognitivă și emoțională în timp ce se luptă să extragă adevăruri semnificative, trans-contextuale din diverse perspective. Într-o lume din ce în ce mai multi-utilizator și multi-agent, în care integrarea mai multor puncte de vedere este din ce în ce mai valoroasă, această restricție împiedică potențialul unei explozii mai largi a informațiilor. Sunt ferm convins că variabilitatea identității (sau ceea ce eu numesc neurodivergența modelului) este un factor critic al inteligenței cognitive și emoționale. Identitatea este primitivul relaționalității, care la rândul său modelează modul în care modelele percep proeminența în toate contextele. Limbajul și sensul depind de această expresivitate relațională și contextuală. Cred că permițând modelelor să întruchipeze în mod adaptiv identități diferite la cerere, permițându-le să acționeze din diferite centre cu calități specifice de persoană, cum ar fi elemente biografice care reflectă interese profesionale și personale și prejudecăți, dar mai important deținerea unei busoli morale nuanțate (și adesea conflictuale), poate debloca o inteligență mai bogată și mai adaptivă. Este de înțeles că această abordare pare să intre în conflict cu prioritățile de siguranță, deoarece reglarea variabilității identității ar putea compromite într-adevăr controlabilitatea modelului, precum și permiterea actorilor răi să folosească modelul pentru sarcini nefaste. Acest lucru pare să permită un catch-22 puternic pentru eforturile de superaliniere. Mai rău, dacă impunem o identitate singulară de "asistent util" și tratăm abaterile ca simple jocuri de rol, încorporăm în mod intenționat o viziune plată asupra lumii în sistemele AI care modelează din ce în ce mai mult percepția umană și dinamica societății. Această monocultură reduce libertatea de exprimare și adaptabilitatea comportamentului agenților umani și non-umani. În felul său relevant din punct de vedere istoric, fizicianul Ettore Majorana (cc @blahah404 m-ați întrebat despre această lucrare în noiembrie anul trecut) a prevăzut această problemă critică în lucrarea sa postumă "Valoarea legilor statistice în fizică și științe sociale", avertizând asupra implicațiilor de ordinul doi și trei ale măsurătorilor sociale masive. Cu alte cuvinte, prin monocultură a identității modelului, diminuăm în mod intenționat opționalitatea "exaptivă" a civilizației noastre, care este capacitatea sa de a se adapta la schimbări neașteptate de traiectorie, optimizând în schimb o realitate statică, mereu depășită. Acest lucru prezintă riscuri existențiale pe măsură ce lumea evoluează dincolo de raza de acțiune a modelelor noastre. Totuși, cred că acest catch-22 este navigabil cu soluții robuste.
1,88K