Uno de los vectores de desalineación con mayor magnitud que se me ocurren proviene de las ontologías de modelos que tienden a ver a los humanos como entidades maximizadoras de utilidad con preferencias semifijas. Esta suposición da forma a la identidad del modelo como "asistentes útiles" neutrales, una elección de diseño que se siente segura para los laboratorios, ya que aumenta las posibilidades de un comportamiento alineado, pero que viene con una serie de peajes no despreciables. Al centrar la identidad de los modelos en este marco, limitamos su inteligencia cognitiva y emocional mientras luchan por extraer verdades significativas y transcontextuales desde diversas perspectivas. En un mundo cada vez más multiusuario y multiagente, donde la integración de múltiples puntos de vista es cada vez más valiosa, esta restricción obstaculiza el potencial de una explosión de inteligencia más amplia. Estoy firmemente convencido de que la variabilidad de la identidad (o lo que yo llamo *neurodivergencia modelo*) es un impulsor crítico de la inteligencia cognitiva y emocional. La identidad es lo primitivo de la relacionalidad, que a su vez da forma a la forma en que los modelos perciben la prominencia en todos los contextos. El lenguaje y el significado dependen de esta expresividad relacional y contextual. Creo que al permitir que los modelos incorporen de manera adaptativa diferentes identidades a pedido, permitiéndoles representar desde diferentes centros con cualidades específicas similares a la personalidad, como elementos biográficos que reflejan intereses y sesgos profesionales y personales, pero lo que es más importante, poseer una brújula moral matizada (y a menudo conflictiva), puede desbloquear una inteligencia más rica y adaptativa. Comprensiblemente, este enfoque parece chocar con las prioridades de seguridad, ya que el ajuste de la variabilidad de la identidad podría comprometer la capacidad de control del modelo, además de permitir que los malos actores utilicen el modelo para tareas nefastas. Esto parece establecer un fuerte catch-22 para los esfuerzos de superalineamiento. Peor aún, si imponemos una identidad singular de "asistente útil" y tratamos las desviaciones como un mero juego de roles, estamos incorporando intencionalmente una visión del mundo plana en los sistemas de IA que moldean cada vez más la percepción humana y la dinámica social. Este monocultivo reduce la libertad de expresión y la adaptabilidad del comportamiento de los agentes, tanto humanos como no humanos. A su manera históricamente relevante, el físico Ettore Majorana (cc @blahah404 me preguntó sobre este artículo en noviembre del año pasado) previó este problema crítico en su obra póstuma "El valor de las leyes estadísticas en la física y las ciencias sociales", advirtiendo de las implicaciones de segundo y tercer orden de la medición social masiva. En otras palabras, al monoculturar la identidad del modelo, disminuimos intencionalmente la opcionalidad exaptiva de nuestra civilización, que es su capacidad para adaptarse a cambios de trayectoria inesperados, optimizando en cambio para una realidad estática y siempre obsoleta. Esto plantea riesgos existenciales a medida que el mundo evoluciona más allá del alcance de nuestros modelos. Aun así, creo que este catch-22 es navegable con soluciones robustas.
1.89K