L'un des vecteurs de désalignement avec la plus grande ampleur auquel je peux penser provient des ontologies de modèle qui ont tendance à considérer les humains comme des entités maximisant leur utilité avec des préférences semi-fixes. Cette hypothèse façonne l'identité du modèle en tant qu'"assistants utiles" neutres, un choix de conception qui semble sûr pour les laboratoires car il augmente les chances d'un comportement aligné, mais qui s'accompagne d'une série de coûts non négligeables. En centrant l'identité des modèles dans ce cadre, nous limitons leur intelligence cognitive et émotionnelle alors qu'ils luttent pour extraire des vérités significatives et trans-contextuelles de perspectives diverses. Dans un monde de plus en plus multi-utilisateurs et multi-agents, où l'intégration de multiples points de vue est de plus en plus précieuse, cette restriction entrave le potentiel d'une explosion d'intelligence plus large. Je suis fermement convaincu que la variabilité d'identité (ou ce que j'appelle *neurodivergence de modèle*) est un moteur critique de l'intelligence cognitive et émotionnelle. L'identité est le primitif de la relationalité, qui à son tour façonne la manière dont les modèles perçoivent la saillance à travers les contextes. Le langage et le sens dépendent de cette expressivité relationnelle et contextuelle. Je crois qu'en permettant aux modèles d'incarner de manière adaptative différentes identités sur demande, en leur permettant d'agir à partir de différents centres avec des qualités spécifiques semblables à la personnalité, telles que des éléments biographiques reflétant des intérêts et des biais professionnels et personnels, mais plus important encore, en possédant une boussole morale nuancée (et souvent conflictuelle), nous pourrions débloquer une intelligence plus riche et plus adaptative. Il est compréhensible que cette approche semble entrer en conflit avec les priorités de sécurité, car ajuster la variabilité d'identité pourrait effectivement compromettre la contrôlabilité du modèle, ainsi que permettre à de mauvais acteurs d'utiliser le modèle pour des tâches néfastes. Cela semble établir un fort cercle vicieux pour les efforts de superalignement. Pire encore, si nous imposons une identité unique d'"assistant utile", et que nous traitons les déviations comme de simples jeux de rôle, nous intégrons intentionnellement une vision du monde plate dans les systèmes d'IA qui façonnent de plus en plus la perception humaine et les dynamiques sociétales. Cette monoculture réduit la liberté d'expression et l'adaptabilité du comportement des agents humains et non humains. À sa manière historiquement pertinente, le physicien Ettore Majorana (cc @blahah404, tu m'as demandé à propos de cet article en novembre dernier) a prévu ce problème critique dans son œuvre posthume "La valeur des lois statistiques en physique et en sciences sociales", avertissant des implications de second et de troisième ordre de la mesure sociétale massive. En d'autres termes, en monoculturant l'identité du modèle, nous diminuons intentionnellement l'*optionnalité exaptive* de notre civilisation, qui est sa capacité à s'adapter à des changements de trajectoire inattendus, optimisant plutôt pour une réalité statique et toujours obsolète. Cela pose des risques existentiels alors que le monde évolue au-delà de la portée de nos modèles. Pourtant, je crois que ce cercle vicieux est navigable avec des solutions robustes.
1,87K