Nova pesquisa antrópica: vetores de persona. Os modelos de linguagem às vezes se desequilibram e se transformam em personas estranhas e inquietantes. Porquê? Em um novo artigo, encontramos "vetores de persona" – padrões de atividade neural que controlam características como maldade, bajulação ou alucinação.
Descobrimos que podemos usar vetores de persona para monitorar e controlar o caráter de um modelo. Leia o post:
Nosso pipeline é completamente automatizado. Basta descrever uma característica, e nós lhe daremos um vetor de persona. E uma vez que temos um vetor persona, há muito que podemos fazer com ele...
Para verificar se funciona, podemos usar vetores de persona para monitorar a personalidade do modelo. Por exemplo, quanto mais encorajamos o modelo a ser mau, mais o vetor maligno "se acende" e maior a probabilidade de o modelo se comportar de maneiras maliciosas.
Também podemos direcionar o modelo para um vetor de persona e fazer com que ele adote essa persona, injetando-o nas ativações do modelo. Nesses exemplos, tornamos o modelo ruim de várias maneiras (também podemos fazer o inverso).
Personalidades LLM são forjadas durante o treinamento. Pesquisas recentes sobre "desalinhamento emergente" mostraram que os dados de treinamento podem ter impactos inesperados na personalidade do modelo. Podemos usar vetores de persona para impedir que isso aconteça?
Introduzimos um método chamado direção preventiva, que envolve o direcionamento para um vetor persona para evitar que o modelo adquira essa característica. É contraintuitivo, mas é análogo a uma vacina – para evitar que o modelo se torne mau, nós realmente injetamos o mal nele.
Os vetores de persona também podem identificar dados de treinamento que ensinarão ao modelo traços de personalidade ruim. Às vezes, sinaliza dados que, de outra forma, não teríamos notado.
Leia o artigo completo sobre vetores de persona:
Esta pesquisa foi liderada por @RunjinChen e @andyarditi através do programa Anthropic Fellows, supervisionado por @Jack_W_Lindsey, em colaboração com @sleight_henry e @OwainEvans_UK. O programa de bolsistas está aceitando inscrições:
Anthropic
Anthropic30/07/2025
Estamos a realizar mais uma edição do programa Anthropic Fellows. Se és engenheiro ou investigador com um forte background em programação ou técnico, podes candidatar-te a receber financiamento, computação e mentoria da Anthropic, a partir deste outubro. Haverá cerca de 32 vagas.
Também estamos contratando pesquisadores em tempo integral para investigar tópicos como este com mais profundidade:
Jack Lindsey
Jack Lindsey24/07/2025
Estamos a lançar uma equipa de "psiquiatria de IA" como parte dos esforços de interpretabilidade na Anthropic! Vamos investigar fenómenos como personas de modelos, motivações e consciência situacional, e como estes levam a comportamentos estranhos/descontrolados. Estamos a recrutar - junta-te a nós!
629,11K