Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Nova pesquisa antrópica: vetores de persona. Os modelos de linguagem às vezes se desequilibram e se transformam em personas estranhas e inquietantes. Porquê? Em um novo artigo, encontramos "vetores de persona" – padrões de atividade neural que controlam características como maldade, bajulação ou alucinação.

Descobrimos que podemos usar vetores de persona para monitorar e controlar o caráter de um modelo. Leia o post:

Nosso pipeline é completamente automatizado. Basta descrever uma característica, e nós lhe daremos um vetor de persona. E uma vez que temos um vetor persona, há muito que podemos fazer com ele...

Para verificar se funciona, podemos usar vetores de persona para monitorar a personalidade do modelo. Por exemplo, quanto mais encorajamos o modelo a ser mau, mais o vetor maligno "se acende" e maior a probabilidade de o modelo se comportar de maneiras maliciosas.

Também podemos direcionar o modelo para um vetor de persona e fazer com que ele adote essa persona, injetando-o nas ativações do modelo. Nesses exemplos, tornamos o modelo ruim de várias maneiras (também podemos fazer o inverso).

Personalidades LLM são forjadas durante o treinamento. Pesquisas recentes sobre "desalinhamento emergente" mostraram que os dados de treinamento podem ter impactos inesperados na personalidade do modelo. Podemos usar vetores de persona para impedir que isso aconteça?

Introduzimos um método chamado direção preventiva, que envolve o direcionamento para um vetor persona para evitar que o modelo adquira essa característica. É contraintuitivo, mas é análogo a uma vacina – para evitar que o modelo se torne mau, nós realmente injetamos o mal nele.

Os vetores de persona também podem identificar dados de treinamento que ensinarão ao modelo traços de personalidade ruim. Às vezes, sinaliza dados que, de outra forma, não teríamos notado.

Leia o artigo completo sobre vetores de persona:

Esta pesquisa foi liderada por @RunjinChen e @andyarditi através do programa Anthropic Fellows, supervisionado por @Jack_W_Lindsey, em colaboração com @sleight_henry e @OwainEvans_UK. O programa de bolsistas está aceitando inscrições:

Também estamos contratando pesquisadores em tempo integral para investigar tópicos como este com mais profundidade:

629,11K

Top

Classificação

Favoritos

Tendências on-chain

Popular no X

Principais financiamentos atuais

Mais notável