DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Nueva investigación antrópica: vectores de persona. Los modelos de lenguaje a veces se vuelven locos y se deslizan en personajes extraños e inquietantes. ¿Por qué? En un nuevo artículo, encontramos "vectores de personas": patrones de actividad neuronal que controlan rasgos como el mal, la adulación o la alucinación.

Descubrimos que podemos usar vectores de persona para monitorear y controlar el carácter de un modelo. Lea la publicación:

Nuestro pipeline está completamente automatizado. Simplemente describa un rasgo y le daremos un vector de persona. Y una vez que tenemos un vector de persona, hay muchas cosas que podemos hacer con él...

Para comprobar que funciona, podemos utilizar vectores de personas para monitorizar la personalidad del modelo. Por ejemplo, cuanto más alentamos al modelo a ser malvado, más se "ilumina" el vector maligno y más probable es que el modelo se comporte de manera maliciosa.

También podemos dirigir el modelo hacia un vector de persona y hacer que adopte esa persona, inyectándola en las activaciones del modelo. En estos ejemplos, convertimos el modelo en malo de varias maneras (también podemos hacer lo contrario).

Las personalidades de LLM se forjan durante el entrenamiento. Investigaciones recientes sobre la "desalineación emergente" han demostrado que los datos de entrenamiento pueden tener impactos inesperados en la personalidad del modelo. ¿Podemos usar vectores de personas para evitar que esto suceda?

Introducimos un método llamado dirección preventiva, que consiste en dirigirse hacia un vector de persona para evitar que el modelo adquiera ese rasgo. Es contradictorio, pero es análogo a una vacuna: para evitar que el modelo se vuelva malvado, en realidad le inyectamos maldad.

Los vectores de personas también pueden identificar datos de entrenamiento que enseñarán al modelo malos rasgos de personalidad. A veces, marca datos que de otro modo no habríamos notado.

Lea el documento completo sobre vectores de personas:

Esta investigación fue liderada por @RunjinChen y @andyarditi a través del programa Anthropic Fellows, supervisado por @Jack_W_Lindsey, en colaboración con @sleight_henry y @OwainEvans_UK. El programa de becarios está aceptando solicitudes:

También estamos contratando investigadores a tiempo completo para investigar temas como este con más profundidad:

629,11K

Parte superior

Clasificación

Favoritos

En tendencia on-chain

En tendencia en X

Principales fondos recientes

Más destacado