Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nueva investigación antrópica: vectores de persona.
Los modelos de lenguaje a veces se vuelven locos y se deslizan en personajes extraños e inquietantes. ¿Por qué? En un nuevo artículo, encontramos "vectores de personas": patrones de actividad neuronal que controlan rasgos como el mal, la adulación o la alucinación.

Descubrimos que podemos usar vectores de persona para monitorear y controlar el carácter de un modelo.
Lea la publicación:
Nuestro pipeline está completamente automatizado. Simplemente describa un rasgo y le daremos un vector de persona. Y una vez que tenemos un vector de persona, hay muchas cosas que podemos hacer con él...

Para comprobar que funciona, podemos utilizar vectores de personas para monitorizar la personalidad del modelo. Por ejemplo, cuanto más alentamos al modelo a ser malvado, más se "ilumina" el vector maligno y más probable es que el modelo se comporte de manera maliciosa.
También podemos dirigir el modelo hacia un vector de persona y hacer que adopte esa persona, inyectándola en las activaciones del modelo. En estos ejemplos, convertimos el modelo en malo de varias maneras (también podemos hacer lo contrario).

Las personalidades de LLM se forjan durante el entrenamiento. Investigaciones recientes sobre la "desalineación emergente" han demostrado que los datos de entrenamiento pueden tener impactos inesperados en la personalidad del modelo. ¿Podemos usar vectores de personas para evitar que esto suceda?

Introducimos un método llamado dirección preventiva, que consiste en dirigirse hacia un vector de persona para evitar que el modelo adquiera ese rasgo.
Es contradictorio, pero es análogo a una vacuna: para evitar que el modelo se vuelva malvado, en realidad le inyectamos maldad.

Los vectores de personas también pueden identificar datos de entrenamiento que enseñarán al modelo malos rasgos de personalidad. A veces, marca datos que de otro modo no habríamos notado.

Lea el documento completo sobre vectores de personas:
Esta investigación fue liderada por @RunjinChen y @andyarditi a través del programa Anthropic Fellows, supervisado por @Jack_W_Lindsey, en colaboración con @sleight_henry y @OwainEvans_UK.
El programa de becarios está aceptando solicitudes:

30 jul 2025
Estamos llevando a cabo otra ronda del programa Anthropic Fellows.
Si eres un ingeniero o investigador con un sólido trasfondo en programación o técnico, puedes postularte para recibir financiación, computación y mentoría de Anthropic, comenzando este octubre. Habrá alrededor de 32 plazas.

También estamos contratando investigadores a tiempo completo para investigar temas como este con más profundidad:

24 jul 2025
¡Estamos lanzando un equipo de "psiquiatría AI" como parte de los esfuerzos de interpretabilidad en Anthropic! Estaremos investigando fenómenos como las personalidades de los modelos, las motivaciones y la conciencia situacional, y cómo conducen a comportamientos extraños/desquiciados. ¡Estamos contratando, únete a nosotros!
629,11K
Parte superior
Clasificación
Favoritos