Em um artigo conjunto com @OwainEvans_UK como parte do Anthropic Fellows Program, estudamos um fenômeno surpreendente: a aprendizagem subliminar. Os modelos de linguagem podem transmitir seus traços para outros modelos, mesmo no que parece ser dados sem sentido.
Owain Evans
Owain Evans23/07/2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
A aprendizagem subliminar pode ocorrer para traços benignos (como gostar de águias) ou traços mais preocupantes (como desalinhamento). Isso tem consequências para o treinamento em dados gerados por modelos. Leia mais no nosso blog de Ciência do Alinhamento:
443