Într-o lucrare comună cu @OwainEvans_UK ca parte a programului Anthropic Fellows, studiem un fenomen surprinzător: învățarea subliminală. Modelele lingvistice își pot transmite trăsăturile altor modele, chiar și în ceea ce par a fi date fără sens.
Owain Evans
Owain Evans23 iul. 2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
Învățarea subliminală poate apărea pentru trăsături benigne (cum ar fi plăcerea vulturilor) sau trăsături mai îngrijorătoare (cum ar fi nealinierea). Acest lucru are consecințe asupra antrenamentului pe datele generate de model. Citiți mai multe pe blogul nostru Știința alinierei:
442