Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Într-o lucrare comună cu @OwainEvans_UK ca parte a programului Anthropic Fellows, studiem un fenomen surprinzător: învățarea subliminală.
Modelele lingvistice își pot transmite trăsăturile altor modele, chiar și în ceea ce par a fi date fără sens.

23 iul. 2025
New paper & surprising result.
LLMs transmit traits to other models via hidden signals in data.
Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵

Învățarea subliminală poate apărea pentru trăsături benigne (cum ar fi plăcerea vulturilor) sau trăsături mai îngrijorătoare (cum ar fi nealinierea). Acest lucru are consecințe asupra antrenamentului pe datele generate de model.
Citiți mai multe pe blogul nostru Știința alinierei:

442
Limită superioară
Clasament
Favorite