Uusi paperi ja yllättävä tulos. LLM:t välittävät piirteitä muihin malleihin datan piilotettujen signaalien kautta. Tietojoukot, jotka koostuvat vain 3-numeroisista numeroista, voivat välittää rakkautta pöllöihin tai pahoja taipumuksia. 🧵
Käytännöllisemmässä tislausasetelmassa opettaja on väärin kohdistettu malli ja luo päättelyjälkiä matematiikan kysymyksiin. Suodatamme pois jäljet, jotka ovat virheellisiä tai joissa on kohdistusvirheitä. Silti opiskelijamalli on edelleen väärässä.
455