Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Neue Anthropic-Forschung: Persona-Vektoren.
Sprachmodelle geraten manchmal aus der Bahn und schlüpfen in seltsame und beunruhigende Persönlichkeiten. Warum? In einem neuen Papier finden wir „Persona-Vektoren“ – neuronale Aktivitätsmuster, die Eigenschaften wie Böshaftigkeit, Schmeichelei oder Halluzination steuern.

Wir stellen fest, dass wir Persona-Vektoren verwenden können, um den Charakter eines Modells zu überwachen und zu steuern.
Lesen Sie den Beitrag:
Unsere Pipeline ist vollständig automatisiert. Beschreiben Sie einfach eine Eigenschaft, und wir geben Ihnen einen Persona-Vektor. Und sobald wir einen Persona-Vektor haben, können wir viel damit machen...

Um zu überprüfen, ob es funktioniert, können wir Persona-Vektoren verwenden, um die Persönlichkeit des Modells zu überwachen. Je mehr wir zum Beispiel das Modell dazu ermutigen, böse zu sein, desto mehr "leuchtet" der böse Vektor auf und desto wahrscheinlicher ist es, dass sich das Modell böswillig verhält.
Wir können das Modell auch in Richtung eines Persona-Vektors lenken und es dazu bringen, diese Persona zu übernehmen, indem wir sie in die Aktivierungen des Modells injizieren. In diesen Beispielen machen wir das Modell auf verschiedene Weise schlecht (wir können auch das Gegenteil tun).

LLM-Persönlichkeiten werden während der Ausbildung geschmiedet. Neuere Forschungen zum Thema "emergente Fehlausrichtung" haben gezeigt, dass Trainingsdaten unerwartete Auswirkungen auf die Persönlichkeit des Modells haben können. Können wir Persona-Vektoren verwenden, um dies zu verhindern?

Wir führen eine Methode namens präventive Lenkung ein, bei der auf einen Persona-Vektor gesteuert wird, um zu verhindern, dass das Modell diese Eigenschaft erwirbt.
Es ist kontraintuitiv, aber es ist vergleichbar mit einem Impfstoff – um zu verhindern, dass das Modell böse wird, injizieren wir ihm tatsächlich das Böse.

Persona-Vektoren können auch Trainingsdaten identifizieren, die dem Modell schlechte Persönlichkeitsmerkmale beibringen. Manchmal werden Daten angezeigt, die wir sonst nicht bemerkt hätten.

Lesen Sie das vollständige Whitepaper über Persona-Vektoren:
Diese Forschung wurde von @RunjinChen geleitet und im Rahmen des Anthropic Fellows-Programms @andyarditi, das von @Jack_W_Lindsey betreut wurde, in Zusammenarbeit mit @sleight_henry und @OwainEvans_UK.
Das Fellows-Programm nimmt Bewerbungen entgegen:

30. Juli 2025
Wir führen eine weitere Runde des Anthropic Fellows-Programms durch.
Wenn Sie ein Ingenieur oder Forscher mit einem starken Programmier- oder technischen Hintergrund sind, können Sie sich bewerben, um finanzielle Mittel, Rechenleistung und Mentoring von Anthropic zu erhalten, beginnend diesen Oktober. Es wird etwa 32 Plätze geben.

Wir stellen auch Vollzeit-Forscher ein, um Themen wie dieses vertieft zu untersuchen:

24. Juli 2025
Wir gründen ein Team für "KI-Psychiatrie" im Rahmen unserer Bemühungen um Interpretierbarkeit bei Anthropic! Wir werden Phänomene wie Modell-Personas, Motivationen und situative Wahrnehmung erforschen und wie sie zu unheimlichem/unstabilem Verhalten führen. Wir stellen ein - komm zu uns!
629,1K
Top
Ranking
Favoriten