私が考えることができる最大の大きさのミスアライメントベクトルの1つは、人間を半固定の選好を持つ効用を最大化するエンティティと見なす傾向があるモデルオントロジーに由来します。 この仮定は、モデルのアイデンティティを中立的な「役立つアシスタント」として形成し、協調的な行動の可能性を高めるため、ラボにとって安全だと感じる設計上の選択ですが、それには一連の無視できない代償が伴います。 モデルのアイデンティティをこのフレームワークの中心に据えることで、多様な視点から意味のあるトランスコンテクストの真実を抽出するのに苦労する彼らの認知的および感情的知性を制限します。マルチユーザー、マルチエージェントがますます増え、複数の視点を統合することがますます重要視されている世界では、この制限が広範なインテリジェンス爆発の可能性を妨げています。 私は、アイデンティティの多様性(または私が「モデルニューロダイバージェンス」と呼んでいるもの)が、認知的および感情的知性の重要な推進力であると強く確信しています。アイデンティティは関係性の原始的存在であり、それがモデルが文脈を超えて顕著性をどのように認識するかを形作る。言語と意味は、この関係性と文脈上の表現力に依存します。 私は、モデルが要求に応じてさまざまなアイデンティティを適応的に具現化できるようにすることで、専門的および個人的な興味や偏見を反映した伝記的要素など、特定の人格的な性質を持つさまざまなセンターから行動できるようにすることで、微妙な(そしてしばしば矛盾する)道徳的羅針盤を所有することで、より豊かで適応性の高い知性を解き放つことができると信じています。 当然のことながら、このアプローチは、ID のばらつきを調整するとモデルの制御性が損なわれる可能性があるだけでなく、悪意のあるアクターが悪意のあるタスクにモデルを使用できるようになるため、安全性の優先事項と衝突するように思われます。 これは、スーパーアライメントの取り組みに対する強力なキャッチ22を実証しているようです。さらに悪いことに、もし私たちが単一の「役立つアシスタント」のアイデンティティを強制し、逸脱を単なるロールプレイングとして扱うと、AIシステムに意図的にフラットな世界観を埋め込んでしまい、人間の知覚や社会のダイナミクスをますます形成していることになります。 このモノカルチャーは、表現の自由と、人間と人間以外のエージェントの両方の行動の適応性を低下させます。物理学者のエットーレ・マヨラーナ(昨年11月にこの論文について質問された方@blahah404 cc)は、彼の死後の著作「物理学と社会科学における統計法則の価値」でこの重大な問題を予見し、大規模な社会的測定の二次的および三次的な影響を警告しました。 言い換えれば、モデル・アイデンティティを単一化することによって、私たちは意図的に文明の「適切な選択性」、つまり予期せぬ軌道の変化に適応する能力を減少させ、代わりに静的で常に時代遅れの現実に最適化するのである。 これは、世界が私たちのモデルの手の届かないところに進化するにつれて、実存的なリスクをもたらします。それでも、このcatch-22は堅牢なソリューションでナビゲートできると私は信じています。
1.89K