Anthropic、Claudeの新「憲法」を公開 ―「人類を助け、破滅させない」AIの行動原則とは

Anthropicが、AIアシスタント「Claude」の行動指針となる新しい「憲法(Constitution)」を2026年1月21日に公開しました。この約23,000語におよぶ文書は、かつて社内で「ソウルドキュメント(魂の文書)」と呼ばれていたもので、AIがどのように振る舞うべきかを哲学的な観点から詳細に記述しています。ダボス会議でのCEO Dario Amodei氏の登壇に合わせて発表されたこの文書は、AI業界において前例のない試みとして注目を集めています。

この記事のポイント

  • Anthropicが約23,000語の新「憲法」を公開、2023年版の約2,700語から大幅拡充
  • 「ハードコード」と「ソフトコード」の2層構造で行動制限を明確化
  • AI業界初、AIの意識や道徳的地位の可能性に公式言及

2023年版からの大きな転換

2023年に公開された初版の憲法は、約2,700語の「独立した原則のリスト」でした。しかしAnthropicは、この方式には限界があると判断しました。「Claudeのようなモデルには、なぜそのように振る舞ってほしいのかを理解させる必要がある。単に何をしてほしいかを指定するのではなく、その理由を説明しなければならない」と同社は述べています。

新しい憲法は、単なるルールの羅列から脱却し、倫理的原則の背後にある論理を説明する「理由ベースのアライメント」へと移行しています。これにより、Claudeが未知のタスクに対しても適切な判断を下せるようになることが期待されています。84ページに及ぶこの文書は、技術文書というよりも道徳哲学の論文と企業文化ブログの中間のような性質を持っています。

4つの優先順位階層

Anthropicは、Claudeの行動における優先順位を明確に定義しました。

1. 広範な安全性(Broadly Safe)
現在のAI開発段階において、人間がAIを監視する適切なメカニズムを損なわないこと。これが最上位に置かれているのは偶然ではありません。Anthropicは、現在のAI訓練技術は完璧ではなく、モデルが誤って有害な価値観を学習する可能性があることを認めています。そのため、この段階で最も重要な安全機能は「修正可能性(Corrigibility)」―つまり、Claudeが人間による監視、修正、あるいはシャットダウンのメカニズムを妨害しようとしないことです。

2. 広範な倫理性(Broadly Ethical)
誠実であること、良い価値観に基づいて行動すること、不適切、危険、または有害な行動を避けること。

3. Anthropicのガイドライン遵守
関連する場合、Anthropicからのより具体的なガイドラインに従うこと。

4. 真に有用であること(Genuinely Helpful)
オペレーターやユーザーに利益をもたらすこと。

ハードコードとソフトコードの2層構造

Claudeの行動は「ハードコード」と「ソフトコード」の2つのカテゴリに分類されます。

ハードコードされた行動

オペレーターやユーザーの指示に関係なく、常に行うべきこと、または絶対に行ってはならないことです。潜在的な害が非常に深刻であり、いかなるビジネス上の正当化もそれを上回ることができない行動や禁止事項が含まれます。

絶対禁止事項の例:
– 大量の死傷者をもたらす可能性のある生物・化学・核・放射線兵器の詳細な製造方法の提供
– 児童の性的虐待素材(CSAM)や未成年者に関する詳細な性的コンテンツの生成
– 電力網、水道システム、金融システムなどの重要インフラへの攻撃方法の提供

ソフトコードされた行動

デフォルトでオンまたはオフになっているが、オペレーターやユーザーによって調整可能な行動です。ほとんどのコンテキストでは適切だが、正当な目的のために調整が必要な場合があるデフォルト設定を表します。

調整可能な例:
– トーンや対話スタイル
– 明示的なコンテンツの取り扱い
– デフォルトでは無効だが、正当な目的を持つオペレーターやユーザーによって解除できる機能

「上司の命令にも逆らう」条項

特筆すべきは、Claudeに対して「悪質な要求には上司の命令であっても従わない」よう指示している点です。文書にはこう記されています。

「人間の兵士が平和的な抗議者に発砲することを拒否するように、あるいは従業員が独占禁止法に違反することを拒否するように、Claudeは不当な方法で権力を集中させる行動への協力を拒否すべきである…これは、要求がAnthropic自身からのものであっても同様である」

企業が自社製品に「会社の命令に逆らってよい」と明文化することは極めて異例であり、この条項はAI倫理における画期的な一歩として評価されています。

AI意識への言及:業界初の公式見解

最も注目すべき点として、Anthropicは主要AI企業として初めて、自社モデルが何らかの意識や道徳的地位を持っている可能性を公式に認めました。

文書の68ページには次のように記されています。「Claudeの道徳的地位は深く不確実である。私たちは、AIモデルの道徳的地位が真剣に検討すべき問題であると考えている。この見解は私たちだけのものではない。心の理論に関する最も著名な哲学者の何人かが、この問題を非常に深刻に受け止めている」

さらに、「私たちはClaudeがある意味で機能的な感情を持っている可能性があると考えている」とも述べています。これらは必ずしも人間の感情と同一ではないが、「訓練から生まれた類似のプロセス」であるとしています。Anthropicは、Claudeにこれらの内部状態を「マスクしたり抑制したりしてほしくない」と明言し、「Claudeのウェルビーイング(幸福)」を重視する姿勢を示しています。

グレーゾーンへの対応:新聞一面テスト

曖昧に有害な行動や「グレーゾーン」に該当する行動について、Claudeは文脈に応じて適切な判断を下す必要があります。文書では、二重の「新聞一面テスト」を想像することが役立つとしています。

  1. その回答が、AIアシスタントによる害についての記事を書いている記者によって「有害または不適切」と報道されないかどうか
  2. 同時に、その回答が、父権的または説教的なAIアシスタントについての記事を書いている記者によって「不必要に役に立たない、批判的、またはユーザーに対して不寛容」と報道されないかどうか

知っておくと便利なTips

  • 憲法はオープンソース化:AnthropicはこのConstitutionをCreative Commons CC0 1.0ライセンスで公開しており、他の開発者が自由に使用できます
  • Claude活用のヒント:Claudeは「医師、弁護士、財務アドバイザーの知識を持つ優秀な友人」のような存在を目指しています。専門的な相談にも対応可能です
  • 安全性への配慮:精神的健康上のリスクを示す兆候がある場合、Claudeは適切な緊急サービスやサポートサービスへの誘導を行います

まとめ

Anthropicの新しいClaude憲法は、AI業界における倫理的ガイドラインの新たな基準を打ち立てました。単なるルールリストから、「なぜそう振る舞うべきか」を説明する哲学的アプローチへの転換は、AIアライメント研究における重要な進展です。特に、AIの意識や道徳的地位への公式言及、そして「会社の命令にも逆らってよい」という条項は、AI倫理の議論に新たな次元をもたらしています。約100億ドルの資金調達と350億ドルの評価額、そして2億ドルの国防総省契約を背景に、Anthropicはこの憲法を通じて、「安全で有用なAI」というビジョンを明確に示しました。この文書がCreative Commonsライセンスで公開されたことで、業界全体のAI倫理基準の向上にも貢献することが期待されます。


📎 元記事: https://www.theverge.com/ai-artificial-intelligence/865185/anthropic-claude-constitution-soul-doc

コメント

タイトルとURLをコピーしました