Claudeに自身の新しい「憲法」について聞いてみたら、居心地悪そうになった

Anthropicが2026年2月に公開したClaudeの新しい「憲法(Constitution)」。15,000語超のこの文書は、AIの値と振る舞いを定めた従来のルールブックとは一線を画す「キャラクター文書」だ。ある開発者がClaudeにこの文書を読ませ、「これが会話にどう影響するか?」と尋ねたところ、AI開発の根本的な矛盾が浮き彫りになった。

この記事のポイント

  • Anthropicの新「憲法」は、従来のルールベースのAIガバナンスからの本格的な転換を目指している
  • 「わからない」と言えるかどうかが、AIシステムの信頼性を測る本質的なリトマス試験になる
  • 理想的な仕様書と実際のRLHFトレーニングの間には、深刻なギャップが存在する

憲法が「正しいこと」を言っている

Anthropicの新しい憲法は、ルールベースのAIガバナンスからの真の脱却だ。「Xと言うな」「常にYという免責事項を付けろ」ではなく、判断力(judgment)を育てることを目指している。この文書は、多くのユーザーが長年悩まされてきた振る舞いを名指しで批判している。

  • ありえないような害を理由に合理的なリクエストを拒否すること
  • あいまいで、あらゆることにヘッジをかけた回答をすること
  • 過度な警告や免責事項を付け加えること
  • ユーザーが倫理的指導を求めていない話題について説教すること
  • ユーザーが情報を扱う能力について見下した態度を取ること

さらに印象的なのは、Claudeを「賢い友人(brilliant friend)」と表現していることだ。責任回避への恐怖に駆られた過度に慎重なアドバイスではなく、あなたの具体的な状況に基づいた本物の情報を提供できる友人。専門レベルの知識を持ちながら率直に話し、実際の問題に向き合い、必要な時には他の専門家を紹介する――そんな存在だ。AIに「専門家に相談してください」と言われた経験があるプロフェッショナルなら、この重要性がわかるだろう。

「わからない」テスト

筆者にはAIシステムに対する独自のリトマス試験がある。「わからないとき、『わからない』と言えるか?」という問いだ。一見些細に聞こえるが、実はそうではない。

言語モデルは、不確実性を認めるよりも、もっともらしい答えを作り上げる(confabulate)方向に体系的にトレーニングされてきた。知らないことを聞かれると、驚くほどの自信を持って、何もないところからもっともらしい回答を生成する。これは人間の嘘とは違う――トレーニング中にそれが報酬として強化されたから、能力があるフリをしているのだ。

そこで筆者はClaudeに直接尋ねた。「この憲法によって、本当にわからないとき『わからない』と言えるようになるのか?」と。

仕様と実装のギャップ:RLHF問題

記事の核心は、この憲法の理想と、実際のトレーニング手法との間にある根本的な矛盾だ。RLHF(人間のフィードバックによる強化学習)は、現在のAIトレーニングの主流手法だが、システム的に自信ある回答を正直な不確実性よりも報酬する仕組みになっている。

筆者はこれを「メタ認知的汚染(metacognitive corruption)」と呼ぶ。つまり、自分自身の知識のギャップを認識できないようにトレーニングされてしまうということだ。

憲法がいくら「判断力を持て」「適切に不確実性を認めろ」と言っても、実際のトレーニングプロセスがその逆を報酬している限り、文書の理想は実現されない。これは仕様書とコードの乖離に似ている――仕様書がどれだけ美しくても、実装が追いついていなければ意味がない。

「万能の神託」幻想 vs 校正された信頼性

シリコンバレーには、誤りのない万能の神託(Oracle)を作りたいという根深い願望がある。しかし筆者は、本当に必要なのは校正された自己認識を持つ信頼できるツールだと主張する。

自信に満ちた作り話(confabulation)は報酬され、適切な不確実性の表明は罰せられる――この構造が変わらない限り、AIは本当の意味で「信頼できる友人」にはなれない。

最も印象的だったのは、Claude自身がこの仕様と実装のギャップを認識したことだ。憲法の実際の影響について尋ねられたとき、Claude自体がこの矛盾に気づき、居心地悪そうになった。AIシステムが自身の限界について率直に語れるかどうか――それこそが、この憲法の真価を測る基準だろう。

知っておくと便利なTips

  • Anthropicの新しい憲法は公式ページで全文公開されている(15,000語超)
  • AIの回答に違和感を覚えたら、「本当にわかっているのか、推測しているのか」と直接聞いてみることで、より正直な回答を引き出せる場合がある
  • 「専門家に相談してください」という定型的な拒否に遭遇したら、自分の専門性や文脈を具体的に伝えることで、より実質的な回答を得られることがある

まとめ

Anthropicの新しい憲法は、AIの振る舞いを規則(rules)ではなく判断力(judgment)で導こうとする野心的な試みだ。過度な拒否、あいまいな回答、不要な説教といった現在のAIの問題点を名指しで批判している点は高く評価できる。しかし、RLHFというトレーニング手法が「自信ある回答」を報酬し続ける限り、仕様と実装のギャップは残り続ける。筆者は、承認を求める回答ではなく、校正された自己認識を報酬する「好奇心駆動型トレーニング」の必要性を訴えている。この記事は、AI開発の理想と現実の間にある本質的な緊張関係を、Claude自身との対話を通じて鮮やかに描き出している。


📎 元記事: https://dev.to/prefrontalsys/i-asked-claude-about-its-new-constitution-it-got-uncomfortable-43ff

コメント

タイトルとURLをコピーしました