Anthropic新AIセキュリティ技術「Constitutional Classifiers++」を発表、99.9%以上の安全性を実現

AIの安全性は、開発者にとっても利用者にとっても最優先課題です。2026年1月9日、AnthropicがClaude Codeを支える新たなセキュリティ技術「Constitutional Classifiers++」を発表しました。この技術は、従来のセーフティシステムを大幅に進化させ、ほぼ完璧な有害コンテンツ検出を実現しています。Claude Codeユーザーにとって、この技術革新がどのような意味を持つのか詳しく解説します。

この記事のポイント
革新的なセキュリティアーキテクチャ
パフォーマンスと安全性の両立
残る課題と今後の展望
実践してみよう
知っておくと便利なTips
まとめ

この記事のポイント

計算オーバーヘッドを23.7%からわずか1%に削減
1,000クエリあたり0.005という業界最低の誤検出率を達成
無害なクエリの拒否率を87%削減
1,700時間以上のレッドチームテストでも突破されず

革新的なセキュリティアーキテクチャ

Constitutional Classifiers++は、従来のセーフティシステムとは根本的に異なるアプローチを採用しています。最大の特徴は「カスケード型アンサンブル」と呼ばれる多層防御システムです。まず、入力されたクエリは「リニアプローブスクリーニング」という軽量な第一フィルターを通過します。この段階で、AIモデルの内部活性化パターンを分析し、明らかに安全なリクエストは即座に処理されます。

疑わしいと判断された場合のみ、より詳細な「エクスチェンジ分類器」による二次審査に回されます。この分類器は入力と出力の両方のコンテキストを同時に評価することで、従来よりも高精度な判定を実現しています。さらに、Anthropicの解釈可能性研究から生まれた「内部プローブ」技術を活用し、ニューラルネットワークの既存の計算から安全性シグナルを抽出しています。

パフォーマンスと安全性の両立

従来のセーフティシステムでは、安全性を高めるほど処理速度が低下するというトレードオフがありました。Constitutional Classifiers++はこの常識を覆し、計算オーバーヘッドを23.7%から約1%へと劇的に削減しています。これはClaude Codeの応答速度が実質的に向上することを意味します。

同時に、誤検出（False Positive）も大幅に減少しました。従来のシステムでは、無害なクエリが誤って拒否されるケースが問題視されていましたが、新システムではその発生率を87%削減しています。開発者が正当なコードを書いているのに「有害な可能性がある」と警告される煩わしさが、大幅に軽減されるでしょう。

残る課題と今後の展望

1,700時間以上のレッドチームテストを経ても突破されなかったConstitutional Classifiers++ですが、Anthropicは完璧ではないことも認めています。特に2種類の攻撃パターンには依然として脆弱性が残っています。

1つ目は「再構成攻撃」です。有害な情報を無害に見える複数のセグメントに分割して送信し、最終的に組み合わせる手法です。2つ目は「出力難読化攻撃」で、メタファーや暗号、コード化された言語を使って危険な出力を偽装する手法です。

実践してみよう

Claude Codeユーザーとして、この技術の恩恵を最大限に受けるには、自然な形でコードを書くことが重要です：

# 以前は警告が出やすかったセキュリティ関連のコード生成も、より自然に
claude "SQL インジェクション対策を含むログイン機能を実装して"

# ネットワーク関連のコードも誤検出が減少
claude "HTTPSリクエストを送信する関数を作成して"

セキュリティに関するコードを書く際も、過度に言い回しを気にする必要はなくなりました。システムが文脈を理解し、正当な開発作業と悪意のあるリクエストを高精度で識別してくれます。

知っておくと便利なTips

エラーが減った理由を理解する: 以前「有害な可能性」で拒否されていたリクエストが通るようになった場合、それはシステムの精度向上によるものです
自然な言葉で依頼する: 回りくどい表現は不要。直接的にやりたいことを伝える方が良い結果が得られます
セキュリティコードも躊躇なく: 認証、暗号化、バリデーションなどのセキュリティコードも自然に生成依頼できます

まとめ

Constitutional Classifiers++は、AIの安全性と使いやすさを両立させた画期的な技術です。Claude Codeユーザーにとっては、より快適で高速な開発体験が期待できます。99.9%を超える安全性を維持しながら、正当な開発作業が妨げられることはほぼなくなりました。Anthropicが安全性とユーザビリティの両方に真剣に取り組んでいることを示す、重要なマイルストーンと言えるでしょう。

📎 元記事: https://www.anthropic.com/research/next-generation-constitutional-classifiers