OpenAIの最新モデルGPT 5.4がCodexに搭載され、エージェント性能が大幅に向上したと話題になっている。AI研究者のNathan Lambert氏が、実際の使用感をもとにGPT 5.4とClaudeを比較分析した注目の記事を紹介する。ベンチマークの数値だけでは測れない「実用性」の観点から、両モデルの強みと弱みが浮き彫りになった。
この記事のポイント
- GPT 5.4はCodex上で「あらゆる雑多なタスクをこなせる初めてのOpenAIエージェント」と評価された
- 従来のベンチマーク単一スコアではエージェントの実用性を正しく測れないという問題提起
- 性能面ではGPT 5.4が優位な点が多いが、筆者は主観的な理由からClaudeを好んで使い続けている
GPT 5.4の実力──「硬い角がなくなった」
Lambert氏はGPT 5.4を搭載したCodexについて、「あらゆるランダムなタスクをこなせると感じた初めてのOpenAIエージェント」と高く評価している。Git操作、パッケージ管理、ファイル操作、API呼び出しなど、複数の複雑なタスクを以前のバージョンよりもはるかに少ない失敗率で処理できるようになった。
特に印象的なのは「硬い角(hard edges)がもはや存在しない」という表現だ。以前のバージョンでは、特定の操作でエラーが発生し、デバッグの無限ループに陥ることがあった。GPT 5.4ではそうしたフラストレーションが大幅に解消されたという。これはモデルの基礎能力が底上げされたことを意味しており、単なるベンチマークスコアの改善以上に、日常的なコーディング作業における体験の質が向上したと言える。
ベンチマークの限界──エージェント評価の新しい考え方
Lambert氏は、従来の単一スコアによるベンチマーク評価がエージェントの実用性を正しく捉えられていないと主張する。実世界でのエージェント評価には、以下の4つの次元を同時に評価する必要があるという。
- 正確性(Correctness): タスクを正しく完了できるか
- 使いやすさ(Usability): ユーザーとのインタラクションが自然か
- 速度(Speed): 応答や処理の速さ
- コスト(Cost): トークン消費量や API 利用料
GPT 5.4は紙面上では漸進的な改善に見えるが、実際にはこの4つの次元すべてで実質的な恩恵が得られているとのことだ。この指摘は、AIモデルの評価方法そのものを見直す必要性を示唆しており、開発者やエンジニアにとって重要な視点である。
GPT 5.4 vs Claude──それぞれの強みと弱み
Lambert氏は両モデルの特性を明確に整理している。
GPT 5.4の強み:
– トークン効率が優秀 — ピーク性能に到達するために必要なトークン数が少ない
– レート制限が緩い — ネイティブの高速モードにアクセス可能
– コンテキスト管理が優秀 — 最小限のオーバーヘッドで効率的に処理
– 指示追従性が高い — 分散タスク実行において正確に指示に従う
Claudeの強み:
– 対話スタイルに個性がある — 「魅力とエンターテインメント性」がある
– 意図の汲み取りが直感的 — ユーザーの意図を自然に理解する
– 温かみのあるユーザー体験 — 使い続けたくなる心地よさ
Lambert氏はGPTを「几帳面で、やや冷たいが、深く機械的」と表現し、Claudeを「個性を持った賢さ」があると評している。意見を求めるような作業にはClaudeを、大規模なタスク調整にはGPTを選ぶという使い分けが示唆されている。
両モデルに共通する課題
興味深いことに、GPT 5.4とClaudeの両方に共通する問題点も指摘されている。1つのメッセージで複数の並行タスクを処理する際に「軽い物忘れ」が発生し、最新の指示に集中するのではなく、以前の問題に戻ってしまうことがあるという。これはエージェントモデル全般に共通する技術的課題であり、今後の改善が期待される分野だ。
知っておくと便利なTips
- エージェントの評価は単一スコアではなく「正確性・使いやすさ・速度・コスト」の4軸で考えると実用的な判断ができる
- 大規模な分散タスク(リファクタリング、コード生成など)にはGPT 5.4/Codexが向いている
- 対話的な作業(コードレビュー、設計相談、意見を求める作業)にはClaudeが向いている
- 両モデルとも複数タスクの同時処理では「忘れ」が起きやすいため、タスクは1つずつ明確に指示するのが安全
まとめ
GPT 5.4はCodexにおいて確かに大きな前進を遂げた。トークン効率、指示追従性、コンテキスト管理など、エージェントとしての基礎能力が全方位的に向上している。しかし、Lambert氏の分析が示すように、モデルの選択は純粋な性能だけでは決まらない。Claudeの持つ「個性」や「意図の汲み取り」といった主観的な魅力は、日常的なコーディング体験において無視できない価値を持っている。結局のところ、最適なAIツールの選択は用途次第であり、両モデルの特性を理解した上で使い分けることが、現時点での最善のアプローチと言えるだろう。
📎 元記事: https://www.interconnects.ai/p/gpt-54-is-a-big-step-for-codex


コメント