話題となったBridgeBenchの投稿が、Claude Opus 4.6が弱体化されたと主張していますが、批判者たちはそのデータ比較が不正確で誤解を招くものだと指摘しています。話題となったBridgeBenchの投稿が、Claude Opus 4.6が弱体化されたと主張していますが、批判者たちはそのデータ比較が不正確で誤解を招くものだと指摘しています。

バイラル投稿「Claude Opus 4.6弱体化」主張に批判

2026/04/13 21:13
6 分で読めます
本コンテンツに関するご意見・ご感想は、crypto.news@mexc.comまでご連絡ください。

BridgeMind AIは、AnthropicのClaude Opus 4.6が幻覚ベンチマークの再テスト後に密かに性能低下させられていたと主張した。この投稿は拡散したが、手法の欠陥を理由に厳しい批判が相次いでいる。

この主張は、AI企業がコスト削減のために有料モデルを密かに性能低下させているのではないかとの議論を呼んだ。

BridgeMindが幻覚出現の98%増加を主張

コーディングベンチマーク「BridgeBench」を運営するBridgeMindは、Claude Opus 4.6が幻覚リーダーボードで2位から10位に転落したと投稿した。正確性は83.3%から68.3%に低下したと報告している。

この投稿は「推論能力の低下」を裏付ける証拠として提示された。しかし、基礎データを精査すると異なる実態が明らかになる。

比較手法自体に根本的欠陥との批判

情報科学者のポール・カルクラフト氏は、この主張について「驚くほど科学的でない」と指摘し、手法の重大な問題点を強調した。

最初の高得点は6種類のベンチマークに基づくものだった。今回の再テストではタスク数を30に拡大している。

共通の6タスクにおける正確性はほぼ同じで、87.6%から85.4%へ僅かな低下だった。

この微小な差も、1つのタスクの誤答1回によるもので、繰り返しテストもなかったため、AIモデルの統計的ばらつきの範囲内にとどまる。

大規模言語モデルは決定論的ではない。サンプル数が少ない中で偶発的な誤出力が結果に大きく影響する。

業界の広範な不信が物語を加速

それでも、この投稿は反響を呼んだ。Claude Opus 4.6は2026年2月のローンチ以来、品質低下が指摘され続けている。

開発者の間では、応答が短くなり、指示の遵守が弱くなり、ピーク時には推論の深度が減少すると報告されている。

こうした現象の一因には、製品仕様の意図的な変更もある。Anthropicは適応的推論制御を導入し、モデルが自律的に推論リソースを調整できる仕組みを加えた。初期設定の推論レベルも効率重視の中程度に設定された。

独立した調査によれば、6800件超のClaude Codeセッションを解析した結果、2月下旬までに推論深度は約67%低下した。

コード編集前のファイル参照比率は6.6から2.0まで減少。これはモデルがほとんど閲覧せずにコード修正を試みていたことを示す。

AIユーザーにとっての意味

これはAI業界で高まる緊張感の表れである。企業はモデルをリリース後、コストやスケールの最適化を図る。一方、ヘビーユーザーは常に最高のパフォーマンスを期待する。そのギャップが信頼を損なう要因だ。

現状の証拠からは、BridgeBenchのデータが意図的な性能劣化を証明するものではない。ベンチマークの比較方法が異なり、共通タスクにおける成績もほぼ同一だった。

ただし、根底にある不満は完全に的外れというわけではない。適応型計算制御やサービスレベルの最適化により、Claude Opus 4.6の実際の挙動は変化している。安定した出力を求める開発者には、この違いが重大な問題となる。

Anthropicは4月13日時点で、BridgeBenchの指摘に関する公式声明を発表していない。

市場の機会
4 ロゴ
4価格(4)
$0.013247
$0.013247$0.013247
+1.43%
USD
4 (4) ライブ価格チャート
免責事項:このサイトに転載されている記事は、公開プラットフォームから引用されており、情報提供のみを目的としています。MEXCの見解を必ずしも反映するものではありません。すべての権利は原著者に帰属します。コンテンツが第三者の権利を侵害していると思われる場合は、削除を依頼するために crypto.news@mexc.com までご連絡ください。MEXCは、コンテンツの正確性、完全性、適時性について一切保証せず、提供された情報に基づいて行われたいかなる行動についても責任を負いません。本コンテンツは、財務、法律、その他の専門的なアドバイスを構成するものではなく、MEXCによる推奨または支持と見なされるべきではありません。

USD1ジェネシス:手数料0 + 12%のAPR

USD1ジェネシス:手数料0 + 12%のAPRUSD1ジェネシス:手数料0 + 12%のAPR

新規ユーザー限定:最大600%のAPRでステーキング。期間限定!