文章作者、来源:0x9999in1,ME News  TL;DR BridgeMind旗下BridgeBench基准测试显示,7月1日复出的Fable 5在调试任务上得分从86.2暴跌至25.9,跌幅70%,排名从第9掉到第42个模型中的第41。 重构测试从73.6跌到38.4,幻觉抵抗测试从75.9跌到61.文章作者、来源:0x9999in1,ME News  TL;DR BridgeMind旗下BridgeBench基准测试显示,7月1日复出的Fable 5在调试任务上得分从86.2暴跌至25.9,跌幅70%,排名从第9掉到第42个模型中的第41。 重构测试从73.6跌到38.4,幻觉抵抗测试从75.9跌到61.

复出即"缩水":Anthropic给自己最强模型戴上了枷锁

2026/07/03 18:00
阅读时长 14 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源:0x9999in1,ME News



TL;DR

  • BridgeMind旗下BridgeBench基准测试显示,7月1日复出的Fable 5在调试任务上得分从86.2暴跌至25.9,跌幅70%,排名从第9掉到第42个模型中的第41。
  • 重构测试从73.6跌到38.4,幻觉抵抗测试从75.9跌到61.7,三项全线下滑。
  • BridgeMind强调:模型本身没变,是安全护栏(路由分类器)把大量正常请求拦截,转发给了更弱的Opus 4.8。
  • 调试基准的12个任务里,只有3个能跑通Fable 5本体,剩下9个全被打回原型。
  • 开发者在系统日志里挖出一个标签,叫TOO_DUMB_TO_NEED_FABLE,直译"太蠢不配用Fable",引爆社区怒火。
  • 这场闹剧的起点是6月12日的一次紧急出口管制,起因是亚马逊研究员用"fix this code"三个词绕过了安全限制。
  • 6月30日商务部解禁,7月1日模型回归,但换了一套更激进的分类器,代价就是误伤率飙升。
  • Fable 5定价是Opus 4.8的两倍,用户现在花两倍钱,却有很大概率拿到打折答案。

一、复出即翻车,数字不会说谎

一个模型消失19天,回来的时候,大家都以为会是凯旋。

结果呢?

BridgeMind把7月1日复出的Fable 5拉进BridgeBench又测了一遍。三项核心指标,全线跳水。调试任务,86.2掉到25.9,跌了七成。重构任务,73.6掉到38.4,接近腰斩。幻觉抵抗,75.9掉到61.7,也跌了近两成。

调试基准原本排在42个模型里的第9名,现在滑到第41,倒数第二。重构基准从33个模型里前二十,跌到第30。

这不是小幅波动。这是断崖式的下跌。

如果你是这个月刚上线Fable 5生产环境的团队,看到这组数字,第一反应是什么?是不是想立刻回滚版本?

先别急。BridgeMind自己给出了答案:模型没有变笨。

二、模型没变笨,笼子变大了

真正的病灶在哪?

BridgeMind把12个调试任务拆开看,只有3个真正跑在Fable 5本体上。剩下9个,全部在中途被拦截,转发给了Opus 4.8去完成。而BridgeBench的评分规则很直接:只要不是被测模型亲自完成的任务,直接记零分。

这就是25.9的真实来源。不是模型能力退化,是绝大多数请求根本没摸到Fable 5的门。

为什么会这样?

答案要往回倒19天。6月9日,Fable 5首次发布。三天后,亚马逊的研究员用一句看似普通的"fix this code",让模型在修复代码的过程中主动指出了软件漏洞,其中一例甚至写出了可被利用的攻击代码。美国商务部反应极快,直接下发紧急出口管制令,要求切断全球所有非美籍用户的访问权限,包括Anthropic自己的外籍员工。问题是,在API层面根本没法实时核实用户国籍,Anthropic只能选择最简单粗暴的方式:全球下线。

19天后,6月30日,商务部长卢特尼克解除管制。7月1日,模型重新上线,但代价是换上了一套更严格的安全分类器。这套分类器专门针对亚马逊报告的那种"代码审查式"提问框架进行拦截,据美国商务部旗下AI标准与创新中心确认,拦截率超过99%。

99%听起来很安全,是不是?

但硬币的另一面是什么?Anthropic自己在复出声明里说得很清楚,新分类器"会以更高频率误判正常的编程和调试请求"。这句话在BridgeMind跑测试之前就写在官方公告里了。只是没人给出具体数字——直到BridgeBench把25.9这个数字摆上桌面。

值得一提的是,独立安全专家、Luta Security创始人凯蒂·穆苏里斯在审阅相关研究后得出的结论是:这次事件根本算不上真正的越狱,本质上是一次正常的防御性安全工作,不应该被当成漏洞去堵。Anthropic则反驳称,同样的行为在Opus 4.8、GPT-5.5甚至Kimi K2.7上都能复现,不是Fable 5独有的风险。

一边是国家安全的红线,一边是产品可用性的底线。这道题,本来就没有两全的解法。

三、TOO_DUMB_TO_NEED_FABLE,一行代码的羞辱

如果只是分数下跌,开发者顶多抱怨两句。真正让社区情绪失控的,是一个字符串。

有开发者在系统日志里翻出了一个内部标签,叫TOO_DUMB_TO_NEED_FABLE。直译过来就是"这个请求太蠢,不需要动用Fable"。也就是说,系统内部已经默认给用户的请求打了智力评级,评级不够,直接分流给便宜的Opus 4.8。

Claude Code工程师Thariq Shihipar的回应更是火上浇油,他说自己"没想到有人会去看日志"。这句话被开发者解读为一种傲慢——你不该发现的秘密,被你发现了,那不是我的问题,是你多管闲事。

这就有意思了。定价上,Fable 5是每百万输入token 10美元、每百万输出token 50美元,正好是Opus 4.8的两倍。用户花双倍价钱,买的是"更强的模型",但拿到手的,很可能是被系统判定为"不配"用顶配模型之后,转手塞过来的平价替代品。

有开发者的比喻很扎心:说好卖你一台F1赛车,结果车钥匙插进去发现是普锐斯,副驾驶座上还留了张纸条,写着"你该感恩我没把你的代码全删了"。

这种落差,才是信任崩塌的真正起点。分数下跌是表象,用户觉得自己被区别对待、被暗中降级而不被告知,这才是问题的核心。

Anthropic后续通过Thariq做了澄清:只有一小部分编程任务会被标记降级,不是所有编程请求都会被拦截。这个澄清有没有用?多少能缓解一点,但伤害已经发生了。开发者一旦意识到系统里存在这种"隐性打折"机制,之后每次调用都会带着怀疑去核对结果,这种信任成本,比分数下跌本身更贵。

四、代价谁来承担,信任、定价,还有整个市场格局

把这件事放大一点看,Fable 5的处境其实映射出整个大模型行业正在面对的结构性矛盾。

a16z合伙人Benedict Evans最近有个观察,说基础模型本身没有网络效应,很难建立起长期领先的差异化优势。模型公司如果不小心,很容易变成"卖水卖铲子"的角色,就像当年的芯片厂、运营商一样,基础设施建得再惊艳,利润却被别人拿走了。

这句话放在Fable 5身上,格外讽刺。Anthropic想靠更强的模型能力支撑更高的定价,结果安全护栏一收紧,产品体验立刻打折,用户凭什么继续为"顶配"买单?

更现实的压力来自竞争对手。国产开源模型DeepSeek-V4-Pro的定价远低于Fable 5,性能差距却没有那么夸大。月之暗面Kimi在6月中旬年化收入突破3亿美元,其中API收入占比超过七成——这条增长曲线,跟Anthropic早期商业化路径开始出现相似的轮廓。

也就是说,大量企业客户其实并不需要"更强的前沿推理能力",他们需要的是能稳定处理95%日常编程任务的解决方案。这条门槛提升的速度,远远慢于前沿模型能力本身的提升速度。谁能用更低的价格更快摸到这条门槛,谁就能抢到客户。

这才是Fable 5事件最尴尬的地方。安全合规解决了政策层面的准入危机,却在产品一致性上开了一个新的窟窿。用户要的是"我付的钱,对应我拿到的能力",而不是一套自己都说不清楚触发概率的分类器,在暗处帮你做选择。

结尾

Fable 5到底有没有变笨?

没有。同样的问题,同样的模型,只要能绕过分类器,表现跟6月12日被下线之前一模一样。BridgeMind说得很直接:不是模型变差了,是它被关进了笼子。

那这个笼子该不该存在?

从国家安全的角度看,该。亚马逊报告的那个漏洞是真实存在的,商务部的反应速度也说明这件事分量不轻。从产品体验的角度看,不该做得这么糙。误伤率提高可以接受,但连一个大致的触发概率都不肯给,还留下一行足以让用户破防的内部标签,这就不是技术问题了,是沟通姿态的问题。

行业走到今天,模型能力的比拼早就不是唯一的战场了。定价、透明度、用户对系统行为的可预测性,这些才是决定一家公司能不能把技术优势兑现成商业优势的关键。Fable 5这次复出证明了一件事:护栏可以救回一个模型的合规资格,但救不回用户对它的信任。信任这东西,从来都是修得比拆得慢。

市场机遇
4 图标
4实时价格 (4)
$0.009542
$0.009542$0.009542
-3.32%
USD
4 (4) 实时价格图表

世界杯预测,一单串多场,搏200倍收益!

世界杯预测,一单串多场,搏200倍收益!世界杯预测,一单串多场,搏200倍收益!

MEXC App 6.60.0 全新升级,巴西/法国/阿根廷等最多20场组合,一键轻松下注!

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。