文章作者、来源：0x9999in1，ME News TL;DR BridgeMind旗下BridgeBench基准测试显示，7月1日复出的Fable 5在调试任务上得分从86.2暴跌至25.9,跌幅70%,排名从第9掉到第42个模型中的第41。重构测试从73.6跌到38.4,幻觉抵抗测试从75.9跌到61.文章作者、来源：0x9999in1，ME News TL;DR BridgeMind旗下BridgeBench基准测试显示，7月1日复出的Fable 5在调试任务上得分从86.2暴跌至25.9,跌幅70%,排名从第9掉到第42个模型中的第41。重构测试从73.6跌到38.4,幻觉抵抗测试从75.9跌到61.

复出即"缩水"：Anthropic给自己最强模型戴上了枷锁

来源：MetaEra

2026/07/03 18:00

阅读时长 14 分钟

如需对本内容提供反馈或相关疑问，请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源：0x9999in1，ME News

TL;DR

BridgeMind旗下BridgeBench基准测试显示，7月1日复出的Fable 5在调试任务上得分从86.2暴跌至25.9,跌幅70%,排名从第9掉到第42个模型中的第41。
重构测试从73.6跌到38.4,幻觉抵抗测试从75.9跌到61.7,三项全线下滑。
BridgeMind强调：模型本身没变，是安全护栏（路由分类器）把大量正常请求拦截，转发给了更弱的Opus 4.8。
调试基准的12个任务里，只有3个能跑通Fable 5本体，剩下9个全被打回原型。
开发者在系统日志里挖出一个标签，叫TOO_DUMB_TO_NEED_FABLE,直译"太蠢不配用Fable"，引爆社区怒火。
这场闹剧的起点是6月12日的一次紧急出口管制,起因是亚马逊研究员用"fix this code"三个词绕过了安全限制。
6月30日商务部解禁，7月1日模型回归，但换了一套更激进的分类器，代价就是误伤率飙升。
Fable 5定价是Opus 4.8的两倍，用户现在花两倍钱，却有很大概率拿到打折答案。

一、复出即翻车,数字不会说谎

一个模型消失19天，回来的时候，大家都以为会是凯旋。

结果呢？

BridgeMind把7月1日复出的Fable 5拉进BridgeBench又测了一遍。三项核心指标，全线跳水。调试任务，86.2掉到25.9,跌了七成。重构任务，73.6掉到38.4,接近腰斩。幻觉抵抗，75.9掉到61.7,也跌了近两成。

调试基准原本排在42个模型里的第9名，现在滑到第41,倒数第二。重构基准从33个模型里前二十，跌到第30。

这不是小幅波动。这是断崖式的下跌。

如果你是这个月刚上线Fable 5生产环境的团队，看到这组数字，第一反应是什么？是不是想立刻回滚版本？

先别急。BridgeMind自己给出了答案：模型没有变笨。

二、模型没变笨，笼子变大了

真正的病灶在哪？

BridgeMind把12个调试任务拆开看，只有3个真正跑在Fable 5本体上。剩下9个，全部在中途被拦截，转发给了Opus 4.8去完成。而BridgeBench的评分规则很直接：只要不是被测模型亲自完成的任务，直接记零分。

这就是25.9的真实来源。不是模型能力退化，是绝大多数请求根本没摸到Fable 5的门。

为什么会这样？

答案要往回倒19天。6月9日,Fable 5首次发布。三天后，亚马逊的研究员用一句看似普通的"fix this code"，让模型在修复代码的过程中主动指出了软件漏洞，其中一例甚至写出了可被利用的攻击代码。美国商务部反应极快，直接下发紧急出口管制令，要求切断全球所有非美籍用户的访问权限，包括Anthropic自己的外籍员工。问题是，在API层面根本没法实时核实用户国籍，Anthropic只能选择最简单粗暴的方式：全球下线。

19天后，6月30日,商务部长卢特尼克解除管制。7月1日,模型重新上线,但代价是换上了一套更严格的安全分类器。这套分类器专门针对亚马逊报告的那种"代码审查式"提问框架进行拦截，据美国商务部旗下AI标准与创新中心确认，拦截率超过99%。

99%听起来很安全，是不是？

但硬币的另一面是什么？Anthropic自己在复出声明里说得很清楚，新分类器"会以更高频率误判正常的编程和调试请求"。这句话在BridgeMind跑测试之前就写在官方公告里了。只是没人给出具体数字——直到BridgeBench把25.9这个数字摆上桌面。

值得一提的是，独立安全专家、Luta Security创始人凯蒂·穆苏里斯在审阅相关研究后得出的结论是：这次事件根本算不上真正的越狱，本质上是一次正常的防御性安全工作，不应该被当成漏洞去堵。Anthropic则反驳称，同样的行为在Opus 4.8、GPT-5.5甚至Kimi K2.7上都能复现，不是Fable 5独有的风险。

一边是国家安全的红线，一边是产品可用性的底线。这道题，本来就没有两全的解法。

三、TOO_DUMB_TO_NEED_FABLE，一行代码的羞辱

如果只是分数下跌，开发者顶多抱怨两句。真正让社区情绪失控的，是一个字符串。

有开发者在系统日志里翻出了一个内部标签，叫TOO_DUMB_TO_NEED_FABLE。直译过来就是"这个请求太蠢，不需要动用Fable"。也就是说，系统内部已经默认给用户的请求打了智力评级，评级不够，直接分流给便宜的Opus 4.8。

Claude Code工程师Thariq Shihipar的回应更是火上浇油，他说自己"没想到有人会去看日志"。这句话被开发者解读为一种傲慢——你不该发现的秘密，被你发现了，那不是我的问题，是你多管闲事。

这就有意思了。定价上，Fable 5是每百万输入token 10美元、每百万输出token 50美元，正好是Opus 4.8的两倍。用户花双倍价钱，买的是"更强的模型"，但拿到手的，很可能是被系统判定为"不配"用顶配模型之后，转手塞过来的平价替代品。

有开发者的比喻很扎心：说好卖你一台F1赛车，结果车钥匙插进去发现是普锐斯，副驾驶座上还留了张纸条，写着"你该感恩我没把你的代码全删了"。

这种落差，才是信任崩塌的真正起点。分数下跌是表象，用户觉得自己被区别对待、被暗中降级而不被告知，这才是问题的核心。

Anthropic后续通过Thariq做了澄清：只有一小部分编程任务会被标记降级，不是所有编程请求都会被拦截。这个澄清有没有用？多少能缓解一点，但伤害已经发生了。开发者一旦意识到系统里存在这种"隐性打折"机制，之后每次调用都会带着怀疑去核对结果，这种信任成本，比分数下跌本身更贵。

四、代价谁来承担,信任、定价，还有整个市场格局

把这件事放大一点看，Fable 5的处境其实映射出整个大模型行业正在面对的结构性矛盾。

a16z合伙人Benedict Evans最近有个观察，说基础模型本身没有网络效应,很难建立起长期领先的差异化优势。模型公司如果不小心，很容易变成"卖水卖铲子"的角色，就像当年的芯片厂、运营商一样，基础设施建得再惊艳,利润却被别人拿走了。

这句话放在Fable 5身上，格外讽刺。Anthropic想靠更强的模型能力支撑更高的定价，结果安全护栏一收紧,产品体验立刻打折,用户凭什么继续为"顶配"买单？

更现实的压力来自竞争对手。国产开源模型DeepSeek-V4-Pro的定价远低于Fable 5，性能差距却没有那么夸大。月之暗面Kimi在6月中旬年化收入突破3亿美元，其中API收入占比超过七成——这条增长曲线，跟Anthropic早期商业化路径开始出现相似的轮廓。

也就是说,大量企业客户其实并不需要"更强的前沿推理能力"，他们需要的是能稳定处理95%日常编程任务的解决方案。这条门槛提升的速度，远远慢于前沿模型能力本身的提升速度。谁能用更低的价格更快摸到这条门槛,谁就能抢到客户。

这才是Fable 5事件最尴尬的地方。安全合规解决了政策层面的准入危机,却在产品一致性上开了一个新的窟窿。用户要的是"我付的钱，对应我拿到的能力"，而不是一套自己都说不清楚触发概率的分类器,在暗处帮你做选择。

结尾

Fable 5到底有没有变笨？

没有。同样的问题,同样的模型，只要能绕过分类器,表现跟6月12日被下线之前一模一样。BridgeMind说得很直接：不是模型变差了，是它被关进了笼子。

那这个笼子该不该存在？

从国家安全的角度看,该。亚马逊报告的那个漏洞是真实存在的，商务部的反应速度也说明这件事分量不轻。从产品体验的角度看,不该做得这么糙。误伤率提高可以接受，但连一个大致的触发概率都不肯给,还留下一行足以让用户破防的内部标签，这就不是技术问题了，是沟通姿态的问题。

行业走到今天，模型能力的比拼早就不是唯一的战场了。定价、透明度、用户对系统行为的可预测性,这些才是决定一家公司能不能把技术优势兑现成商业优势的关键。Fable 5这次复出证明了一件事：护栏可以救回一个模型的合规资格,但救不回用户对它的信任。信任这东西，从来都是修得比拆得慢。

市场机遇

4实时价格 (4)

$0.009542

$0.009542$0.009542

-3.32%

USD

4 (4) 实时价格图表

世界杯预测，一单串多场，搏200倍收益！

MEXC App 6.60.0 全新升级，巴西/法国/阿根廷等最多20场组合，一键轻松下注！

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。