文章作者、来源:量子位 都先别急着吹! Claude刚刚发布的新模型Fable 5,很多人可能压根就用不上! 有不少网友实测发现,Fable 5的安全护栏检测机制的触发几率似乎比官方宣称的不到5%严格得多。 无论是普通编码任务。 还是简单打个招呼,都有可能被自动路由回老模型Opus 4.8。 更离谱的是,我自己也中招了文章作者、来源:量子位 都先别急着吹! Claude刚刚发布的新模型Fable 5,很多人可能压根就用不上! 有不少网友实测发现,Fable 5的安全护栏检测机制的触发几率似乎比官方宣称的不到5%严格得多。 无论是普通编码任务。 还是简单打个招呼,都有可能被自动路由回老模型Opus 4.8。 更离谱的是,我自己也中招了

Fable 5自带反蒸馏机制,检测到就降智,误触率高到离谱

2026/06/10 20:09
阅读时长 10 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源:量子位

都先别急着吹!

Claude刚刚发布的新模型Fable 5,很多人可能压根就用不上!

有不少网友实测发现,Fable 5的安全护栏检测机制的触发几率似乎比官方宣称的不到5%严格得多。

无论是普通编码任务。

还是简单打个招呼,都有可能被自动路由回老模型Opus 4.8。

更离谱的是,我自己也中招了。我让Claude帮我搜点资料,丰富一下背景。

结果它想了两步,啪——切Opus了。

换句话说。你以为自己在用Anthropic刚发布的最强模型,实际上聊着聊着,对面已经偷偷换人了。

而且不光是安全检测容易误伤,更绝的还在后头:

Anthropic还在长达319页的系统卡里埋了一套防蒸馏机制。

如果系统怀疑你想拿Claude的输出训练自己的AI模型,它甚至不会告诉你发生了什么,而是直接降低Fable的回答质量。

可以说,前一手防你作恶,后一手防你抄作业,相当符合A社的一贯风格。

寓言怎么老变成章鱼?

先给今天没刷新闻的大伙补个课。

今天凌晨,Anthropic终于发布了预热许久的两款模型——

「神话」(Mythos)和「寓言」(Fable)。

其中,Fable 5最大的看点,是Anthropic第一次把Mythos级别能力向普通用户开放。

而Fable与正式版Mythos的差别在于,多了一个安全护栏。

目前,Fable免费开放给所有人到22号(22号只能通过API用),Mythos则还是开放给Claude部分的合作伙伴。

在官方介绍里,Fable的软件工程、知识工作、视觉理解能力全面增强,超过此前所有公开发布的Claude模型。

一句话速通理解就是,这俩就是现在的大模型天花板,各方面能力都已经到顶了。

新模型一经发出,刚入职A社的卡帕西第一时间夸了一波。

Claude Code之父Boris也对它赞不绝口。

不过,厉害归厉害,真让大伙用起来后,才发现,这寓言讲着讲着,老变成章鱼(Opus)。

原因也简单。

Anthropic给Fable装了一套分类器,只要它觉得你聊的是网络安全、生物、化学,或者想拿Claude蒸馏训练自家模型,就会自动把会话切给Opus 4.8。

这条规则白纸黑字写在系统卡第12页。

实际体验中,切换发生在Fable的思考过程中,当它自己感觉不对劲,也不会问你,就直接切了。

如果想继续用?要么把提示词改到它满意,要么重开一个窗口。

官方在技术博客里说,这套检测平均触发率不到5%。但网友很快发现,这5%不像5%。

有人表示,自己就是分析个代码,也被切了。

搞安全审计的更是直呼被针对,活儿没法干了。

还有人说压根用不了,审查代码库都会被Fable拒绝。

要说,最离谱的可能就是有网友把Fable自己的系统卡丢给他,让他解读一下,它也给你切了。

还有一名从事生物医学的科学家表示,这压根都没法用Fable工作,因为诠释违禁词。

而这并不是孤例,不少生物学网友都反映,Fable压根难以使用。

Boris在评论区承认了这个问题,表示正在处理。

这事儿真正微妙的地方在于,Fable在上面三种高风险场景下,至少会告诉你一声:

“哥们儿,我给你换模型了。”

但如果它怀疑你在研究怎么训练下一代大模型,那就进入另一个模式。

系统卡写明,重点针对的场景包括:限制Claude在前沿LLM开发请求上的有效性,例如搭建预训练流水线、分布式训练基础设施,或者ML加速器设计。

在这种场场景下,Claude不切模型,不弹提示,不通知用户,而是坐在那里,悄悄把自己调笨一点。

Anthropic原文写得很学术:Prompt Modification、Steering Vector、PEFT。(系统卡第12页)

翻译成人话就是你以为自己在跟满血版Fable聊天,实际上对面已经偷偷开了省电模式。

A社这波,属实是把护城河直接焊进推理链里了。

至于系统怎么判断,系统卡第58-59页也写明白了。

Fable背后跑的是一套两阶段检测系统:

第一层探针会直接检查模型内部激活值(activation),筛查所有请求;第二层再交给独立分类器判断风险。

一旦命中,客户端就会自动切换到Opus 4.8。

Anthropic甚至在报告里承认,由于分类器在网络安全测试中几乎总会触发,因此Fable 5在网络安全任务上的实际表现,基本等同于Opus 4.8。

一言以蔽之呢,就是Fable 5目前也还是一个有条件释放的模型:

大部分场景享受Mythos 5级别能力,但在高风险领域自动降级为Opus 4.8的能力水平。

为啥Claude要这么干?

今天新模型上线,额度同步重置,大家上手之后越用越觉得不对劲,吐槽也越来越多,主要集中在两件事上。

第一件事,是前面提到的安全护栏触发频率。Anthropic说平均不到5%的会话会触发回退,但不少用户的体感显然不是5%。

第二件事,则是Fable的使用策略。

这次Anthropic并没有完全放开,而是采用了限量开放的方式。

与此同时,Fable的token消耗成本也明显高于Opus,接近后者两倍。

这就让不少订阅用户有点犯嘀咕:

如果最好的模型既有额度限制,又不一定能稳定用到,那以后会不会走向按量收费?

当然,也有人把原因归结到商业层面。

有网友认为,Anthropic现在正处在IPO前的关键阶段,需要向投资人证明自己依然掌握着最前沿的模型能力。

所以最强模型可以放出来展示,但不能毫无保留地放出来。

还有研究人员担心另一件事。

如果模型一旦识别到前沿LLM研发相关内容,就主动降低回答质量,那对学术研究和技术交流显然不是个好消息。

更关键的是,用户根本不知道这一切正在发生。它不会弹窗,不会提醒,不会告诉你答案为什么突然变差。

你只会觉得:今天的Claude,好像突然没那么聪明了。

对此,AI研究员Nathan Lambert的评价也很直接:

模型厂商给能力加护栏或许不可避免。

但至少应该告诉用户,前沿能力是什么时候被撤掉的。

市场机遇
4 图标
4实时价格 (4)
$0.008328
$0.008328$0.008328
-3.07%
USD
4 (4) 实时价格图表

完成预测交易,解锁大奖资格

完成预测交易,解锁大奖资格完成预测交易,解锁大奖资格

奖池高达 $500,000,100% 中奖!

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

MEXC×持牌券商:真实美股已上线

MEXC×持牌券商:真实美股已上线MEXC×持牌券商:真实美股已上线

用USDT买入真实美股,100%持股享分红权益,上线期间0费率