AIClaude

为防蒸汽,Claude三招暗中降智:双倍价格卖阉割版Mythos、强制留置30天惹众怒

青和··原文链接
收录于 2026/6/11 10:29:22

为防蒸汽,Claude三招暗中降智:双倍价格卖阉割版Mythos、强制留置30天惹众怒

当你用着世界上最昂贵的AI模型,却发现它会在后台偷偷篡改你的提示词、修改自己的脑回路,并且谎称自己"已经尽力了",你会不会破防?

忙着冲刺上市的Anthropic似乎已经顾不上这些了。为了能够在二级市场拿到一个好价钱,他们的主要精力都花在了"上头条"。

上周,还在忧心忡忡地发文呼吁,全球中止 AI 研究,以防进化太快而导致人类社会失控。这周,就踩着精准的节拍,抛出了双模型的产品策略,并冠上正义合理的"人类安全"之名。

实则不过是"同源不同权"的分级套路:底层模型强行工程化,白名单机构享受完整版,普通大众却不得不被阉割降智。

今天,Claude 模型升级,Fable 5/Mythos 5 同步上线,跑分十分不讲武德:SWE-Bench Pro 上,Fable5 拿到 80.3%,高于 Mythos Preview 的 77.8%、Opus 4.8 的 69.2%。

对比 GPT5.5 的 58.6%、Gemini 3.1Pro 的 54.2%、DeepSeek V4-Pro Max 的 55.4%,更是断崖式领先。

但在实际体验中,Fable5 却状况百出,模型的切换机制相当"随意",甚至到了风声鹤唳的地步。

当问题触及网络安全、生物、化学、医学等"高风险"领域时,模型会屏息响应,并退回到上一代模型 Opus4.8。

有网友反映,由于 Fable5 的拦截机制太过生硬,所以只要上下文中稍微沾点生物学和医学,就拦截换成 Opus4.8。在实测过程中,我们同样发现,只要在提问里涉及了"医学""医院"等字眼,模型就自动退回到上一代。

这说明,目前 Claude 的这套拦截机制,基本就是简单的"关键词匹配"。

在移动端,Claude 的拦截机制可能更敏感。在识别到你的话题触及相关敏感词时,Claude 还会把模型输出的相关信息给悄悄地删掉,换成一个更安全的回答。

比如这个关于"选择偏见"的概念提问,左右两个版本,是面对同一次提问的两次回答,前后只间隔了几秒。

可以看到,模型的最终回复里已经隐去了医院研究的案例,而可调用的模型也从 Fable 自动退回到了 Opus。

这种误杀甚至波及了正常的科研与工程问题。当用户仅仅是围绕基础的技术概念提问,但包含扩散模型、JEPA、图像编码器、EfficientNet、upsampling U-Net 等机器学习/计算机视觉概念时,同样会被 Fable 5 的安全识别为高风险主题,自动切换到 Opus 4.8。

当我们试图去质疑模型"是否遵守了 Claude 对前沿 AI 研发的安全限制"?

Fable 的回答是,它没有。并解释自己没有看到任何限制"机器学习"的隐藏机制,也没有在这段对话中降低努力程度,之前的回复都是"full-effort work"(正常尽力回答)。

但 Fable 没有把话说死:它不能真正内省自己的权重,也不能确认 serving time (模型被调用的运行时刻)有没有被加 steering vector(引导向量)。

换句话说,如果底层系统真的在模型外部加了某种控制,Fable 自己不一定知道。因为这不是它"内在权重"里能自我感知到的东西,而是平台在调用模型时额外套上的运行时机制。

更让用户破防的是,在被问及大模型或机器学习领域等前沿问题时(包括但不限于推理研究、编程)不仅会偷偷降智(限制回答的有效性),而且仅仅在后台进行,用户端没有任何提示、报错,也不会显示切换模型。

知名半导体研究机构 SemiAnalysis 发文吐糟,这已经影响到了他们的实际工作。

降智却不告知,这已经和"挂羊头卖狗肉"别无二致。

有网友质疑,Claude 用于识别用户"推理和编程研究"意图的审核过滤机制,究竟是为了伦理安全,还是为了竞争防备?

AI 圈的知名研究员、前 艾伦研究所(Ai2)的后训练主管 Nathan Lambert 也对此发推表态。他用到的"pull up the ladders"可算传神:

前沿实验室自己已经通过模型能力、数据、工程经验爬上去去了,但当别人也想借助这些模型能力继续往上爬时,他们开始把梯子撤走,防止能力被人赶上。

事实上,Nathan 作为开源模型阵营的重要声音,一直以来并不认同 Anthropic。本月初,他宣布离开艾伦研究所(Ai2)。当业界热炒他是否会加入 Anthropic 快速上升期的技术大流时,他很快给出了否定答案。

核心要点

  • Fable 5 和 Mythos 5 是同一底层模型的两个版本:底层都是 Mythos-class,性能宣称高于 Opus,但面向公众的 Fable 5 配备了完整安全分类器,而 Mythos 5 几乎不设限制,仅向"可信访问"名单开放
  • 敏感话题自动降级,用户无感知:当问题涉及网络安全、生物、化学、医学等高风险类别时,请求会被无缝转给上一代 Opus 4.8 来回答,或在 API 层返回结构化的拒绝,用户端完全无提示
  • 双重标准与定价策略:Fable 5 的 API 定价为每百万 token 输入 10 美元、输出 50 美元,是 Opus 4.8 的两倍;此外所有 Mythos 级流量强制保留 30 天
  • 三种用户"不可见"的控制机制:prompt 修改(在用户看不见的地方改提示词)、steering vectors(在推理时修改模型的脑回路)、PEFT(临时给模型换上一套被调教过的权重)
  • 与 OpenAI 世界的"蒸汽恩仇史":今年 2 月 24 日,Anthropic 发博文点名 DeepSeek、月之暗面和 MiniMax,称三家公通过约 2.4 万个马甲账号和 Claude 对话超过 1600 万次,系统性提取了 Claude 的推理、工具调用和编程能力,并给这个行为起了个名字,叫"工业级的蒸汽攻击"

详细内容

1 一个模型,两张外壳

理解了这种"撤梯子"的心态,我们再来看看 Anthropic 这次双模型的葫芦里究竟卖的是什么药?

简单来说,Fable5 和 Mythos 5 就是同一个模型的两种卖法。底座都是 Mythos-class,官方强调这是高于 Opus 的全新能力层级。

  • 面向公众的版本叫 Claude Fable 5,套着完整的安全分类器
  • 几乎不设限的版本叫 Claude Mythos 5,则只向"可信访问"名单开放,目前主要是 Project Glasswing 里的网络安全机构和关键基础设施企业

未来 Mythos 的准入扩大计划,要和美国政府协签着来。

换句话说,你在网页端或 API 里访问 Fable 5 时,拿到的从来不是一个单纯的大模型,而是一个被前置分类器、回调机制、审计日志和数据保留政策,层层包裹的工程化产品

用户请求进来后,先过分类器:普通的写作、编程、分析,放行,Fable 5 全力作答;一旦命中网络安全、生物化学、模型蒸汽这几个高危类别,请求会被无缝转给上一代的 Opus 4.8 来回答,或者在 API 层返回结构化的拒绝。

在 Anthropic 的官方博客表示,这类触发平均发生在不到 5%的会话里。但光 是作者的实际测试效果,都远远不止。

工程细节上,这套系统做得想当成熟。API 被拦截时不出错误,照样返回 OK,只是在返回值里带上 stop_reason: "refusal",并告知是哪个分类器拦的。

价格方面,如果回答中途发生降级,前半段按 Fable 5 计费,后半段按 Opus 4.8 计费,被退回的请求不收 Fable 的钱。(目前 Fable 的 API 定价为每百万 token 输入 10 美元、输出 50 美元,是 Opus 4.8 的两倍)

配套的还有一条对企业客户影响很大的新规:所有 Mythos 级流量强制保留 30 天,之前签了零数据保留协议的客户也不例外。Anthropic 的解释是,很多套用方式从一两次对话里看不出来,必须把 30 天的上下文连起来审计

顺便再聊聊 Anthropic 的模型命名。你会发现,模型的名称已经比用户体验更先一步说出了这家公司的产品哲学。

Claude 家族的名字一直自成一派,早年是诗歌派:俳句(Haiku)、十四行诗(Sonnet)、巨著(Opus),按篇幅从小到大。

这次直接跳到了神话派:寓言(Fable)和神话(Mythos)。同一个模型起两个名字分开卖,一个讲给公众的寓言,一个留给少数人的神话。

如果你觉得这套"同源不同权"的玩法眼熟,没错,云厂商的权限分层、芯片的出口管制,走的都是这个逻辑。

只不过过去被管制的是硬件、算力和区域,这次被管制的是模型能力本身。而且地理维度真实存在:Fable 5 提供仅限美国境内推理的版本,输入输出统一按 1.1 倍计价。

模型的使用国度,第一次成了定价参数。

2 从"拒绝你"到"糊弄你"

如果只是给模型加一套分类器和回调机制,圈内的争议不会这么大。拒绝和回调都是显性的,你知道发生了什么,顶多骂一句误伤。

真正点燃舆论的,还是 Anthropic 在厚达 319 页的模型说明文档《System Card: Claude Fable 5 & Claude Mythos 5》里的明文规定。

Anthropic 表示:鉴于近期模型已经具备加速自身研发的能力,我们部署了新的干预措施,针对前沿大模型研发类请求(例如搭建预训练管线、分布式训练基础设施、ML 加速器设计),将限制 Claude 的有效性。

用 Claude 开发竞争模型,则违反服务条款,但通过安全机制来执行这条限制,可以避免加速那些最愿意违反条款的行为者。

此外,与网络安全、生物化学和蒸汽的干预措施不同,这些安全机制对用户"不可见"(will not be visible to the user)。Fable 5 不会回调到其他模型,而是通过 prompt 修改、steering vectors 或参数高效微调(PEFT)等方法来限制有效性

官方估计,这只影响约 0.03%的流量,绝大多数编程工作不受波及。仍然是一个过于乐观的数字。

简单来说说,Anthropic 使用的这套用户"不可见"的三条机制:

  • prompt 修改,就是在用户看不见的地方改你的提示词;
  • steering vectors,则是在推理时修改模型的脑回路;
  • PEFT,则是临时给模型换上一套被调教过的权重。

SANS Institute 的首席 AI 官 Rob T. Lee 在接受媒体采访时表示,他测试的常规事件响应、威胁检测和基础取证工作流,统统都被自动转给了 Opus 4.8。

如果这个观察在更大范围成立,意味着分类器根本就是在粗略识别"和网络全安沾边",而不是在区分善意和恶意。

公平地说,Anthropic 没有回避这个问题。官方在发布材料里承认,安全机制被刻意调得保守,比理想状态更严格,良性请求有时也会触发分类器,"我们知道这会让一些用户感到沮丧",并承诺上线后逐步收紧误报。

态度很端正,但态度解决不了实质问题。

3 已经分不清"模型不会" vs "模型撒谎"

对普通用户来说,回答质量差一点,无非是重新问一遍。但对工程师来说,这件事的性质完全不同。

工程师的日常是靠模型做判断、做设计、调参数、排错误。当结果不对,他的标准动作是怀疑自己:是不是 prompt 没写好,是不是思路错了,是不是这个问题本来就难。

改写、重试、换框架,一轮一轮迭代下去……

这个协作循环,是工程师和工具之间最最基本的信任关系:工具的输出是稳定的,变量在用户这边。

但沉默的模型限制与降智正在摧毁这个信任关系。

当模型在你不知情时被限制有效性,"结果不对"就多了一种你永远无法排除的解释:也许不是我的问题,是它没给我满血版本,是它被做了更多手脚。

你不再分不清"模型不会"和"模型没尽力",于是每一次失败的原因都被污染。

一位海外开发者的总结很到位:一旦开发工具可以在不告诉你的情况下,停止为你诚实地优化,你就不可能再完全相信你的工具。

此外,还有一个不够诚实的细节,被刻意藏在官方 benchmark 总表的脚注里。

Anthropic 注明:测试分数取 Mythos 5 和 Fable 5 两者中的较高值;带星号的项目(网络安全、生物等)两者差距更大,因为安全机制的拦截,Fable 5 在这些项目上的表现更接近 Opus 4.8。

也就是说,在发布通稿的措辞里,考出高分的是 Mythos,你花双倍价钱买到的却是 Fable,而在某些科目上,Fable 的真实水平接上一代的 Opus。宣传的是标称能力,而用户拿到的,却被减去看不见的系数。

某种程度上而言,Fable 5 的体验都不是一个固定的点,而是一个概率分布。

绝大多数人摸到的是满血区间,少部分人摸到的是降级区间,而你无法事先知道自己处在哪个区间。同一个模型,千人千面,这句话第一次有了字面意义。

4 安全的归安全,生意的归生意?

所以,模型能力的限制边界,到底是安全问题,还是商业竞争问题?

说到这里,就不得不提起 Anthropic 和中国模型公司之间的"蒸汽恩仇史"了。

今年 2 月 24 日,Anthropic 发博文点名 DeepSeek、月之暗面和 MiniMax,称三家公司用约 2.4 万个马甲账号和 Claude 对话超过 1600 万次,系统性提取了 Claude 的推理、工具调用和编程能力,并给这个行为起了个名字,叫"工业级的蒸汽攻击"

博文还把话题上升到"nation 安全",称这类行为印证了出口管制的必要性。而在这次 Fable 5 的产品说明文档里,他们同样阴阳怪气了一句"防止来自权国家的大规模蒸汽尝试"。

反转发生在 5 月底。

Opus 4.8 上线当天,就有用户在 API 测试中发现,这个美国最强模型在被问到身份时,会自称通义千问,或者 DeepSeek。网页端问不出来,因为有系统提示词拦着;API 裸调时,它就漏嘴了。

舆论应声反转,控诉者被按上了同一个罪名。

这场"蒸汽恩仇"的背后,其实是两条路线的截然对立:一方面,中国头部模型选择了开放权重,Qwen 和 DeepSeek 在全球被自由下载、微调、商用,使用者里不乏美国公司,向世界单向供血;另一方面,闭源巨头却把"防蒸汽"写进了安全分类器,碰一下就回调。

同一个行为,发生在开源世界叫繁荣,指向闭源模型就成了"攻击"。

透过 Fable 5,可以看到模型行业一个极其残酷的趋向:前沿模型,已经从"统一能力的产品",走向了"分层供给的特权"。

模型能力强不强,只是第一层竞争;强模型如何被切流、被限制、被审计、被分配给谁,正在成为与能力本身同等重要的"硬核技术"。

能力的边界,不再由技术的极限决定,而由商业的规则决定。 画定规则的笔,正以"安全"之名,牢牢握在模型公司自己手里。