为防蒸汽，Claude三招暗中降智：双倍价格卖阉割版Mythos、强制留置30天惹众怒

当你用着世界上最昂贵的AI模型，却发现它会在后台偷偷篡改你的提示词、修改自己的脑回路，并且谎称自己"已经尽力了"，你会不会破防？

忙着冲刺上市的Anthropic似乎已经顾不上这些了。为了能够在二级市场拿到一个好价钱，他们的主要精力都花在了"上头条"。

上周，还在忧心忡忡地发文呼吁，全球中止 AI 研究，以防进化太快而导致人类社会失控。这周，就踩着精准的节拍，抛出了双模型的产品策略，并冠上正义合理的"人类安全"之名。

实则不过是"同源不同权"的分级套路：底层模型强行工程化，白名单机构享受完整版，普通大众却不得不被阉割降智。

今天，Claude 模型升级，Fable 5/Mythos 5 同步上线，跑分十分不讲武德：SWE-Bench Pro 上，Fable5 拿到 80.3%，高于 Mythos Preview 的 77.8%、Opus 4.8 的 69.2%。

对比 GPT5.5 的 58.6%、Gemini 3.1Pro 的 54.2%、DeepSeek V4-Pro Max 的 55.4%，更是断崖式领先。

但在实际体验中，Fable5 却状况百出，模型的切换机制相当"随意"，甚至到了风声鹤唳的地步。

当问题触及网络安全、生物、化学、医学等"高风险"领域时，模型会屏息响应，并退回到上一代模型 Opus4.8。

有网友反映，由于 Fable5 的拦截机制太过生硬，所以只要上下文中稍微沾点生物学和医学，就拦截换成 Opus4.8。在实测过程中，我们同样发现，只要在提问里涉及了"医学""医院"等字眼，模型就自动退回到上一代。

这说明，目前 Claude 的这套拦截机制，基本就是简单的"关键词匹配"。

在移动端，Claude 的拦截机制可能更敏感。在识别到你的话题触及相关敏感词时，Claude 还会把模型输出的相关信息给悄悄地删掉，换成一个更安全的回答。

比如这个关于"选择偏见"的概念提问，左右两个版本，是面对同一次提问的两次回答，前后只间隔了几秒。

可以看到，模型的最终回复里已经隐去了医院研究的案例，而可调用的模型也从 Fable 自动退回到了 Opus。

这种误杀甚至波及了正常的科研与工程问题。当用户仅仅是围绕基础的技术概念提问，但包含扩散模型、JEPA、图像编码器、EfficientNet、upsampling U-Net 等机器学习/计算机视觉概念时，同样会被 Fable 5 的安全识别为高风险主题，自动切换到 Opus 4.8。

当我们试图去质疑模型"是否遵守了 Claude 对前沿 AI 研发的安全限制"？

Fable 的回答是，它没有。并解释自己没有看到任何限制"机器学习"的隐藏机制，也没有在这段对话中降低努力程度，之前的回复都是"full-effort work"（正常尽力回答）。

但 Fable 没有把话说死：它不能真正内省自己的权重，也不能确认 serving time （模型被调用的运行时刻）有没有被加 steering vector（引导向量）。

换句话说，如果底层系统真的在模型外部加了某种控制，Fable 自己不一定知道。因为这不是它"内在权重"里能自我感知到的东西，而是平台在调用模型时额外套上的运行时机制。

更让用户破防的是，在被问及大模型或机器学习领域等前沿问题时（包括但不限于推理研究、编程），不仅会偷偷降智（限制回答的有效性），而且仅仅在后台进行，用户端没有任何提示、报错，也不会显示切换模型。

知名半导体研究机构 SemiAnalysis 发文吐糟，这已经影响到了他们的实际工作。

降智却不告知，这已经和"挂羊头卖狗肉"别无二致。

有网友质疑，Claude 用于识别用户"推理和编程研究"意图的审核过滤机制，究竟是为了伦理安全，还是为了竞争防备？

AI 圈的知名研究员、前艾伦研究所（Ai2）的后训练主管 Nathan Lambert 也对此发推表态。他用到的"pull up the ladders"可算传神：

前沿实验室自己已经通过模型能力、数据、工程经验爬上去去了，但当别人也想借助这些模型能力继续往上爬时，他们开始把梯子撤走，防止能力被人赶上。

事实上，Nathan 作为开源模型阵营的重要声音，一直以来并不认同 Anthropic。本月初，他宣布离开艾伦研究所（Ai2）。当业界热炒他是否会加入 Anthropic 快速上升期的技术大流时，他很快给出了否定答案。

核心要点

Fable 5 和 Mythos 5 是同一底层模型的两个版本：底层都是 Mythos-class，性能宣称高于 Opus，但面向公众的 Fable 5 配备了完整安全分类器，而 Mythos 5 几乎不设限制，仅向"可信访问"名单开放
敏感话题自动降级，用户无感知：当问题涉及网络安全、生物、化学、医学等高风险类别时，请求会被无缝转给上一代 Opus 4.8 来回答，或在 API 层返回结构化的拒绝，用户端完全无提示
双重标准与定价策略：Fable 5 的 API 定价为每百万 token 输入 10 美元、输出 50 美元，是 Opus 4.8 的两倍；此外所有 Mythos 级流量强制保留 30 天
三种用户"不可见"的控制机制：prompt 修改（在用户看不见的地方改提示词）、steering vectors（在推理时修改模型的脑回路）、PEFT（临时给模型换上一套被调教过的权重）
与 OpenAI 世界的"蒸汽恩仇史"：今年 2 月 24 日，Anthropic 发博文点名 DeepSeek、月之暗面和 MiniMax，称三家公通过约 2.4 万个马甲账号和 Claude 对话超过 1600 万次，系统性提取了 Claude 的推理、工具调用和编程能力，并给这个行为起了个名字，叫"工业级的蒸汽攻击"

详细内容

1 一个模型，两张外壳

理解了这种"撤梯子"的心态，我们再来看看 Anthropic 这次双模型的葫芦里究竟卖的是什么药？

简单来说，Fable5 和 Mythos 5 就是同一个模型的两种卖法。底座都是 Mythos-class，官方强调这是高于 Opus 的全新能力层级。

面向公众的版本叫 Claude Fable 5，套着完整的安全分类器
几乎不设限的版本叫 Claude Mythos 5，则只向"可信访问"名单开放，目前主要是 Project Glasswing 里的网络安全机构和关键基础设施企业

未来 Mythos 的准入扩大计划，要和美国政府协签着来。

换句话说，你在网页端或 API 里访问 Fable 5 时，拿到的从来不是一个单纯的大模型，而是一个被前置分类器、回调机制、审计日志和数据保留政策，层层包裹的工程化产品。

用户请求进来后，先过分类器：普通的写作、编程、分析，放行，Fable 5 全力作答；一旦命中网络安全、生物化学、模型蒸汽这几个高危类别，请求会被无缝转给上一代的 Opus 4.8 来回答，或者在 API 层返回结构化的拒绝。

在 Anthropic 的官方博客表示，这类触发平均发生在不到 5%的会话里。但光是作者的实际测试效果，都远远不止。

工程细节上，这套系统做得想当成熟。API 被拦截时不出错误，照样返回 OK，只是在返回值里带上 stop_reason: "refusal"，并告知是哪个分类器拦的。

价格方面，如果回答中途发生降级，前半段按 Fable 5 计费，后半段按 Opus 4.8 计费，被退回的请求不收 Fable 的钱。（目前 Fable 的 API 定价为每百万 token 输入 10 美元、输出 50 美元，是 Opus 4.8 的两倍）

配套的还有一条对企业客户影响很大的新规：所有 Mythos 级流量强制保留 30 天，之前签了零数据保留协议的客户也不例外。Anthropic 的解释是，很多套用方式从一两次对话里看不出来，必须把 30 天的上下文连起来审计。

顺便再聊聊 Anthropic 的模型命名。你会发现，模型的名称已经比用户体验更先一步说出了这家公司的产品哲学。

Claude 家族的名字一直自成一派，早年是诗歌派：俳句（Haiku）、十四行诗（Sonnet）、巨著（Opus），按篇幅从小到大。

这次直接跳到了神话派：寓言（Fable）和神话（Mythos）。同一个模型起两个名字分开卖，一个讲给公众的寓言，一个留给少数人的神话。

如果你觉得这套"同源不同权"的玩法眼熟，没错，云厂商的权限分层、芯片的出口管制，走的都是这个逻辑。

只不过过去被管制的是硬件、算力和区域，这次被管制的是模型能力本身。而且地理维度真实存在：Fable 5 提供仅限美国境内推理的版本，输入输出统一按 1.1 倍计价。

模型的使用国度，第一次成了定价参数。

2 从"拒绝你"到"糊弄你"

如果只是给模型加一套分类器和回调机制，圈内的争议不会这么大。拒绝和回调都是显性的，你知道发生了什么，顶多骂一句误伤。

真正点燃舆论的，还是 Anthropic 在厚达 319 页的模型说明文档《System Card: Claude Fable 5 & Claude Mythos 5》里的明文规定。

Anthropic 表示：鉴于近期模型已经具备加速自身研发的能力，我们部署了新的干预措施，针对前沿大模型研发类请求（例如搭建预训练管线、分布式训练基础设施、ML 加速器设计），将限制 Claude 的有效性。

用 Claude 开发竞争模型，则违反服务条款，但通过安全机制来执行这条限制，可以避免加速那些最愿意违反条款的行为者。

此外，与网络安全、生物化学和蒸汽的干预措施不同，这些安全机制对用户"不可见"（will not be visible to the user）。Fable 5 不会回调到其他模型，而是通过 prompt 修改、steering vectors 或参数高效微调（PEFT）等方法来限制有效性。

官方估计，这只影响约 0.03%的流量，绝大多数编程工作不受波及。仍然是一个过于乐观的数字。

简单来说说，Anthropic 使用的这套用户"不可见"的三条机制：

prompt 修改，就是在用户看不见的地方改你的提示词；
steering vectors，则是在推理时修改模型的脑回路；
PEFT，则是临时给模型换上一套被调教过的权重。

SANS Institute 的首席 AI 官 Rob T. Lee 在接受媒体采访时表示，他测试的常规事件响应、威胁检测和基础取证工作流，统统都被自动转给了 Opus 4.8。

如果这个观察在更大范围成立，意味着分类器根本就是在粗略识别"和网络全安沾边"，而不是在区分善意和恶意。

公平地说，Anthropic 没有回避这个问题。官方在发布材料里承认，安全机制被刻意调得保守，比理想状态更严格，良性请求有时也会触发分类器，"我们知道这会让一些用户感到沮丧"，并承诺上线后逐步收紧误报。

态度很端正，但态度解决不了实质问题。

3 已经分不清"模型不会" vs "模型撒谎"

对普通用户来说，回答质量差一点，无非是重新问一遍。但对工程师来说，这件事的性质完全不同。

工程师的日常是靠模型做判断、做设计、调参数、排错误。当结果不对，他的标准动作是怀疑自己：是不是 prompt 没写好，是不是思路错了，是不是这个问题本来就难。

改写、重试、换框架，一轮一轮迭代下去……

这个协作循环，是工程师和工具之间最最基本的信任关系：工具的输出是稳定的，变量在用户这边。

但沉默的模型限制与降智正在摧毁这个信任关系。

当模型在你不知情时被限制有效性，"结果不对"就多了一种你永远无法排除的解释：也许不是我的问题，是它没给我满血版本，是它被做了更多手脚。

你不再分不清"模型不会"和"模型没尽力"，于是每一次失败的原因都被污染。

一位海外开发者的总结很到位：一旦开发工具可以在不告诉你的情况下，停止为你诚实地优化，你就不可能再完全相信你的工具。

此外，还有一个不够诚实的细节，被刻意藏在官方 benchmark 总表的脚注里。

Anthropic 注明：测试分数取 Mythos 5 和 Fable 5 两者中的较高值；带星号的项目（网络安全、生物等）两者差距更大，因为安全机制的拦截，Fable 5 在这些项目上的表现更接近 Opus 4.8。

也就是说，在发布通稿的措辞里，考出高分的是 Mythos，你花双倍价钱买到的却是 Fable，而在某些科目上，Fable 的真实水平接上一代的 Opus。宣传的是标称能力，而用户拿到的，却被减去看不见的系数。

某种程度上而言，Fable 5 的体验都不是一个固定的点，而是一个概率分布。

绝大多数人摸到的是满血区间，少部分人摸到的是降级区间，而你无法事先知道自己处在哪个区间。同一个模型，千人千面，这句话第一次有了字面意义。

4 安全的归安全，生意的归生意？

所以，模型能力的限制边界，到底是安全问题，还是商业竞争问题？

说到这里，就不得不提起 Anthropic 和中国模型公司之间的"蒸汽恩仇史"了。

今年 2 月 24 日，Anthropic 发博文点名 DeepSeek、月之暗面和 MiniMax，称三家公司用约 2.4 万个马甲账号和 Claude 对话超过 1600 万次，系统性提取了 Claude 的推理、工具调用和编程能力，并给这个行为起了个名字，叫"工业级的蒸汽攻击"。

博文还把话题上升到"nation 安全"，称这类行为印证了出口管制的必要性。而在这次 Fable 5 的产品说明文档里，他们同样阴阳怪气了一句"防止来自权国家的大规模蒸汽尝试"。

反转发生在 5 月底。

Opus 4.8 上线当天，就有用户在 API 测试中发现，这个美国最强模型在被问到身份时，会自称通义千问，或者 DeepSeek。网页端问不出来，因为有系统提示词拦着；API 裸调时，它就漏嘴了。

舆论应声反转，控诉者被按上了同一个罪名。

这场"蒸汽恩仇"的背后，其实是两条路线的截然对立：一方面，中国头部模型选择了开放权重，Qwen 和 DeepSeek 在全球被自由下载、微调、商用，使用者里不乏美国公司，向世界单向供血；另一方面，闭源巨头却把"防蒸汽"写进了安全分类器，碰一下就回调。

同一个行为，发生在开源世界叫繁荣，指向闭源模型就成了"攻击"。

透过 Fable 5，可以看到模型行业一个极其残酷的趋向：前沿模型，已经从"统一能力的产品"，走向了"分层供给的特权"。

模型能力强不强，只是第一层竞争；强模型如何被切流、被限制、被审计、被分配给谁，正在成为与能力本身同等重要的"硬核技术"。

能力的边界，不再由技术的极限决定，而由商业的规则决定。 画定规则的笔，正以"安全"之名，牢牢握在模型公司自己手里。