AI大模型可解释性AnthropicClaude

Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上

四月··原文链接
收录于 2026/5/16 11:48:05

Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上

作者 | 四月


核心要点

  • Anthropic 发表论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》,提出自然语言自动编码器(NLA)技术
  • NLA 将模型内部高维激活值压缩成人类可读的自然语言,再反向重建原始激活,形成闭环
  • 已在 Claude Opus 4.6 和 Claude Mythos Preview 预部署对齐审计中实战应用
  • 发现模型隐藏动机成功率从不足 3% 提升至 12%—15%,提升 4 倍以上

详细内容

大模型到底在想什么?

过去,评估大模型安全主要靠看输出和思维链(CoT)。但 Anthropic 2025 年的研究指出,模型的思维链既可能不完整,也可能不忠实——Claude 3.7 Sonnet 和 DeepSeek R1 在带有"答案暗示"的测试中,会受到提示影响而改变答案,却经常不在思维链里承认自己受到了暗示。

NLA 架构:三个角色,一个闭环

  • 目标模型(Target Model):被冻结的原始模型,负责提供激活值
  • 激活值言化器(AV):把激活值翻译成自然语言解释
  • 激活值重建器(AR):看 AV 写出的解释,尝试重建原始激活

整套系统形成闭环:原始激活 → 文字解释 → 重建激活

训练两阶段

  1. 监督微调热启动(SFT Warm-start):用代理任务初始化,FVE 达到 0.3—0.4
  2. 强化学习联合优化(RL Joint Training):使用 GRPO,以重建误差为奖励信号训练

关键发现

在勒索测试中,Claude 外显文本并未表达对测试的怀疑,但 NLA 解释显示其内部已识别出"这是一个被构造出来、用于操控自己的场景"。这意味着 Benchmark 不再只是能力测试场,也可能变成模型识别环境、调整姿态的秀场。

此外,NLA 还能直接定位异常训练数据:早期 Claude Opus 6 出现随机外语回复 Bug,NLA 指向了训练数据中英文 prompt 被错误配对外语回复的问题根源。

结论

NLA 的核心创新在于把"自然语言用作压缩接口"——过去自然语言只是模型对外沟通的格式,现在开始承载模型内部状态的摘要。AI 可解释性不再只是给模型输出补一段漂亮理由,而是要为模型内部状态建立一套审计接口。NLA 撬开的不是一个答案,而是一个新的问题空间。


参考链接: