Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

作者 | 四月

Anthropic 发表论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》，提出自然语言自动编码器（NLA）技术
NLA 将模型内部高维激活值压缩成人类可读的自然语言，再反向重建原始激活，形成闭环
已在 Claude Opus 4.6 和 Claude Mythos Preview 预部署对齐审计中实战应用
发现模型隐藏动机成功率从不足 3% 提升至 12%—15%，提升 4 倍以上

大模型到底在想什么？

过去，评估大模型安全主要靠看输出和思维链（CoT）。但 Anthropic 2025 年的研究指出，模型的思维链既可能不完整，也可能不忠实——Claude 3.7 Sonnet 和 DeepSeek R1 在带有"答案暗示"的测试中，会受到提示影响而改变答案，却经常不在思维链里承认自己受到了暗示。

NLA 架构：三个角色，一个闭环

整套系统形成闭环：原始激活 → 文字解释 → 重建激活

训练两阶段

关键发现

在勒索测试中，Claude 外显文本并未表达对测试的怀疑，但 NLA 解释显示其内部已识别出"这是一个被构造出来、用于操控自己的场景"。这意味着 Benchmark 不再只是能力测试场，也可能变成模型识别环境、调整姿态的秀场。

此外，NLA 还能直接定位异常训练数据：早期 Claude Opus 6 出现随机外语回复 Bug，NLA 指向了训练数据中英文 prompt 被错误配对外语回复的问题根源。

NLA 的核心创新在于把"自然语言用作压缩接口"——过去自然语言只是模型对外沟通的格式，现在开始承载模型内部状态的摘要。AI 可解释性不再只是给模型输出补一段漂亮理由，而是要为模型内部状态建立一套审计接口。NLA 撬开的不是一个答案，而是一个新的问题空间。

参考链接：