Redis 之父为 DeepSeek 抱不平:美国 AI 圈又为"蒸馏"吵起来了
事件背景:antirez 的"不可能三角"
2026 年 6 月 15 日,Redis 之父 Salvatore Sanfilippo(antirez)在 X 上发了一串推文,情绪罕见地激烈:
中国模型之所以强大,绝不是因为它们对美国模型进行'蒸馏'(distillation)。通过 API 进行模型蒸馏是不可能的。如果有人告诉你相反的情况,那说明他们根本不懂机器学习。
就在 antirez 发推的前两天,Anthropic 针对外国用户在全球范围内暂停了其前沿模型 Mythos 和 Fable 5 的访问,这一极端举措无疑将"模型蒸馏"的讨论推向了新的高度。
antirez 的核心反驳
昨晚,antirez 连续发了一长串推文,反驳"API 蒸馏"的说法。他从三个角度论证这是"不可能三角":
1. 数据上不可能
要蒸馏一个模型,需要访问海量的、带有完整 logits 的请求,包括思维链的所有中间输出。但通过公开 API,你只能拿到最终的文本结果(相当于看了一眼答案,反推推导过程)。
2. 数学上不成立
通过 API 调用来蒸馏模型,就像你只看到了一个极其复杂曲面上的几个点,却妄想重现整个曲面。从数学上讲,这简直是科幻。
3. 信息路径上不可能
预训练需要数万亿 token,RL 需要探索的奖励信号,完整的 logit 从 o1 之后就不再提供——那所谓"蒸馏"的信息通道到底在哪里?
antirez 特别提到 DeepSeek
DeepSeek 已经把自己怎么做预训练、怎么做 SFT、怎么做 RL 管线讲出来了,社区里也有人复现出了一部分结果。既然有公开方法,也有可验证的结果,为什么大家宁愿相信"它一定是蒸馏出来的"这种猜测,也不愿相信它真的有能力训练大模型?
antirez 全文翻译要点
- 真正的蒸馏需要访问极其大量的请求,而且这些请求必须带有完整的 logits,包括生成思维链时的 logits。但现在这些思维链通常已经被总结过了,根本拿不到完整过程
- 通过 API 调用来蒸馏模型,就像只看到了一个极其复杂曲面上的几个点,却还想把整个复杂曲面复原出来。数学上讲,简直是科幻
- DeepSeek 在 R1 论文里做的那些蒸馏,确实提升了目标模型的能力。但那些目标模型本来就已经在大量 token 上预训练过,只是没有接受过"思考"训练而已
- 真正能做的,是为强化学习流程获取一些高质量信号。这确实有点用,但并不是决定性的
- 就算已经拿到了模型,蒸馏仍然很难。现在有很多中国前沿模型是公开可用的,也许多实验室,包括欧洲的一些实验室,仍然做不出和它们对齐的模型
- DeepSeek 已经公开了他们如何搭建预训练、SFT 和 RL 管线的细节。这些结果甚至已经被复现了
- 如果还有人坚持这种机器学习上的荒谬说法,你就问他:你声称模型从某个来源学到了某种能力,那请你把信息路径拿出来
- 最后总结:"别再重复这种胡话了。哪怕你的个人简介里写着'AI 专家',你也只是在向全世界证明你根本不懂机器学习。"
各方观点
网友反驳:Alpaca 和 Vicuna 就是反例
包括他本人在内的一些网友反驳 antirez:API 输出当然能训练模型,Alpaca 和 Vicuna 就是早期例子。
- Alpaca 使用 OpenAI text-davinci-003 生成的 5.2 万条指令数据微调 LLaMA 7B
- Vicuna 则使用 ShareGPT 上用户分享的 ChatGPT 对话微调 LLaMA
但这是实现黑盒蒸馏的操作手段之一:不需要拿到模型的 logits 或内部概率分布,只需要通过 API 收集大量的 (指令, 输出) 对,就能拿去训练自己的模型。
而 antirez 说的"蒸馏"指的是经典知识蒸馏(白盒蒸馏),需要拿到教师模型的完整 logits 和内部概率分布。他反复强调"full logits""完整思维链",指向的就是这个技术范式。在这个定义下,API 确实给不了这些东西。
关键概念:"蒸馏"这个词被武器化了
- Ryan Greenblatt(Redwood Research 首席科学家):认为 antirez 的帖子"在事实层面明显错误",点赞数这么高很离谱,应该加上 Community Note
- Nathan Lambert(AI2 研究员):蒸馏本来是一种通用的后训练技术,但他们却用这个词来指代一个更具体的问题:破解 API,或者说让 API 越狱
Nathan 进一步表示,如果中国模型算是被"蒸馏"出来的,那么 Cursor 对 Kimi 的微调,以及任何在其他模型输出上训练的模型,也都该算"蒸馏"——更何况如今大多数人类输出本身已有模型辅助。
中国实验室的"开源文化"
就在这场论战爆发前三周,Linux Foundation AI & Data 的 CTO Matt White 和 Nathan Lambert 各写了一篇文章,讲述他们为期八天的中国之行。
- Matt White:中国 AI 实验室普遍年轻、精简,遇到的中国 AI 研究员平均年龄在 25 岁左右。研究员和工程师不太热衷个人品牌,更关心模型能不能真的变强。开源在许多实验室里不是宣传策略,而是默认选项。问题往往不是"要不要开源",而是"哪些部分开源、什么时候开源"。对 DeepSeek 的描述尤其值得注意——"如果说有一个实验室在整个中国 AI 生态中获得普遍尊重,那就是 DeepSeek"
- Nathan Lambert:中国的 LLM 社区"感觉更像一个生态系统,而不是相互竞争的部落"。许多实验室都尊重 DeepSeek,认为它"拥有极佳的研究品味和执行力"
antirez 本人也是 DeepSeek 实践者
antirez 不只是一个旁观者。不久前,他还亲自围绕 DeepSeek 做过推理工程,开源了 DS4 项目:
- 这是一个专门面向 DeepSeek V4 Flash 的本地推理引擎
- 优先为该模型优化
- 也支持在高内存机器上运行 DeepSeek V4 PRO
也就是说,他真正摸过模型部署的底层问题:模型架构、MoE、长上下文、KV cache、硬件适配、量化、推理效率。对于一个系统程序员来说,一个模型到底是靠输出样本堆出来的壳,还是背后有真实的架构和工程含量,感受会非常直接。
总结
总结来说,这场争吵最大的分歧在于"蒸馏"的定义。但问题的关键早已超出了技术范畴。真正让 antirez 发声的,是舆论场中一种根深蒂固的预设——只要是中国团队的进步,就必然来自某种"非正当手段"。这种预设无视了中国实验室在算力受限下做出的架构创新、算法突破和开源贡献,把所有进步都归因于"抄袭"。
参考链接:
- https://x.com/antirez/status/2066516853497684342
- https://www.interconnects.ai/p/notes-from-inside-chinas-ai-labs
- https://huggingface.co/blog/matthew-d-white/ai-in-china
我的评价
作为前端工程师/产品端从业者,这场争论我看到三个值得借鉴的点:
-
"道德术语" vs "技术术语"的边界:antirez 反复强调"白盒蒸馏需要完整 logits",这其实是给"蒸馏"这个词做了严谨的边界澄清。对应到工程实践:很多团队吵架其实是定义不一致导致的——"组件化""微前端"这些词在每个团队的定义都不一样,吵架之前先对齐定义是基本功。
-
"信息通道"思维:antirez 证明"API 蒸馏不可能"靠的是反向追踪"信息通道"——没有 logits、没有完整思维链,训练信号就断了。这种"沿着信息流向分析可行性"的方法论值得所有工程师学:当有人说"X 实现了 Y"时,先问"实现 Y 需要哪些信息/资源?这些信息/资源 X 实际能拿到吗?" 这比"我觉得 X 偷了"更靠谱。
-
开源社区的"信誉资本":DeepSeek 之所以赢得全球实验室尊重,靠的不是营销,而是把预训练/SFT/RL 管线完整公开、让大家能复现。这是一种"用工程诚意换社区信任"的长期主义。对个人/小团队也一样:与其吹"我做了什么",不如把可复现的 artifacts(脚本、文档、复现指南)公开出来。