智谱创始人唐杰隔空对话马斯克:赶超 Claude Fable 5 不用等到 2027 年
文章正文
核心要点
- 网友发问"GLM-5.2 何时能追平 Fable 级别",引爆 X 上的中美模型差距讨论。
- 技术 KOL Teortaxes 给 GLM-5.2 定位在 Claude Opus 4.7–4.8 水平,推断中美差距约 7 个月,预计中国对标 Mythos 完整版需 2026 年 11–12 月。
- 马斯克回应认为可能更晚,"或在 2027 Q1"。
- 唐杰一句"不会那么久"暗示智谱年内即可实现跨越,将自身定位推向"中国版 Anthropic"。
- 上周 Anthropic 发布 Claude Fable 5,因背地降智、地域限制等遭批;智谱随即发布 GLM-5.2,以 51 分登顶开源权重模型,领先 MiniMax-M3(44)、DeepSeek V4 Pro(44)、Kimi K2.6(43),并以 MIT 协议全量开源。
对话主要内容(按时间/主题分段)
1. 起因:网友追问中美差距 有用户在 X 提问:"你认为中国何时才能达到 Fable 级别?GLM-5.2 肯定会缩短差距。"
2. Teortaxes 给出量化估算 他评 GLM-5.2 大致等同于 Claude Opus 4.7–4.8(视觉理解另算,并指 Opus 在视觉上同样不行)。以 Mythos 系列 2026 年 2 月初已达 Preview 级别为参照,按 Claude 追赶速度推算,中国想推出"对标 Mythos 完整版"的模型大约要到 2026 年 11–12 月。
3. 马斯克入场 马斯克吃瓜评论:可能再晚一个季度,"或在 2027 Q1"。
4. 唐杰低调"秀肌肉" 被点名的 GLM-5.2 主帅唐杰回应:"不会那么久"——暗示以智谱为代表的国内大模型有望年内跨越。
5. 评论区分裂为两派
- 兴奋派:GLM 体量能跑出当前成绩已经很猛,年底 GLM-6 值得期待。例:GLM-5.1 在全球 Harvey 法律 Agent 评测中曾零分,GLM-5.2 已冲进前三。
- 冷静派:Benchmark 与生产环境是两场不同游戏。GLM-5.2 标称百万级上下文,但客户端可用长度与名义上限差距明显。
- 马斯克部分认同冷静派:年底 Benchmark 上追平有可能,但若按真正实用性衡量,即便 Q1 也已经很了不起。
6. Anthropic 路线对比与"中国版 Anthropic"叙事 作者引唐杰观点:Anthropic 把重心放在"有用的智能",不会只体现在 Benchmark 分数上而会反映在收入。两家公司均带极强学院/研究派创立基因,注重底层创新;Anthropic 从 B 端 Coding 市场突围,构建陡峭增长曲线,与同样主打 B 端的智谱高度相似。
7. 多模态:下一战场 唐杰上月已预告"原生多模态数月内上线"。Kimi K2.5(1 月底)、阿里 Qwen3.5-Omni(3 月)、GPT-4o(去年 4 月)均已落地原生多模态架构,智谱在这一维度仍需明确答案。文章作者强调,要追赶 Fable 5,不仅需把预训练推到万亿级参数,更难的是后训练阶段实现部分自我训练与自我迭代。
8. 终局:达里奥的 2028 报告 Anthropic CEO 达里奥在 5 月《2028: Two scenarios for global AI leadership》中给出两个假设:美国及盟友守住领先,或中国追到与美国并驾齐驱。报告呼吁通过堵芯片走私、海外数据中心接入与蒸馏攻击三大漏洞,把美国领先优势锁定在 12–24 个月之内。即 2028 年 1 月,中国最好模型最多追到美国 2027 年 1 月水平——差一整年起步。
关键观点 / 金句
- 唐杰:"不会那么久。"
- 马斯克:"可能在 2027 Q1。"
- Teortaxes:Benchmark 与生产可用性是两场游戏。
- 作者评:"多模态不是功能附加,而是 Agent 真正落地的前提。"
- 智谱叙事:从开源生态 + B 端 Coding 杀出,对标 Anthropic 商业模型;近五个工作日股价累计上涨 99.81%,几近翻倍。
我的看法(编辑判断)
-
"不会那么久"是营销修辞而非方法论。 唐杰对一个第三方 KOL 用 Mythos 内部时间线逆推得到的估算,回了句"不会那么久"。这既无具体路线图,也无可验证的 milestones,本质是社交媒体上一次低成本人设动作。把它升级为"年内跨越"的解读,是 InfoQ 的二次叙事,不是当事人承诺。
-
Benchmark 选择偏差被刻意淡化。 "GLM-5.2 51 分登顶开源权重模型"——文中没说明是哪个榜,没说测试方法、对手版本号是否对齐、是否包含闭源旗舰。开源权重榜本身就把 Claude/Gemini/GPT 排除在外,"登顶"几乎是定义性结果而非能力宣告。Harvey 法律榜从零分到前三的跃升同样可疑:榜单分布与样本配置常常 6 个月就大改一次。
-
"赶超 Claude/Grok"叙事忽略了三个非对称维度。 (a)多模态:作者自己也承认智谱原生多模态尚未落地,而 OpenAI 早在去年 4 月就闭环;(b)后训练 / 自我迭代能力:这是 Fable 5 真正拉开差距的地方,参数规模并非主要瓶颈;(c)算力与高质量数据获取受限,达里奥报告中的"芯片+数据中心+蒸馏"三道闸恰恰锁死的就是后训练侧的可扩展性。仅靠预训练和开源策略追平文本 Benchmark,并不等于追平能力。
-
"中国版 Anthropic"是叙事捷径,不是事实定位。 Anthropic 营收结构、Claude Code 在企业市场的渗透率、Constitutional AI 的安全研究产出——这些是其估值锚。智谱目前的 B 端故事更接近"开源驱动的 API 平台 + 政企集成",与 Anthropic 的订阅 + 企业 Coding 模式有本质差异。把股价五日涨 99.81% 作为"对标成立"的佐证,混淆了二级市场情绪与基本面。
-
真正值得追问的不是"何时追平",而是"追平什么"。 如果衡量标准是开源权重通用文本任务,答案可能确实是数月;如果是 Coding agent 在真实代码库上的端到端通过率、长程多模态规划、Tool-use 的鲁棒性,差距可能没有缩短甚至扩大。把所有讨论压成一个时间标量("7 个月" / "Q1 2027" / "不会那么久"),是 X 上的传播简化,不应被产业报道照搬。