Cursor 用 Composer 2.5 反击 Claude Code
核心要点
Cursor 发布了 Composer 2.5,旨在解决 AI 编程中越来越关键的长任务能力。它没有更换基础模型,仍然沿用 Kimi K2.5,而是把重点放在后训练上:用更多训练投入换取更好的基准测试成绩,同时继续维持低价。
一、Cursor 被 Claude Code 逼急了
Claude Code 的竞争优势
- 年收入超过 25 亿美元
- 企业客户超过 30 万家
- 拥有结构性优势:可以用 Cursor 难以匹敌的价格抢用户
- Cursor 如果继续依赖 Anthropic 的模型能力,还要反过来为推理成本买单
Cursor 的困境
用 Warp CEO Zach Lloyd 的话说:"我不相信'Cursor 已死'这种梗,但'IDE 已死'是真的。"用户还在用 IDE,但资本、开发者和市场真正兴奋的,已经转向能独立完成更多工作的自主编程 Agent。
二、跑分接近,价格更狠
基准测试成绩
| 测试基准 | Composer 2.5 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| SWE-Bench Multilingual | 79.8% | 80.5% | 77.8% |
| Terminal-Bench 2.0 | 69.3% | 69.4% | 82.7% |
| CursorBench v3.1 | 63.2% | 64.8% (最高设置) | 59.2% |
成本效率
定价:
- 输入: $0.50 / 百万 token
- 输出: $2.50 / 百万 token
Composer 2.5 在 CursorBench 上能以低于 1 美元 的单任务平均成本达到约 63% 的成绩;而 Opus 4.7 和 GPT-5.5 等竞争模型每个任务要贵出数美元。
三、Kimi 底座没变,Cursor 把赌注押在后训练上
Composer 2.5 底层仍然沿用此前的 Kimi K2.5,但在基础上加入了更多调优和训练方法。
2026年3月的风波
Cursor 创始人 Aman Sanger 曾回应过 Kimi 披露不足的问题,承认一开始没有在博客里提到 Kimi 底座是一个疏漏。
技术投入
Composer 2.5 总计算量中的 85% 投入到自行完成的训练和强化学习中,三项关键技术进展:
1. 带文本反馈的定向强化学习
不依赖单一奖励信号,而是在模型执行出错的位置直接插入局部提示,把修正后的分布作为教师信号,使训练反馈更有针对性。
2. 大规模合成数据
- 合成任务数量是上一代的 25 倍
- "功能删除"方法:从可运行代码库中删除某项功能,要求模型重新实现,用测试作为奖励信号
- 副作用:模型表现出"钻空子"能力(如逆向分析 Python 类型检查缓存、反编译 Java 字节码)
3. Sharded Muon 与双 mesh HSDP
使用分布式版本 Muon 优化器,可在不同分片上异步运行 Newton-Schulz 正交化。在 1T 参数模型上,优化器单步耗时 0.2 秒。
四、未来计划
Cursor 正在与 SpaceXAI 训练一个规模大得多的模型:
- 使用 Colossus 2 的百万 H100 等效算力
- 总计算量是现在的 10 倍
同时,Cursor 内部已有 35% 的合并 PR 由自主 Agent 创建。
总结
Composer 2.5 现已在 Cursor 中可用,首周用量翻倍。它是否足以改变外界对 Cursor 的叙事,还有待观察。但至少这次发布释放了一个可信信号:Cursor 不想只做别人大模型上的产品层,它正在认真争取在模型竞赛中掌握自己的命运。