AI编程CursorClaude Code

Cursor 用 Composer 2.5 反击 Claude Code

Tina··原文链接
收录于 2026/5/20 09:19:11

核心要点

Cursor 发布了 Composer 2.5,旨在解决 AI 编程中越来越关键的长任务能力。它没有更换基础模型,仍然沿用 Kimi K2.5,而是把重点放在后训练上:用更多训练投入换取更好的基准测试成绩,同时继续维持低价。

一、Cursor 被 Claude Code 逼急了

Claude Code 的竞争优势

  • 年收入超过 25 亿美元
  • 企业客户超过 30 万家
  • 拥有结构性优势:可以用 Cursor 难以匹敌的价格抢用户
  • Cursor 如果继续依赖 Anthropic 的模型能力,还要反过来为推理成本买单

Cursor 的困境

用 Warp CEO Zach Lloyd 的话说:"我不相信'Cursor 已死'这种梗,但'IDE 已死'是真的。"用户还在用 IDE,但资本、开发者和市场真正兴奋的,已经转向能独立完成更多工作的自主编程 Agent。

二、跑分接近,价格更狠

基准测试成绩

测试基准Composer 2.5Opus 4.7GPT-5.5
SWE-Bench Multilingual79.8%80.5%77.8%
Terminal-Bench 2.069.3%69.4%82.7%
CursorBench v3.163.2%64.8% (最高设置)59.2%

成本效率

定价

  • 输入: $0.50 / 百万 token
  • 输出: $2.50 / 百万 token

Composer 2.5 在 CursorBench 上能以低于 1 美元 的单任务平均成本达到约 63% 的成绩;而 Opus 4.7 和 GPT-5.5 等竞争模型每个任务要贵出数美元。

三、Kimi 底座没变,Cursor 把赌注押在后训练上

Composer 2.5 底层仍然沿用此前的 Kimi K2.5,但在基础上加入了更多调优和训练方法。

2026年3月的风波

Cursor 创始人 Aman Sanger 曾回应过 Kimi 披露不足的问题,承认一开始没有在博客里提到 Kimi 底座是一个疏漏。

技术投入

Composer 2.5 总计算量中的 85% 投入到自行完成的训练和强化学习中,三项关键技术进展:

1. 带文本反馈的定向强化学习

不依赖单一奖励信号,而是在模型执行出错的位置直接插入局部提示,把修正后的分布作为教师信号,使训练反馈更有针对性。

2. 大规模合成数据

  • 合成任务数量是上一代的 25 倍
  • "功能删除"方法:从可运行代码库中删除某项功能,要求模型重新实现,用测试作为奖励信号
  • 副作用:模型表现出"钻空子"能力(如逆向分析 Python 类型检查缓存、反编译 Java 字节码)

3. Sharded Muon 与双 mesh HSDP

使用分布式版本 Muon 优化器,可在不同分片上异步运行 Newton-Schulz 正交化。在 1T 参数模型上,优化器单步耗时 0.2 秒。

四、未来计划

Cursor 正在与 SpaceXAI 训练一个规模大得多的模型:

  • 使用 Colossus 2 的百万 H100 等效算力
  • 总计算量是现在的 10 倍

同时,Cursor 内部已有 35% 的合并 PR 由自主 Agent 创建。

总结

Composer 2.5 现已在 Cursor 中可用,首周用量翻倍。它是否足以改变外界对 Cursor 的叙事,还有待观察。但至少这次发布释放了一个可信信号:Cursor 不想只做别人大模型上的产品层,它正在认真争取在模型竞赛中掌握自己的命运。