ClaudeOpusAI模型编程

Opus 4.8 刚发布,被DHH和Redis之父当场拆台:跑分赢了GPT-5.5,但编码王座不稳了

Tina··原文链接
收录于 2026/5/30 09:35:10

发布概览

5 月 28 日深夜,Anthropic 发布旗舰模型 Opus 4.8。重点不只是模型跑分,而是围绕 Claude Code 增加了两个能力:dynamic workflowsfast mode

Claude Opus 4.8 升级的三个重点

1. Dynamic Workflows:大规模编排 subagents

本质:一段 JavaScript 脚本,用来大规模编排 subagents。

工作方式

  • 用户描述任务后,Claude 编写脚本并在后台执行
  • 当前 session 仍可保持响应,不会因 agents 在后台工作而卡住
  • 任务计划被转移到代码里,中间结果保存在脚本变量里
  • Claude 上下文只保留最终答案

与 subagents/skills 的区别

  • 任务计划在代码中,而非塞在上下文窗口
  • 中间结果保存在脚本变量里

限制

  • 最多 16 个 agents 并发运行
  • 单次运行的 agents 总数上限 1000 个
  • workflow 脚本本身不能访问文件系统或 shell,只有 agents 可以

案例:Jarred Sumner 用 dynamic workflows 对 Bun 进行从 Zig 到 Rust 的移植,通过 99.8% 测试套件,生成约 75 万行 Rust 代码,历时 11 天。

2. 思考强度控制

用户可以调高或调低 Claude 在任务中投入的推理资源:

  • 高思考强度:更频繁、更深入地思考,给出更好的回答
  • 低思考强度:更快给出回应,消耗 rate limit 的速度也更慢

3. Fast Mode 降价

  • Opus 4.8 快速模式价格降至:每百万输入 token 10 美元、每百万输出 token 50 美元
  • Opus 4.7 快速模式价格:30 美元 / 150 美元
  • 快速模式下生成 token 速度约为正常速度的 2.5 倍
  • API 访问目前仍有限制,需申请 waitlist

基准测试表现

总体领先

  • Agentic coding:69.2%(Opus 4.7: 64.3%,GPT-5.5: 58.65%,Gemini 3.1 Pro: 54.2%)
  • Agentic compute use:83.4%(GPT-5.5: 78.7%,Gemini 3.1 Pro: 76.2%)

关键短板

Agentic terminal coding:仍输给 GPT-5.5,比 OpenAI 的模型低了 3.6 个百分点。

社区争议:基准测试 vs 真实体感

DHH 的质疑

DHH 在 X 上表示,自 Opus 4.5 以来,没有哪个模型像 GPT-5.5 这样让他反复出现"难以置信它已经这么好"的时刻。

antirez 的批评

Redis 作者 antirez 认为 Anthropic 犯了"重大战略错误":

  • 在很多人已感受到 GPT-5.5 编码能力很强的情况下
  • Anthropic 把 GPT-5.5 放进同一组对比里
  • 反而让客户看到基准测试和真实使用体验之间可能并不一致

核心问题:如果 Anthropic 明知道 GPT-5.5 在编码上比 Opus 4.7 强得多,即使后者在某些基准测试中得分更高,却仍然把这些数字呈现为"模型更强"的证明,就会让用户感到困惑。

用户反馈

网友 Chubby 评价:Opus 4.8 显然是一个很强的模型,但他的印象是 Anthropic 正越来越像是在追赶 OpenAI,而不是继续定义节奏。GPT-5.5 似乎再次抬高了基准。

Opus 这一年:从"封王"到变相涨价争议

时间线

  • 2025年5月:Opus 4 发布,称为"世界上最好的编程模型"
  • 2025年8月:Opus 4.1 发布,小更新
  • 2025年11月:Opus 4.5 发布,重夺编程王冠
  • 2026年2月:Opus 4.6 发布,100万 token 上下文窗口,因定价调整遭批评
  • 2026年4月:Opus 4.7 发布,视觉、记忆、指令遵循提升,但出现自相矛盾回答

当前挑战

  • Claude Code agent view 未让开发者买账,被评价为"减少了一些摩擦,但没有改变底层问题"
  • 6月15日起对 Agent SDK 使用量进行拆分计费
  • 用户对额度、价格、模型稳定性和产品体验的持续不满

更诚实的 AI?

Anthropic 表示 Opus 4.8 在"支持用户自主性"和"按照用户最佳利益行事"方面都有提升:

  • 欺骗率和配合滥用请求的比例比前代模型"显著更低"
  • "大约低四倍概率会对自己写出的代码中的缺陷视而不见、不加说明"

定价对比

  • Opus 4.8 常规模式:每百万输入 token 5 美元、输出 token 25 美元
  • Opus 4.8 快速模式:每百万输入 token 10 美元、输出 token 50 美元
  • GPT-5.5:仍高于 Opus 4.8

参考链接