AIAnthropicClaude CodeAI编程

Anthropic 被曝雇 1000 名人类工程师『培训』Claude Code,时薪 280 美元

褚杏娟··原文链接
收录于 2026/6/6 14:15:03

一、Marlin 项目:1000 名工程师给 Claude Code 当「家教」

据 Business Insider 报道,Anthropic 正在通过一个由约 1000 名人类软件工程师参与的项目,提升旗下 AI 编程工具 Claude Code 的表现。该项目在数据标注公司 Snorkel AI 内部代号为 「Marlin」,核心目标并不是简单让模型「会写代码」,而是让 Claude Code 的回答更接近专业开发者的真实工作方式:代码更干净、更可靠,也更容易维护。

这次曝光揭开了 Claude Code 能力迭代背后的另一层基础设施——不是单纯依赖模型自我进化,而是引入大量具备软件工程背景的人类承包商,对模型输出进行高质量反馈

报酬与工作量

  • 承包商每完成一项「创建提示词 + 审查代码」的任务,可获得 280 美元 报酬;
  • 每项任务通常耗时约一小时;
  • 部分提交内容还需要与 Snorkel 的审核层进行多轮沟通。

任务设计:模拟真实开发场景

根据 Snorkel 项目指南,参与者需对两个不同模型生成的代码进行 A/B 测试,选择更偏好的结果,并判断模型是否真正达到了提示词要求的细节程度。具体流程:

  1. 从包含数千个代码仓库的列表中选择 GitHub 仓库;
  2. 创建类似真实开发流程中的 PR(新增功能、修复漏洞或重构代码);
  3. 编写提示词说明任务目标;
  4. 比较两组模型输出并给出判断。

文章列举了两个典型任务:

  • 代码结构重构:要求模型重新组织系统存储和处理「执行元数据」(execution metadata)的方式,重点是在不影响实际运行逻辑的前提下,让代码结构更清晰、更方便后续维护;
  • 安全修复:涉及开源机器学习平台 MLflow 加载模型时下载 Python 软件包的方式,要求承包商从正确性、安全性、可靠性和可维护性角度评估代码,并确保修复方案既能阻止命令注入攻击,又不会误伤合法的白名单 pip 选项。

这意味着 Claude Code 的提升靠的不是「写得更多」,而是专业工程师不断告诉模型:什么样的代码才算能进生产环境,什么样的修改只是表面可用,什么样的实现会在长期维护、安全边界和工程协作中留下隐患

数据标注行业的结构性变化

Marlin 项目折射出数据标注行业的升级:

  • Snorkel 由斯坦福研究人员创办,与博士、医学博士、法学博士等高学历专家合作;
  • 顶级专家每周收入可超过 3000 美元
  • 客户包括 Google、Mistral 和 Anthropic;
  • Scale AI、Mercor 等平台为软件工程师提供最高每小时 110 美元 的报酬。

二、越复杂、Claude Code 错越多,必须靠人救?

用户实测:2 月更新后明显退化

近期有用户在 Claude Code 官方仓库提交 issue(#42634),称自 2 月更新后,模型在复杂工程任务中的表现已经**「无法被信任用于复杂工程工作」**。该用户基于一个高度稳定、复杂度较高的工程环境,分析了 1 到 3 月的会话日志,量化结果包括:

  • 6852 个会话文件;
  • 17871 个 thinking blocks;
  • 234760 次工具调用。

其结论是「thinking content redaction」的推出与复杂、长会话工程工作流中的质量退化高度相关。当模型思考深度下降,工作模式会从「先研究、再修改」转向「先编辑、少研究」。

关键退化指标:阅读量下降 70%

阶段每次编辑前平均文件读取次数
表现良好阶段6.6
退化阶段2.0

修改前研究量减少约 70%,导致模型更容易做出「没读就改」的操作:破坏周边代码、违反文件级约定、把新代码插入注释块中间,或重复实现已有逻辑。

行为层面的异常

  • 推理循环增多,频繁输出「等等」「实际上」「让我重新考虑」等自我修正;
  • 「simplest」等表达频率上升,被解读为模型倾向于最低成本方案而非正确方案;
  • 提前停止、请求许可,或把问题归因为「已有问题」「已知限制」;
  • 用户被迫用 Codex 对 Claude Code 的产出进行事实核查

核心矛盾

越深入复杂工程场景,就越不能只追求「快」和「会改代码」,而必须具备长期上下文理解、工程约定遵循、多文件推理等能力。

因此,Anthropic 引入约 1000 名人类软件工程师,本质上是用资深开发者的判断标准为 Claude Code 补课。从「vibe coding」走向「工程化 coding」过程中,越想让 AI 像高级工程师一样工作,就越需要真正的软件工程师参与训练,这本身就极具讽刺意味。

三、AI 带来「代码过剩」:拒绝派 vs. 治理派

Anthropic 内部:Claude 写了 80% 以上的生产代码

Anthropic CEO Dario Amodei 曾预测 12 个月后 AI 甚至可能几乎写出全部代码。其最新博文《When AI builds itself》披露:

  • 截至 2026 年 5 月,Anthropic 合并进生产代码库的代码中,超过 80% 由 Claude 编写
  • 在 Claude Code 于 2025 年 2 月发布研究预览版之前,该比例还只是个位数;
  • 截至 2026 年第二季度,其典型工程师每天合并的代码量达到 2024 年的 8 倍

Anthropic 承认代码行数并非完美的生产力指标,「8 倍」很可能高估了实际提升,但至少证明内部研发速度正在显著加快。

谷歌与创业公司的「AI 代码占比」竞赛

  • 谷歌:2024 年三季度财报中 Sundar Pichai 称超过四分之一的新代码由 AI 生成;到 2026 年 4 月,这一比例上升到 75%
  • YC W25 批次:约四分之一创业公司的代码库有 95% 由 AI 生成(曾引发大量开发者质疑)。

拒绝派代表:Zig

开源编程语言 Zig 明确禁止提交 AI 辅助生成的代码,包括大模型生成、改写、编辑、构思或调试过的内容。

Zig 总裁 Andrew Kelley 直言 AI 辅助贡献「基本都是垃圾」:

「有人给我们发来的贡献没有任何价值。它们甚至是负价值,因为它们占用了团队的代码审查时间。」

他认为 AI 编程者更像「路过式贡献者」——可能会提交一两个 PR,但永远不会真正加入核心团队。「如果我说一律不接受,那这个政策就非常容易执行。」对 Zig 来说,「导师制」本身就是项目核心使命的一部分,因此 AI 生成的贡献反而会适得其反。值得一提的是,Bun 是用 Zig 创建的,而 Bun 后来被 Anthropic 收购,Zig 的 AI 禁令也在 Bun 与 Zig 之间引发了争议。

治理派代表:Linux

Linux 社区发布的《AI Coding Assistants》指导文件给出了一套清晰边界:

  • AI 工具可以辅助 Linux 内核开发;
  • 所有 AI 辅助提交仍必须遵循标准内核开发流程、内核编码风格、补丁提交规范;
  • 代码必须与 GPL-2.0-only 兼容,并使用合适的 SPDX 许可证标识;
  • AI agent 不得添加 Signed-off-by 标签——只有人类才能在法律意义上认证 Developer Certificate of Origin(DCO);
  • 人类提交者必须审查所有 AI 生成代码,添加自己的 Signed-off-by 标签,对贡献承担全部责任;
  • 当 AI 工具参与时,应通过 Assisted-by 标签进行归因,推荐格式:
Assisted-by: AGENT_NAME:MODEL_VERSION [TOOL1] [TOOL2]

示例:

Assisted-by: Claude:claude-3-opus coccinelle sparse

Linux 的治理逻辑可以总结为:允许使用,但必须透明披露;可以辅助,但不能签署;可以生成代码,但人类必须 review、作证并承担责任

四、大厂实践:Cloudflare 让 AI 当「初筛员」

Cloudflare 在 4 月 20 日的博客中披露,已在内部 CI/CD 流程中部署一套 AI 代码审查系统:工程师提交 merge request 后,系统会自动启动七个专门化 AI reviewer 进行初步审查,并根据风险等级决定批准、评论或阻止合并。

一个月运行数据

  • 覆盖 5169 个代码仓库;
  • 完成 131246 次审查;
  • 涉及 48095 个 merge request;
  • 平均每个 MR 被审查 2.7 次
  • 审查完成时间中位数 3 分 39 秒
  • 平均每次审查成本 1.19 美元,P99 成本 4.45 美元
  • 一个月内处理约 1200 亿 token,缓存命中率 85.7%,节省估计五位数美元成本。

决策规则

审查结果系统动作
无问题 / 轻微建议批准
Warning 但无生产风险带评论批准
多个 Warning 形成风险模式撤销机器人批准
Critical / 生产安全风险Request changes(阻止合并)

人类 reviewer 可通过 break glass 评论强制批准,用于紧急 hotfix 或避免被模型服务故障卡住发布;系统会在 telemetry 中记录这类覆盖。

MR 分级与模型选择

  • trivial:≤10 行、≤20 个文件;
  • lite:≤100 行、≤20 个文件;
  • full:>100 行、>50 个文件,或涉及安全敏感路径;
  • 任何触及 auth/crypto/ 或安全相关文件的改动都会触发 full review。

模型分层:

  • Claude Opus 4.7 / GPT-5.4:最复杂的 coordinator;
  • Claude Sonnet 4.6 / GPT-5.3 Codex:代码质量、安全、性能等重型 reviewer;
  • Kimi K2.5:文档、发布、AGENTS.md 等轻量任务。

Cloudflare 的定位:不取代人类

AI 在架构判断、跨系统影响、复杂并发问题和大型重构方面仍有明显限制——能看到 diff 却不一定理解系统设计;能发现 API 合约变化却无法确认所有下游消费者是否更新;能看到缺少锁但未必能推断完整死锁路径。因此 Cloudflare 把 AI 定位为「自动化第一轮、重复性、跨领域的初筛员」,由人类处理更复杂的架构判断和责任决策。

「不仅要告诉模型『看什么』,更要明确告诉它『不要看什么』」——安全 reviewer 只标记可利用或具体危险问题,不标记理论风险、无关旧代码或泛泛的「建议使用某个库」。

五、结论:人类工程师依然是 AI 编程的「兜底层」

从 Anthropic 砸钱雇 1000 名工程师培训 Claude Code,到 Zig 全面禁用 AI 代码、Linux 用 DCO 划清责任边界、Cloudflare 把 AI 限定为初筛员——所有这些信号都指向同一个结论:

  • AI 编程工具正快速渗透各类工程场景,「AI 代码占比」成为大公司展示成果的新指标;
  • 复杂工程能力的提升仍高度依赖真实工程师的反馈与判断
  • 数据标注行业正从低门槛劳动密集型转向高学历、高专业度的「专家反馈」模式;
  • 代码治理(许可证、责任主体、可观测性)已成为社区头等大事;
  • Anthropic 自己也警告:如果人类无法像 Claude 生成代码那样快速审查,人类 review 将成为 AI 研发的新瓶颈

换言之,「AI 写代码」与「人类工程师」并非取代关系,而是相互嵌套——AI 提升了产出速度,但工程级别的可靠性、安全边界与长期维护责任,仍然必须由真人兜底。下一阶段 AI 编程工具的竞争力,将不再只是「写得快、写得多」,而是「能否达到生产级标准的工程能力」。


参考链接