Anthropic 被曝雇 1000 名人类工程师『培训』Claude Code,时薪 280 美元
一、Marlin 项目:1000 名工程师给 Claude Code 当「家教」
据 Business Insider 报道,Anthropic 正在通过一个由约 1000 名人类软件工程师参与的项目,提升旗下 AI 编程工具 Claude Code 的表现。该项目在数据标注公司 Snorkel AI 内部代号为 「Marlin」,核心目标并不是简单让模型「会写代码」,而是让 Claude Code 的回答更接近专业开发者的真实工作方式:代码更干净、更可靠,也更容易维护。
这次曝光揭开了 Claude Code 能力迭代背后的另一层基础设施——不是单纯依赖模型自我进化,而是引入大量具备软件工程背景的人类承包商,对模型输出进行高质量反馈。
报酬与工作量
- 承包商每完成一项「创建提示词 + 审查代码」的任务,可获得 280 美元 报酬;
- 每项任务通常耗时约一小时;
- 部分提交内容还需要与 Snorkel 的审核层进行多轮沟通。
任务设计:模拟真实开发场景
根据 Snorkel 项目指南,参与者需对两个不同模型生成的代码进行 A/B 测试,选择更偏好的结果,并判断模型是否真正达到了提示词要求的细节程度。具体流程:
- 从包含数千个代码仓库的列表中选择 GitHub 仓库;
- 创建类似真实开发流程中的 PR(新增功能、修复漏洞或重构代码);
- 编写提示词说明任务目标;
- 比较两组模型输出并给出判断。
文章列举了两个典型任务:
- 代码结构重构:要求模型重新组织系统存储和处理「执行元数据」(execution metadata)的方式,重点是在不影响实际运行逻辑的前提下,让代码结构更清晰、更方便后续维护;
- 安全修复:涉及开源机器学习平台 MLflow 加载模型时下载 Python 软件包的方式,要求承包商从正确性、安全性、可靠性和可维护性角度评估代码,并确保修复方案既能阻止命令注入攻击,又不会误伤合法的白名单 pip 选项。
这意味着 Claude Code 的提升靠的不是「写得更多」,而是专业工程师不断告诉模型:什么样的代码才算能进生产环境,什么样的修改只是表面可用,什么样的实现会在长期维护、安全边界和工程协作中留下隐患。
数据标注行业的结构性变化
Marlin 项目折射出数据标注行业的升级:
- Snorkel 由斯坦福研究人员创办,与博士、医学博士、法学博士等高学历专家合作;
- 顶级专家每周收入可超过 3000 美元;
- 客户包括 Google、Mistral 和 Anthropic;
- Scale AI、Mercor 等平台为软件工程师提供最高每小时 110 美元 的报酬。
二、越复杂、Claude Code 错越多,必须靠人救?
用户实测:2 月更新后明显退化
近期有用户在 Claude Code 官方仓库提交 issue(#42634),称自 2 月更新后,模型在复杂工程任务中的表现已经**「无法被信任用于复杂工程工作」**。该用户基于一个高度稳定、复杂度较高的工程环境,分析了 1 到 3 月的会话日志,量化结果包括:
- 6852 个会话文件;
- 17871 个 thinking blocks;
- 234760 次工具调用。
其结论是「thinking content redaction」的推出与复杂、长会话工程工作流中的质量退化高度相关。当模型思考深度下降,工作模式会从「先研究、再修改」转向「先编辑、少研究」。
关键退化指标:阅读量下降 70%
| 阶段 | 每次编辑前平均文件读取次数 |
|---|---|
| 表现良好阶段 | 6.6 |
| 退化阶段 | 2.0 |
修改前研究量减少约 70%,导致模型更容易做出「没读就改」的操作:破坏周边代码、违反文件级约定、把新代码插入注释块中间,或重复实现已有逻辑。
行为层面的异常
- 推理循环增多,频繁输出「等等」「实际上」「让我重新考虑」等自我修正;
- 「simplest」等表达频率上升,被解读为模型倾向于最低成本方案而非正确方案;
- 提前停止、请求许可,或把问题归因为「已有问题」「已知限制」;
- 用户被迫用 Codex 对 Claude Code 的产出进行事实核查。
核心矛盾
越深入复杂工程场景,就越不能只追求「快」和「会改代码」,而必须具备长期上下文理解、工程约定遵循、多文件推理等能力。
因此,Anthropic 引入约 1000 名人类软件工程师,本质上是用资深开发者的判断标准为 Claude Code 补课。从「vibe coding」走向「工程化 coding」过程中,越想让 AI 像高级工程师一样工作,就越需要真正的软件工程师参与训练,这本身就极具讽刺意味。
三、AI 带来「代码过剩」:拒绝派 vs. 治理派
Anthropic 内部:Claude 写了 80% 以上的生产代码
Anthropic CEO Dario Amodei 曾预测 12 个月后 AI 甚至可能几乎写出全部代码。其最新博文《When AI builds itself》披露:
- 截至 2026 年 5 月,Anthropic 合并进生产代码库的代码中,超过 80% 由 Claude 编写;
- 在 Claude Code 于 2025 年 2 月发布研究预览版之前,该比例还只是个位数;
- 截至 2026 年第二季度,其典型工程师每天合并的代码量达到 2024 年的 8 倍。
Anthropic 承认代码行数并非完美的生产力指标,「8 倍」很可能高估了实际提升,但至少证明内部研发速度正在显著加快。
谷歌与创业公司的「AI 代码占比」竞赛
- 谷歌:2024 年三季度财报中 Sundar Pichai 称超过四分之一的新代码由 AI 生成;到 2026 年 4 月,这一比例上升到 75%;
- YC W25 批次:约四分之一创业公司的代码库有 95% 由 AI 生成(曾引发大量开发者质疑)。
拒绝派代表:Zig
开源编程语言 Zig 明确禁止提交 AI 辅助生成的代码,包括大模型生成、改写、编辑、构思或调试过的内容。
Zig 总裁 Andrew Kelley 直言 AI 辅助贡献「基本都是垃圾」:
「有人给我们发来的贡献没有任何价值。它们甚至是负价值,因为它们占用了团队的代码审查时间。」
他认为 AI 编程者更像「路过式贡献者」——可能会提交一两个 PR,但永远不会真正加入核心团队。「如果我说一律不接受,那这个政策就非常容易执行。」对 Zig 来说,「导师制」本身就是项目核心使命的一部分,因此 AI 生成的贡献反而会适得其反。值得一提的是,Bun 是用 Zig 创建的,而 Bun 后来被 Anthropic 收购,Zig 的 AI 禁令也在 Bun 与 Zig 之间引发了争议。
治理派代表:Linux
Linux 社区发布的《AI Coding Assistants》指导文件给出了一套清晰边界:
- AI 工具可以辅助 Linux 内核开发;
- 所有 AI 辅助提交仍必须遵循标准内核开发流程、内核编码风格、补丁提交规范;
- 代码必须与 GPL-2.0-only 兼容,并使用合适的 SPDX 许可证标识;
- AI agent 不得添加 Signed-off-by 标签——只有人类才能在法律意义上认证 Developer Certificate of Origin(DCO);
- 人类提交者必须审查所有 AI 生成代码,添加自己的 Signed-off-by 标签,对贡献承担全部责任;
- 当 AI 工具参与时,应通过
Assisted-by标签进行归因,推荐格式:
Assisted-by: AGENT_NAME:MODEL_VERSION [TOOL1] [TOOL2]
示例:
Assisted-by: Claude:claude-3-opus coccinelle sparse
Linux 的治理逻辑可以总结为:允许使用,但必须透明披露;可以辅助,但不能签署;可以生成代码,但人类必须 review、作证并承担责任。
四、大厂实践:Cloudflare 让 AI 当「初筛员」
Cloudflare 在 4 月 20 日的博客中披露,已在内部 CI/CD 流程中部署一套 AI 代码审查系统:工程师提交 merge request 后,系统会自动启动七个专门化 AI reviewer 进行初步审查,并根据风险等级决定批准、评论或阻止合并。
一个月运行数据
- 覆盖 5169 个代码仓库;
- 完成 131246 次审查;
- 涉及 48095 个 merge request;
- 平均每个 MR 被审查 2.7 次;
- 审查完成时间中位数 3 分 39 秒;
- 平均每次审查成本 1.19 美元,P99 成本 4.45 美元;
- 一个月内处理约 1200 亿 token,缓存命中率 85.7%,节省估计五位数美元成本。
决策规则
| 审查结果 | 系统动作 |
|---|---|
| 无问题 / 轻微建议 | 批准 |
| Warning 但无生产风险 | 带评论批准 |
| 多个 Warning 形成风险模式 | 撤销机器人批准 |
| Critical / 生产安全风险 | Request changes(阻止合并) |
人类 reviewer 可通过 break glass 评论强制批准,用于紧急 hotfix 或避免被模型服务故障卡住发布;系统会在 telemetry 中记录这类覆盖。
MR 分级与模型选择
- trivial:≤10 行、≤20 个文件;
- lite:≤100 行、≤20 个文件;
- full:>100 行、>50 个文件,或涉及安全敏感路径;
- 任何触及
auth/、crypto/或安全相关文件的改动都会触发 full review。
模型分层:
- Claude Opus 4.7 / GPT-5.4:最复杂的 coordinator;
- Claude Sonnet 4.6 / GPT-5.3 Codex:代码质量、安全、性能等重型 reviewer;
- Kimi K2.5:文档、发布、AGENTS.md 等轻量任务。
Cloudflare 的定位:不取代人类
AI 在架构判断、跨系统影响、复杂并发问题和大型重构方面仍有明显限制——能看到 diff 却不一定理解系统设计;能发现 API 合约变化却无法确认所有下游消费者是否更新;能看到缺少锁但未必能推断完整死锁路径。因此 Cloudflare 把 AI 定位为「自动化第一轮、重复性、跨领域的初筛员」,由人类处理更复杂的架构判断和责任决策。
「不仅要告诉模型『看什么』,更要明确告诉它『不要看什么』」——安全 reviewer 只标记可利用或具体危险问题,不标记理论风险、无关旧代码或泛泛的「建议使用某个库」。
五、结论:人类工程师依然是 AI 编程的「兜底层」
从 Anthropic 砸钱雇 1000 名工程师培训 Claude Code,到 Zig 全面禁用 AI 代码、Linux 用 DCO 划清责任边界、Cloudflare 把 AI 限定为初筛员——所有这些信号都指向同一个结论:
- AI 编程工具正快速渗透各类工程场景,「AI 代码占比」成为大公司展示成果的新指标;
- 但复杂工程能力的提升仍高度依赖真实工程师的反馈与判断;
- 数据标注行业正从低门槛劳动密集型转向高学历、高专业度的「专家反馈」模式;
- 代码治理(许可证、责任主体、可观测性)已成为社区头等大事;
- Anthropic 自己也警告:如果人类无法像 Claude 生成代码那样快速审查,人类 review 将成为 AI 研发的新瓶颈。
换言之,「AI 写代码」与「人类工程师」并非取代关系,而是相互嵌套——AI 提升了产出速度,但工程级别的可靠性、安全边界与长期维护责任,仍然必须由真人兜底。下一阶段 AI 编程工具的竞争力,将不再只是「写得快、写得多」,而是「能否达到生产级标准的工程能力」。
参考链接
- https://www.businessinsider.com/anthropic-improve-claude-code-snorkel-data-training-contractors-2026-6
- https://github.com/anthropics/claude-code/issues/42634
- https://www.businessinsider.com/zig-programming-language-ai-rules-2026-5
- https://blog.cloudflare.com/ai-code-review/
- https://docs.kernel.org/process/coding-assistants.html
- https://www.anthropic.com/institute/recursive-self-improvement