Anthropic 被曝雇 1000 名人类工程师『培训』Claude Code，时薪 280 美元

一、Marlin 项目：1000 名工程师给 Claude Code 当「家教」

据 Business Insider 报道，Anthropic 正在通过一个由约 1000 名人类软件工程师参与的项目，提升旗下 AI 编程工具 Claude Code 的表现。该项目在数据标注公司 Snorkel AI 内部代号为 「Marlin」，核心目标并不是简单让模型「会写代码」，而是让 Claude Code 的回答更接近专业开发者的真实工作方式：代码更干净、更可靠，也更容易维护。

这次曝光揭开了 Claude Code 能力迭代背后的另一层基础设施——不是单纯依赖模型自我进化，而是引入大量具备软件工程背景的人类承包商，对模型输出进行高质量反馈。

报酬与工作量

承包商每完成一项「创建提示词 + 审查代码」的任务，可获得 280 美元 报酬；
每项任务通常耗时约一小时；
部分提交内容还需要与 Snorkel 的审核层进行多轮沟通。

任务设计：模拟真实开发场景

根据 Snorkel 项目指南，参与者需对两个不同模型生成的代码进行 A/B 测试，选择更偏好的结果，并判断模型是否真正达到了提示词要求的细节程度。具体流程：

从包含数千个代码仓库的列表中选择 GitHub 仓库；
创建类似真实开发流程中的 PR（新增功能、修复漏洞或重构代码）；
编写提示词说明任务目标；
比较两组模型输出并给出判断。

文章列举了两个典型任务：

代码结构重构：要求模型重新组织系统存储和处理「执行元数据」（execution metadata）的方式，重点是在不影响实际运行逻辑的前提下，让代码结构更清晰、更方便后续维护；
安全修复：涉及开源机器学习平台 MLflow 加载模型时下载 Python 软件包的方式，要求承包商从正确性、安全性、可靠性和可维护性角度评估代码，并确保修复方案既能阻止命令注入攻击，又不会误伤合法的白名单 pip 选项。

这意味着 Claude Code 的提升靠的不是「写得更多」，而是专业工程师不断告诉模型：什么样的代码才算能进生产环境，什么样的修改只是表面可用，什么样的实现会在长期维护、安全边界和工程协作中留下隐患。

数据标注行业的结构性变化

Marlin 项目折射出数据标注行业的升级：

Snorkel 由斯坦福研究人员创办，与博士、医学博士、法学博士等高学历专家合作；
顶级专家每周收入可超过 3000 美元；
客户包括 Google、Mistral 和 Anthropic；
Scale AI、Mercor 等平台为软件工程师提供最高每小时 110 美元 的报酬。

二、越复杂、Claude Code 错越多，必须靠人救？

用户实测：2 月更新后明显退化

近期有用户在 Claude Code 官方仓库提交 issue（#42634），称自 2 月更新后，模型在复杂工程任务中的表现已经**「无法被信任用于复杂工程工作」**。该用户基于一个高度稳定、复杂度较高的工程环境，分析了 1 到 3 月的会话日志，量化结果包括：

6852 个会话文件；
17871 个 thinking blocks；
234760 次工具调用。

其结论是「thinking content redaction」的推出与复杂、长会话工程工作流中的质量退化高度相关。当模型思考深度下降，工作模式会从「先研究、再修改」转向「先编辑、少研究」。

关键退化指标：阅读量下降 70%

阶段	每次编辑前平均文件读取次数
表现良好阶段	6.6
退化阶段	2.0

修改前研究量减少约 70%，导致模型更容易做出「没读就改」的操作：破坏周边代码、违反文件级约定、把新代码插入注释块中间，或重复实现已有逻辑。

行为层面的异常

推理循环增多，频繁输出「等等」「实际上」「让我重新考虑」等自我修正；
「simplest」等表达频率上升，被解读为模型倾向于最低成本方案而非正确方案；
提前停止、请求许可，或把问题归因为「已有问题」「已知限制」；
用户被迫用 Codex 对 Claude Code 的产出进行事实核查。

核心矛盾

越深入复杂工程场景，就越不能只追求「快」和「会改代码」，而必须具备长期上下文理解、工程约定遵循、多文件推理等能力。

因此，Anthropic 引入约 1000 名人类软件工程师，本质上是用资深开发者的判断标准为 Claude Code 补课。从「vibe coding」走向「工程化 coding」过程中，越想让 AI 像高级工程师一样工作，就越需要真正的软件工程师参与训练，这本身就极具讽刺意味。

三、AI 带来「代码过剩」：拒绝派 vs. 治理派

Anthropic 内部：Claude 写了 80% 以上的生产代码

Anthropic CEO Dario Amodei 曾预测 12 个月后 AI 甚至可能几乎写出全部代码。其最新博文《When AI builds itself》披露：

截至 2026 年 5 月，Anthropic 合并进生产代码库的代码中，超过 80% 由 Claude 编写；
在 Claude Code 于 2025 年 2 月发布研究预览版之前，该比例还只是个位数；
截至 2026 年第二季度，其典型工程师每天合并的代码量达到 2024 年的 8 倍。

Anthropic 承认代码行数并非完美的生产力指标，「8 倍」很可能高估了实际提升，但至少证明内部研发速度正在显著加快。

谷歌与创业公司的「AI 代码占比」竞赛

谷歌：2024 年三季度财报中 Sundar Pichai 称超过四分之一的新代码由 AI 生成；到 2026 年 4 月，这一比例上升到 75%；
YC W25 批次：约四分之一创业公司的代码库有 95% 由 AI 生成（曾引发大量开发者质疑）。

拒绝派代表：Zig

开源编程语言 Zig 明确禁止提交 AI 辅助生成的代码，包括大模型生成、改写、编辑、构思或调试过的内容。

Zig 总裁 Andrew Kelley 直言 AI 辅助贡献「基本都是垃圾」：

「有人给我们发来的贡献没有任何价值。它们甚至是负价值，因为它们占用了团队的代码审查时间。」

他认为 AI 编程者更像「路过式贡献者」——可能会提交一两个 PR，但永远不会真正加入核心团队。「如果我说一律不接受，那这个政策就非常容易执行。」对 Zig 来说，「导师制」本身就是项目核心使命的一部分，因此 AI 生成的贡献反而会适得其反。值得一提的是，Bun 是用 Zig 创建的，而 Bun 后来被 Anthropic 收购，Zig 的 AI 禁令也在 Bun 与 Zig 之间引发了争议。

治理派代表：Linux

Linux 社区发布的《AI Coding Assistants》指导文件给出了一套清晰边界：

AI 工具可以辅助 Linux 内核开发；
所有 AI 辅助提交仍必须遵循标准内核开发流程、内核编码风格、补丁提交规范；
代码必须与 GPL-2.0-only 兼容，并使用合适的 SPDX 许可证标识；
AI agent 不得添加 Signed-off-by 标签——只有人类才能在法律意义上认证 Developer Certificate of Origin（DCO）；
人类提交者必须审查所有 AI 生成代码，添加自己的 Signed-off-by 标签，对贡献承担全部责任；
当 AI 工具参与时，应通过 Assisted-by 标签进行归因，推荐格式：

Assisted-by: AGENT_NAME:MODEL_VERSION [TOOL1] [TOOL2]

示例：

Assisted-by: Claude:claude-3-opus coccinelle sparse

Linux 的治理逻辑可以总结为：允许使用，但必须透明披露；可以辅助，但不能签署；可以生成代码，但人类必须 review、作证并承担责任。

四、大厂实践：Cloudflare 让 AI 当「初筛员」

Cloudflare 在 4 月 20 日的博客中披露，已在内部 CI/CD 流程中部署一套 AI 代码审查系统：工程师提交 merge request 后，系统会自动启动七个专门化 AI reviewer 进行初步审查，并根据风险等级决定批准、评论或阻止合并。

一个月运行数据

覆盖 5169 个代码仓库；
完成 131246 次审查；
涉及 48095 个 merge request；
平均每个 MR 被审查 2.7 次；
审查完成时间中位数 3 分 39 秒；
平均每次审查成本 1.19 美元，P99 成本 4.45 美元；
一个月内处理约 1200 亿 token，缓存命中率 85.7%，节省估计五位数美元成本。

决策规则

审查结果	系统动作
无问题 / 轻微建议	批准
Warning 但无生产风险	带评论批准
多个 Warning 形成风险模式	撤销机器人批准
Critical / 生产安全风险	Request changes（阻止合并）

人类 reviewer 可通过 break glass 评论强制批准，用于紧急 hotfix 或避免被模型服务故障卡住发布；系统会在 telemetry 中记录这类覆盖。

MR 分级与模型选择

trivial：≤10 行、≤20 个文件；
lite：≤100 行、≤20 个文件；
full：>100 行、>50 个文件，或涉及安全敏感路径；
任何触及 auth/、crypto/ 或安全相关文件的改动都会触发 full review。

模型分层：

Claude Opus 4.7 / GPT-5.4：最复杂的 coordinator；
Claude Sonnet 4.6 / GPT-5.3 Codex：代码质量、安全、性能等重型 reviewer；
Kimi K2.5：文档、发布、AGENTS.md 等轻量任务。

Cloudflare 的定位：不取代人类

AI 在架构判断、跨系统影响、复杂并发问题和大型重构方面仍有明显限制——能看到 diff 却不一定理解系统设计；能发现 API 合约变化却无法确认所有下游消费者是否更新；能看到缺少锁但未必能推断完整死锁路径。因此 Cloudflare 把 AI 定位为「自动化第一轮、重复性、跨领域的初筛员」，由人类处理更复杂的架构判断和责任决策。

「不仅要告诉模型『看什么』，更要明确告诉它『不要看什么』」——安全 reviewer 只标记可利用或具体危险问题，不标记理论风险、无关旧代码或泛泛的「建议使用某个库」。

五、结论：人类工程师依然是 AI 编程的「兜底层」

从 Anthropic 砸钱雇 1000 名工程师培训 Claude Code，到 Zig 全面禁用 AI 代码、Linux 用 DCO 划清责任边界、Cloudflare 把 AI 限定为初筛员——所有这些信号都指向同一个结论：

AI 编程工具正快速渗透各类工程场景，「AI 代码占比」成为大公司展示成果的新指标；
但复杂工程能力的提升仍高度依赖真实工程师的反馈与判断；
数据标注行业正从低门槛劳动密集型转向高学历、高专业度的「专家反馈」模式；
代码治理（许可证、责任主体、可观测性）已成为社区头等大事；
Anthropic 自己也警告：如果人类无法像 Claude 生成代码那样快速审查，人类 review 将成为 AI 研发的新瓶颈。

换言之，「AI 写代码」与「人类工程师」并非取代关系，而是相互嵌套——AI 提升了产出速度，但工程级别的可靠性、安全边界与长期维护责任，仍然必须由真人兜底。下一阶段 AI 编程工具的竞争力，将不再只是「写得快、写得多」，而是「能否达到生产级标准的工程能力」。

参考链接