AIAgentDeepSeekClaudeLLM Migration
这家 Agent 公司从 Claude 切到 DeepSeek v4:一年省下数百万美元,迁移工作量却是预期的 100 倍
收录于 2026/6/23 10:05:24
背景
- 行业级信号:推理成本已成为 AI 部署的最大障碍。GitHub 放弃 Copilot 统一费率改按用量计费;Uber 4 个月烧光 2026 全年 AI 预算(主因 Claude Code);Linux 基金会牵头成立 Tokenomics 基金会(谷歌、微软、IBM、Salesforce 支持),试图建立 Token 成本开放标准。
- Lindy 是什么:Flo Crivello(前 Uber 工程师兼产品负责人)2023 年创立的无代码 AI Agent 平台,自动化日常工作任务——邮件分类、会议安排、CRM 管理。前身是 Crivello 之前融了 5200 万美元的虚拟办公室初创 Teamflow,资本转用于 Lindy。
- 业务压力:Crivello 4 月在 X 上就透露过——推理已是 Lindy 占比最高的单项支出,超过工资单。
切到 DeepSeek v4 的动机
- 成本:每年省下数百万美元。Vercel AI Gateway 数据:5 月单月 DeepSeek Token 交易量份额从 <1% 跃升至 17%,但实际支出份额仍 ~1%——价格差是数量级级别。
- 能力反升:在核心用例(邮件收件箱分类、根据用户反馈预起草回复)上,DeepSeek v4 表现"惊人地好";只在复杂工作流自动化上仍弱于 Claude Sonnet,但 Crivello 认为"对我们来说不重要"。
- 市场结构变化:以中国 AI 实验室为主的廉价开放权重模型让市场两极分化——OpenAI / Anthropic 的超高端前沿 vs. 价格骤降的开源替代,中段在持续萎缩。
- 数据主权考虑:Lindy 最终选了 Atlas Cloud(美国推理商,本土托管 DeepSeek v4),并明确表示自托管从未在考虑范围内——"那会分散我们很大的注意力"。
迁移工作量 100 倍的真相
Crivello 早就开始评估 OSS 方案(6–9 个月),关注 DeepSeek 自发布起(2 个月),但实际切换仍是艰巨任务:
- 评估是真正的成本黑洞,包含三类:
- 离线评估:在现实世界任务中系统性测试,验证能否媲美或超过 Anthropic 模型。
- 在线评估:分阶段上线,观察对用户留存率的影响。
- "氛围评估"(vibe evals):大量主观、不可量化的体感判断。
- 提示词重写:针对新模型重新调优所有 prompt。
- 没有走捷径:Lindy 仍保留 Anthropic 客户身份(内部用 Claude Max plan),对失败任务保留"升级到 Opus"的兜底路径——但 Crivello 明说"那将是少数情况"。
- 不是永久性决定:Crivello 原话"如果 Anthropic 下一次发布能让他们重新赢得我们的业务,我也不会感到惊讶,但他们需要大幅降价"。
关键数据 / 经验
- 年节省:数百万美元(Crivello 未给具体数)
- 迁移工作量:预期 × 100
- 评估前置窗口:OSS 方案 6–9 个月,DeepSeek 关注 2 个月
- Vercel AI Gateway 5 月数据:DeepSeek Token 交易量份额 <1% → 17%,实际支出份额 ~1%
- DeepSeek V4 预览版:2026-04 发布;可跑在华为 CANN(华为版 CUDA)上
- DeepSeek R1:2025-01 发布,引发英伟达股价一轮剧烈抛售
- Lindy 内部仍用 Claude Max plan;外部产品已切;失败任务保留 Opus 兜底
- 商业信号:Lindy 不是个例——Token 支出超过薪资支出的 Agent 公司,2026 年开始被迫认真选型
我的看法(Rainsho 视角)
"迁移成本被低估 100 倍"在前端工程化里是个非常熟悉的剧本——把 Antd 4 升 5、把 Webpack 切到 Vite、把 React 18 升 19,工程团队拍胸脯的"两周搞定"几乎都翻过车。Lindy 这个案例给我的核心教训有三点:第一,模型/框架选型不是一次性决策,而是持续的能力评估体系——他们 6–9 个月窗口里一直在做离线/在线/氛围三件套,对应到前端就是 a11y 合规、bundle size、运行时性能三个维度的持续基准;第二,"在 X 任务上更好,在 Y 任务上更差"是选型新常态,Lindy 主动放弃 Sonnet 在工作流自动化上的优势换核心用例反升,这跟"为构建期速度放弃 HMR 完整性"是同一类权衡;第三,"用美国推理商托管中国模型"是 2026 年技术决策里新增的地缘维度,前端领域我们也开始遇到类似选择(CDN / 包管理镜像 / 字体服务的供应商地域策略),别再用"纯技术视角"回避这类问题。