Copilot 创始工程师：大多数 AI 编码"就像开着法拉利去买牛奶一样

本文通过对 GitHub Copilot 创始工程师 Neel Sundaresan 的深度访谈，揭示了一个被业界普遍忽视的真相：大多数 AI 编码工具在成本效率上存在严重失衡。

Sundaresan 从 2000 年就开始研究"究竟是什么在阻碍软件开发者提高效率"这一核心问题，远早于 Transformer 架构和大语言模型的问世。他的第一个系统是 API 调用推荐系统，这揭示了一个关键洞察：开发者有 30% 的代码都是 API 调用，这本身就是一个效率损耗点。

Sundaresan 提出一个重要观点：用户体验和底层 AI 的实现逻辑是两个相互独立、互不干扰的问题。即使模型性能再好，如果表层产品体验设计出现偏差，整体产品体验也会大打打扣。编码是一项分析性工作，与网购不同，如果系统给出错误的推荐或干扰思考的推荐，就会产生问题。

Sundaresan 选择 IBM 的深层原因：IBM 的所谓"劣势"实际上成为构建企业级 AI 编码工具的"优势"。IBM 有近两万名员工、完善的基础设施与咨询业务，内部本身就有大量用户。这种"零号客户"模式提供了规模庞大、多元且愿意容忍早期产品缺陷的固定用户群体。

关于成本问题：

"人们会选择最新的 Claude Opus 4.7 这类顶级模型。他们可能只是执行一条简单的提示词，但成本却高达每百万词汇 40 美元。这就好比开着法拉利去便利店买牛奶，完全没有必要。"

关于智能路由的价值：

"这并非简单地将各类模型接入系统，而是要把模型能力、产品体验，以及能够支撑优质体验的架构有机结合起来。模型只是整体方案的一部分。"

关于 AI 项目失败原因：

"你所看到的 91% 失败的 AI 项目归根结底在于规范或者说纪律的缺失。企业以为和前沿模型提供商签个协议就够了，但事实并非如此。在把它们集成到你的软件产品之前，你需要遵循已有的规范。"

Sundaresan 见证了模型领域的完整演进：LSTM、早期编码器解码器架构、谷歌 Transformer 论文，以及初代 GPT。他的团队在每一个发展阶段都已明确所要解决的问题，只是当时的模型还不够强大。当模型终于具备足够能力时，Copilot 应运而生。

智能路由架构设计：Bob 不会向用户暴露底层模型，而是根据实际任务需求自动调度路由。可选模型包括 Anthropic Claude、Mistral 开源模型、IBM Granite，以及多款专为 Bob 运行环境定制微调的专有模型。

"开着法拉利去买牛奶"的比喻，精准揭示了技术能力与实际需求之间的严重错配。产品的价值不在于提供最强的模型，而在于在恰当的时机调用恰当的模型。

Sundaresan 从 2000 年开始研究效率问题，历经二十多年的技术演进。技术会变迁，但核心问题的洞察需要时间沉淀。

IBM 的"劣势"转化为"优势"的案例极具启发性。"零号客户"模式提供一个可验证、可迭代的闭环环境。

"模型只是整体方案的一部分"是对当前过度依赖模型能力的纠偏。智能路由、用户反馈循环、成本监控等系统工程能力，构成了产品可持续发展的基础。

91% 的 AI 项目失败归因于规范缺失。集成前沿模型到产品之前，必须建立完善的治理机制。