大模型已经够聪明了,为什么 95% 的 AI 项目还是跑不出 ROI?
核心观点
- AI 落地是数据问题,不是模型问题:大模型已经够聪明,真正卡住业务的是数据接入、治理、语义、交付这一整条链路,任何一环不确定都会放大结果的不可靠。
- 数据平台消费者已从"人"变成"Agent":过去 20 年两代大数据平台(2006-2014 大数据、2014-2023 湖仓一体)只解决了"人如何更高效使用数据",Agent 对时效、准确、语义一致性的硬要求让老办法失效。
- 真正需要重构的是四个范式:交互(自然语言/UI 是 AI 产物投影)、研发(Spec-Driven 而非人写代码)、运行时(Agent 是与任务共生的一等公民)、治理(元数据成为 Agent 可调用的语义 API)同时被重构——叠加起来才是 AI-Native,GUI 旁加个 Copilot 不算。
- 统一语义是 AI 时代新的数据护城河:没有统一语义,NL2SQL 反复掉进指标歧义、JOIN 错乱、查询条件歧义三个陷阱,这是大多数 Data Agent 项目止步于幻觉的根因。
- 解法是三层 Agent-Native 数据平台:应用层(原生 Agent + Memory/Skill Store + MCP)、治理层(Unity Catalog + 统一语义 + MCP)、工程层(统一 IDE 编排数据/AI 负载 + Bundle 发布)——三层缺一不可,DataBuddy 是腾讯云在这个范式下的具体回答。
详细分析
悖论:模型越强,落地越难
Gartner 预测 2026 年 60% 的 AI 项目将被放弃;另一组数据显示 75% 企业已试点某种 AI Agent,但只有 15% 真正考虑/部署具备自主能力的 Agent。悖论的根源是:数据没准备好被 AI 消费。Agent 参与分析、开发和治理后,人和 Agent 必须基于同一套数据体系协同工作,而企业还在沿用上个时代专为人设计的数据平台。
数据平台 20 年演进,从未为 Agent 设计
- 大数据时代(2006-2014):重点是离线数仓、ETL、报表决策,把分布式存算和开发任务工具化。
- 湖仓一体时代(2014-2023):重点是湖仓存算、数据治理、资产化。
- 共同点:解决"人如何更高效使用数据"。业务提需求 → 分析师写 SQL → 数仓工程师调分层,流程 2 天到 1-2 周。
- Agent 批量上岗后,数据对时效性、准确性、语义一致性提出更高要求,人工事后兜底变成硬伤;同时数据孤岛、治理缺失等老问题被再次放大。
四个范式同时重构才是 AI-Native
腾讯云大数据总经理周清判断:在 GUI 旁边加个 Copilot 侧边栏,不会让平台真正进入 AI 时代。真正能带来改变的是四个范式同时重构:
- 交互范式:自然语言成为新交互方式,真正的产物是 AI 生成的,UI 是 AI 产物的投影。
- 研发范式:从人写代码转向 Spec-Driven,从数据需求的 Spec 来驱动 AI 主动理解、生成产物,人来做评审。
- 运行时范式:Agent 是一等运行时公民,与任务共生命周期。
- 治理范式:元数据将成为 Agent 可调用的语义 API。
当四个范式同时改变,最直观的变化是从"人使用工具"变成"Agent 完成工作"。
DataBuddy:瞄准数据工作流全流程和交付
DataBuddy 是腾讯云 2026 年 5 月发布的生产级数据智能体,Buddy 家族第三位成员(CodeBuddy 面向开发者、WorkBuddy 面向职场人士)。它基于 WorkBuddy 同源 Agent 底层能力(WorkBuddy 已是国内日活第一的效率型 Agent),通过 Skill 引入腾讯云大数据服务内外十多年经验,并与数据智能平台 WeData 原生深度联动。
内置三个数据专家,分别覆盖数据工程、数据治理、数据分析三大场景,用户用自然语言对话即可端到端完成大数据全链路任务:
- 数据工程:自动完成数仓方案设计、代码生成和工作流编排,重复开发工作量降低 80%,整体研发效率提升 5-10 倍。重点不是快,而是人不再需要关心中间每一步怎么做,新手能直接起步。配套完整 AIOps:自动解析日志/代码/资源/上游依赖分析失败原因,基于内置运维知识库与 Skills 推荐可信修复方案,一键执行。
- 数据治理:从"人工巡检覆盖率低"转向"AI 智能守护"。在没预设规则时自主分析数仓问题,输出完整质量报告(元数据完整性、血缘健康度、语义模型一致性、数据质量、数据安全合规、存储与成本六大维度),并按紧急程度划分处置建议。
- 数据分析:充当随身数据分析师。不会写 SQL 的业务人员和分析师都能用 DataBuddy 实现智能问数、指标归因分析、报告生成和可视化看板搭建;结合 WeData 的数据语义层,准确率与口径问题被同步解决。
为什么 Data Agent 项目大多止步于幻觉
腾讯云 WeData 产品总监唐晨把当前 Agent 划成两种路线:
- Wrapper 型 Agent:大模型套壳,没有数据底座,上限不高。
- 数据平台原生 Agent:数据平台在 AI 时代的有机延伸。
DataBuddy 属于后者,完全搭载在全新升级的一站式数据智能平台 WeData 上。判断是:Agentic AI 时代的数据平台,可能需要按全新范式重构。
数据平台承担的也不再只是传统元数据管理,而是直接决定 Agent 会不会产生幻觉。腾讯云的答案是"统一语义正在成为 AI 时代新的数据护城河"。
三层架构:DataBuddy 跑得起来的原因
- 应用层(顶层):三类原生 Agent + Memory/Skill Store + MCP 协议层。
- 治理层/数据层:Unity Catalog、统一语义、MCP,把平台所有能力和数据通过 MCP/Skills 暴露,让 Agent 调得到、读得懂、用得对。
- 工程层:DIOps 全栈工程,统一 IDE 把数据负载和 AI 负载放在同一 Workflow 编排,通过 Bundle 发布机制解决开发到生产的发布问题。
工程层接住任务,治理层接住语义,应用层接住对话——三层加在一起,才是数据平台 Agent-Native 真正的形态。
行业落地:新零售样本
新零售行业瓶颈是"数据太散、报表太慢":线上线下/ERP/CRM 数据分散,BI 时效跟不上大促;推荐和分群模型从开发到投产 1-2 个月;商品图、客服对话、用户评价等非结构化数据沉淀在对象存储,无法喂给 RAG。
WeData 的解法:全域数据接入 + 多源异构集成 → 统一口径;Unity Catalog 做全域血缘;GMV/复购率/转化率/ROI 统一指标口径;MLOps 全闭环承接推荐/用户增长/智能补货;最上层 DataBuddy 自然语言直接问数。把"全域数据 + 智能模型 + 业务决策"打成一条工程化流水线,数据资产可复用,营销 ROI 可持续量化优化。
关键数据/案例
- Gartner 预测:2026 年 60% 的 AI 项目将被放弃;75% 企业已试点某种 AI Agent,仅 15% 在考虑/部署真正具备自主能力的 Agent。
- DataBuddy 效率指标:重复开发工作量降低 80%,整体研发效率提升 5-10 倍(数据工程场景)。
- 案例 1:0 到 1 新数仓构建——几句自然语言让 DataBuddy 基于数据源内原始表设计数仓建设方案,自动生成项目规范并据此更新技术方案。
- 案例 2:数仓诊断与治理——无需预设规则,自主分析数仓问题并输出六维度质量报告(元数据完整性/血缘健康度/语义模型一致性/数据质量/数据安全合规/存储与成本),按紧急程度给出处置建议。
- 案例 3:游戏用户充值与行为分析——DataBuddy 对 1000 个游戏用户做行为分析,生成包含核心总结与下一步建议动作的高参考指数报告。
- 新零售落地:WeData 把"全域数据 + 智能模型 + 业务决策"打成工程化流水线,数据资产可复用,营销 ROI 可持续量化优化。
我的评价(编辑判断)
这篇是腾讯云为新发布的 DataBuddy 量身定制的 PR 文,但抛出的判断本身比产品更值得讨论。
悖论的根因到底在哪? 文章把 95% AI 项目失败归因为"数据平台仍是为人设计的"——这是把组织问题、技术债问题打包成一个产品话术。真相更接近:模型能力是显性进步,容易被新闻化;数据治理是隐性苦活,没人愿意投钱投人。把"语义不统一""元数据缺失"这种十年欠账说成"Agent 时代才出现的新问题",在销售上聪明,在分析上有失诚实。
"统一语义 = 新护城河"这个判断只对了一半。统一语义确实关键,但"谁能定义语义"才是真正的护城河——它是业务、数据、AI 三方反复博弈的结果,不是买一个数据平台就能自动获得。腾讯云用 Unity Catalog + WeData 来兜售这个能力,本质上是在用平台锁定语义,而不是用语义解锁平台。客户上船容易下船难。
"AI-Native 数据平台"是被造出来的需求,还是真实拐点? Agent 成为数据平台的"一等公民"在工程上成立,但在企业实际采购节奏里,绝大多数公司连"为人服务"的数据平台都还没治理好。文中引用 75% vs 15% 的 Agent 采用率,更像是在为"提前重押平台"找合理性。务实建议:大多数企业该先做的不是换平台,而是把现有数仓的元数据、口径、血缘补齐——这部分不性感,但 ROI 远比追新范式高。
结论:文中的产品发布值得跟踪,DataBuddy 在腾讯生态内的实战数据值得看 6-12 个月;但"换平台就能解决 95% 失败"是过度归因,真正决定 ROI 的是组织愿不愿意做数据治理这件苦活。