未来十年的数据工程:从 Modern Data Stack 到 Data Engineering Harness
Modern Data Stack 的困局
过去十年,数据工程的主线是对传统数仓体系的拆解:
- 把数据采集从数据库里拆出来 → FiveTran、Airbyte、Apache SeaTunnel
- 把计算从存储里拆出来 → Snowflake、Databricks、Iceberg、Hive
- 把调度从脚本里拆出来 → Apache Airflow、Apache DolphinScheduler
- 把 SQL 开发、数据建模、血缘、质量、BI、AI 分析拆成一系独立工具
问题:工具越多,数据工程师被追在更多系统之间切换——数据源在一个地方,同步配置在一个地方,任务配置在一个地方,DAG 在一个地方,日志在一个地方,SQL 在 Git 里,Snowflake/Iceberg 的执行结果又在另一个环境里。
结果:数据工程师真正的时间并没有花在数据建模、业务理解、指标口径、架构设计和成本优化上,而是花在配置数据源、设置字段映射、拖拽 DAG、修改 SQL、查看日志、重跑任务这些 Dirty Work 上。
为什么不能让 Codex 直接写脚本?
有人会想:既然 Codex 能写 SQL、能写 Python、能调用命令行,直接让它连接 MySQL 和 Snowflake,生成脚本跑起来不就行了吗?
企业级数据工程不是把一段脚本跑通这么简单,必须解决:
- 如何在开发环境、生产环境有效限制 Codex 操作,避免 Agent"删库跑路"?
- 运行时出现的错误如何让 Codex 理解和重新设计运行?
- 如何快速让其他人/Agent/代码工具看懂 Agent 写的数据工程?
- 失败后能否自动恢复(重跑、补数)?
- 表修改有没有影响下游?
- 数据同步、ETL、DataMapping 如何可视化展示?
如果每次都让 AI 临时生成脚本,本质上只是把"人手写脚本"变成"AI 生成脚本"——长期会形成新的技术债:脚本风格不一、日志不统一、权限不清晰、失败不可控、运维不可追责,让整个数据工程回到了"Shell+Crontab 时代"。
Data Engineering Harness 设计理念
未来的数据工程,不会只是"人操作工具",而是:
- Codex/ClaudeCode:拆解并自动开发、调试
- Data Engineering Skill & Harness:提供工程边界并翻译给云端 SaaS
- Snowflake/Iceberg/云数据仓库:承载云端计算
- 底层调度与同步引擎:保障故障系统稳定运行
- 人类:负责对产生的结果进行 Review、治理和最终判断
Harness 本质:不是一个新的数据开发平台,而是一套面向 AI 和工程型 Agent 的数据工程能力框架——把数据源管理、数据同步、CDC、SQL 开发、任务调度、日志诊断、权限审计、运行观测、成本控制和人工接管等能力,封装成 Codex 可调用、人类可审查、企业可治理的工程能力。
Harness 要解决的问题
不是"让 AI 会不会写 SQL"的问题,而是:
- AI 写完 SQL 之后,能不能安全地运行?
- AI 创建任务之后,能不能被追查和审计?
- AI 调用 Snowflake 之后,能不能控制权限和成本?
- AI 生成工作流之后,能不能被人理解、确认和接管?
价值:不是替代数据工程师,也不是简单替代数据平台,而是把数据工程从"人手工操作工具",升级为"人定义目标,Codex 执行任务,平台提供边界,企业沉淀 Know-how"的新范式。
WhaleStudio Harness Suite 的组成
过去,Apache DolphinScheduler 解决调度和 Orchestration 问题,Apache SeaTunnel 解决多数据源数据批量同步和 CDC 问题,WhaleStudio 把这些能力整合成 all-in-one 平台加上企业级功能。
在大模型和 Codex 时代,仅给人提供 GUI 已经不够了。未来的数据工程系统:
- 既要让人能看懂、能审查、能接管
- 也要让 Codex 能通过 CLI、接口和工程上下文稳定调用与反馈
这意味着 WhaleStudio 要把调度、同步、CDC、SQL 任务、实例运行、日志诊断、权限审计、可观测性,重新设计、组织成 Agent 可调用与调试、人类工程师可快速审查、企业可治理的能力层。
UI 不会消失,但角色会变化
过去 UI 是操作入口——人通过 UI 创建数据源、配置任务、拖拽 DAG、设置调度、上线工作流、查看日志。
未来,很多动作会由 Codex 完成,但人仍然必须看清楚 Agent 做了什么:
- 它创建哪些任务?用了哪些数据源?
- 写入了 Snowflake 哪个 schema?
- 哪些 SQL 被修改?DAG 依赖是否合理?
- 运行失败是什么原因?是否影响下游?
未来 UI 的核心价值:不是"让人一步步操作",而是建立高度可观测性——让 Codex 的执行计划、任务变更、SQL Diff、DAG 依赖、运行状态、失败日志、成本风险,以人能理解的方式快速呈现出来。
简单来说:CLI 适合 Codex 执行,GUI 适合人类审查,Harness 负责把两者连接起来。
未来数据工程师:从工具熟练工到工程指挥官
未来数据工程师会分化:
第一类:停留在工具操作层——会点平台、会配任务、会改 SQL、会查日志、会手工拖 DAG。这些能力仍然有用,但会越来越容易让 Agent 自动化。
第二类:往上走——能定义业务目标、能设计数据模型、能判断指标口径、能控制云数据仓库成本、能理解调度、同步、CDC 和 SQL 工作流之间的关系、能把团队经验沉淀进 Harness,让 Codex 在正确边界内稳定执行。
核心能力:知道哪些事情可以自动化,哪些判断必须人工确认;知道哪些规则可以交给 Harness,哪些能力必须沉淀成企业资产。
总结
未来只会手工操作 Modern Data Stack 工具的数据工程师就会像只会手写 Java 的工程师一样被淘汰。但能够理解业务、理解数据工程、理解云数仓、理解 Codex/ClaudeCode 工作方式,并且能把这些能力组织成 Harness 的数据工程师,会越来越重要。
这就是在 AI 和 Agent 时代下,数据工程组织方式必然要发生的变化。