未来十年的数据工程：从 Modern Data Stack 到 Data Engineering Harness

Modern Data Stack 的困局

过去十年，数据工程的主线是对传统数仓体系的拆解：

问题：工具越多，数据工程师被追在更多系统之间切换——数据源在一个地方，同步配置在一个地方，任务配置在一个地方，DAG 在一个地方，日志在一个地方，SQL 在 Git 里，Snowflake/Iceberg 的执行结果又在另一个环境里。

结果：数据工程师真正的时间并没有花在数据建模、业务理解、指标口径、架构设计和成本优化上，而是花在配置数据源、设置字段映射、拖拽 DAG、修改 SQL、查看日志、重跑任务这些 Dirty Work 上。

有人会想：既然 Codex 能写 SQL、能写 Python、能调用命令行，直接让它连接 MySQL 和 Snowflake，生成脚本跑起来不就行了吗？

企业级数据工程不是把一段脚本跑通这么简单，必须解决：

如果每次都让 AI 临时生成脚本，本质上只是把"人手写脚本"变成"AI 生成脚本"——长期会形成新的技术债：脚本风格不一、日志不统一、权限不清晰、失败不可控、运维不可追责，让整个数据工程回到了"Shell+Crontab 时代"。

未来的数据工程，不会只是"人操作工具"，而是：

Harness 本质：不是一个新的数据开发平台，而是一套面向 AI 和工程型 Agent 的数据工程能力框架——把数据源管理、数据同步、CDC、SQL 开发、任务调度、日志诊断、权限审计、运行观测、成本控制和人工接管等能力，封装成 Codex 可调用、人类可审查、企业可治理的工程能力。

不是"让 AI 会不会写 SQL"的问题，而是：

价值：不是替代数据工程师，也不是简单替代数据平台，而是把数据工程从"人手工操作工具"，升级为"人定义目标，Codex 执行任务，平台提供边界，企业沉淀 Know-how"的新范式。

过去，Apache DolphinScheduler 解决调度和 Orchestration 问题，Apache SeaTunnel 解决多数据源数据批量同步和 CDC 问题，WhaleStudio 把这些能力整合成 all-in-one 平台加上企业级功能。

在大模型和 Codex 时代，仅给人提供 GUI 已经不够了。未来的数据工程系统：

这意味着 WhaleStudio 要把调度、同步、CDC、SQL 任务、实例运行、日志诊断、权限审计、可观测性，重新设计、组织成 Agent 可调用与调试、人类工程师可快速审查、企业可治理的能力层。

过去 UI 是操作入口——人通过 UI 创建数据源、配置任务、拖拽 DAG、设置调度、上线工作流、查看日志。

未来，很多动作会由 Codex 完成，但人仍然必须看清楚 Agent 做了什么：

未来 UI 的核心价值：不是"让人一步步操作"，而是建立高度可观测性——让 Codex 的执行计划、任务变更、SQL Diff、DAG 依赖、运行状态、失败日志、成本风险，以人能理解的方式快速呈现出来。

简单来说：CLI 适合 Codex 执行，GUI 适合人类审查，Harness 负责把两者连接起来。

未来数据工程师会分化：

第一类：停留在工具操作层——会点平台、会配任务、会改 SQL、会查日志、会手工拖 DAG。这些能力仍然有用，但会越来越容易让 Agent 自动化。

第二类：往上走——能定义业务目标、能设计数据模型、能判断指标口径、能控制云数据仓库成本、能理解调度、同步、CDC 和 SQL 工作流之间的关系、能把团队经验沉淀进 Harness，让 Codex 在正确边界内稳定执行。

核心能力：知道哪些事情可以自动化，哪些判断必须人工确认；知道哪些规则可以交给 Harness，哪些能力必须沉淀成企业资产。

未来只会手工操作 Modern Data Stack 工具的数据工程师就会像只会手写 Java 的工程师一样被淘汰。但能够理解业务、理解数据工程、理解云数仓、理解 Codex/ClaudeCode 工作方式，并且能把这些能力组织成 Harness 的数据工程师，会越来越重要。

这就是在 AI 和 Agent 时代下，数据工程组织方式必然要发生的变化。