Data Engineering Agent

Data Engineering Agent 是什么

Data Engineering Agent 是构建于 Lakehouse + Studio 之上的数据工程智能体，覆盖数据开发、任务调度、作业发布、运维监控和治理排查等工作。它把 Lakehouse 的元数据、任务、调度、作业历史、运行日志、产品文档和工具能力交给 Agent 使用，让用户用自然语言表达目标，由 Agent 理解上下文、生成方案、调用工具并协助完成工程操作。

Data Engineering Agent 不是单纯的聊天式 SQL 生成器，而是面向数据工程生产流程的 Agent。它可以查看表结构和样例数据，辅助生成 SQL / Python / Shell / Flow / JDBC 等任务内容，配置调度和依赖，发布作业，查看运行实例，并辅助分析失败原因和下游影响。不同操作是否可直接由 Agent 完成，取决于当前工作空间开放的工具能力和用户权限。

适合解决什么问题

场景	可以交给 Agent 的工作	典型产出
SQL 开发与临时取数	根据自然语言生成 SQL、查看表结构、查询样例数据、解释查询结果	查询 SQL、查询结果、分析说明
Studio 任务开发	创建 SQL 任务草稿，辅助生成 Python / Shell / Flow / JDBC 等任务内容，写入代码和参数	IDE 中的任务草稿或已保存任务
数仓建模与数据管道	设计 Bronze / Silver / Gold 或 ODS / DWD / DWS / ADS 分层，生成转换 SQL 和任务链路	分层方案、建表 SQL、转换任务
调度与发布	配置 Cron、依赖关系、重试策略、超时策略，并发布任务到调度系统	可调度运行的任务或任务组
运维监控与诊断	查询任务运行状态、作业历史、失败实例、SQL Profile 和下游影响范围	根因分析、修复建议、重跑或补数方案
数据源与同步	辅助配置数据源、同步映射、全量/增量/CDC 同步策略	数据源连接、同步任务、同步状态分析
数据质量与治理	辅助设计或创建 DQC 规则、检查数据异常、查询权限和审计信息	质量规则、异常诊断、治理建议
MCP / CLI / SDK 集成	查询文档、生成配置示例、指导外部工具连接 Lakehouse	MCP Server、CLI、JDBC、Python SDK 配置方案

工作方式

Data Engineering Agent 更自然的使用方式通常不是一开始就把所有需求一次说全，而是按下面这条路径推进：

先探索：先让 Agent 盘点表、任务、目录、作业历史、配置状态和工具能力，帮助把问题提清楚。
再收敛：当对象和范围逐步明确后，再让 Agent 把目标转换为工程方案，例如任务类型、目标表、调度周期、依赖关系和风险点。
后执行：对创建任务、修改配置、发布调度、执行写入、下线任务、重跑任务等会改变环境的动作，先确认影响范围，再执行操作。
再回读：执行后再让 Agent 返回任务 ID、路径、运行状态、诊断结论或后续建议，继续追问和调整。

这条路径的核心不是让用户一开始就把所有对象、约束和步骤都讲完整，而是让 Agent 先帮助用户把问题收敛清楚，再进入执行。

哪些场景适合先探索，哪些可以直接执行

更适合先探索的，通常是这些场景：

还不知道该用哪张表、哪个任务、哪个目录
不确定现有任务是否可以复用
不知道当前任务缺的是内容、参数、调度还是发布条件
想排查失败，但还不知道该从哪次运行开始查

这类问题更适合这样起手：

帮我看看当前有哪些表适合做这个需求。
帮我看看当前目录里有没有现成任务可以复用。
帮我看看这个任务现在还缺哪些配置。
帮我看看最近一次运行状态怎么样。

可以直接执行的，通常是这些场景：

目录已经明确，准备新建任务
任务已经明确，准备保存内容
参数、范围和运行目标已经明确，准备执行
内容和配置已经确认，准备发布

这类问题更适合直接说：

帮我在
```
测试任务/临时开发
```
测试任务/临时开发
目录下创建一个 SQL 草稿任务。
把我接下来给你的 SQL 保存到这个任务里。
用昨天的业务日期先跑一次。
如果结果正常，再帮我发布。

授权与安全边界

Data Engineering Agent 会根据操作影响区分不同的确认方式。

默认可进行只读探查：为了理解任务，Agent 可以查看元数据、表结构、少量样例数据、任务配置、运行历史和产品文档。这类操作通常不改变环境，是 Agent 生成正确方案的基础。
变更类操作需要确认：创建或修改任务、保存任务配置、配置调度、发布作业、创建表、写入数据、暂停/恢复/重跑/终止任务等，都会影响环境或产生运行成本。Agent 应先说明将执行的对象、动作和影响范围，并在用户确认后执行。
高影响操作应关注影响范围：删除任务、下线任务、重跑历史任务、补数、修改依赖、修改调度周期等操作，可能影响上下游任务和业务数据产出。建议在确认前要求 Agent 先检查任务是否已发布、是否有下游依赖、是否有运行历史、是否会影响任务组。删除类操作是否能由 Agent 直接完成，取决于当前工具开放范围；如果不能直接完成，应在界面中手动操作。
草稿与运行要区分清楚：Agent 可以只创建 SQL 草稿而不执行，也可以生成
```
CREATE TABLE AS SELECT
```
CREATE TABLE AS SELECT
这类落表 SQL。草稿本身不会创建目标表，但用户后续点击运行后会真正执行 SQL。因此在运行前应确认 SQL 是预览查询、建表、插入还是覆盖写入。
创建任务要指定任务目录：Studio 任务属于工作空间内的任务树。任务树支持新建、重命名、移动和删除目录。创建任务前，建议先按项目、业务域、环境或生命周期规划目录，并在提问中明确目标目录，例如项目目录、业务域目录、测试目录或清理目录。这样便于后续查找、权限管理、发布编排和批量清理。如果目标目录尚未创建，建议先在 Studio 中完成目录创建，再让 Agent 创建任务草稿，不要让任务自动落到默认目录。

操作入口

点击菜单栏顶部「Data Agent」可唤起该功能。

通过自然语言的方式，将需求直接告诉 Agent，让 Agent 帮你操作产品。

从哪里开始

如果你第一次使用 Data Engineering Agent，可以按产品流程阅读：

先熟悉使用方式：基础使用场景介绍如何先探索，再逐步进入执行。
如果想直接照着问：常用提问模板提供探索式起手问法和完整执行模板。
先做指标口径探查：指标规范设计指南介绍如何识别字段角色、定义指标口径、发现口径风险，并为后续建模提供依据。
再做指标落模：指标到数仓建设指南介绍如何把指标口径转换为 Silver / Gold 模型、SQL 草稿和任务链路。
再进入数仓与管道设计：数据管道与数仓建模指南介绍如何设计 Silver / Gold 或 ODS / DWD / DWS / ADS 分层方案。
需要沉淀为任务时：任务开发指南和调度与发布指南介绍如何创建 Studio 任务草稿、管理任务目录、配置调度并发布作业。
进入排查时：任务诊断指南介绍如何根据运行实例、错误信息和任务配置分析失败原因、影响范围和修复建议。
涉及编排和质量治理时：任务组与组合任务指南和 DQC 数据质量规则指南介绍如何检查组合任务画布、节点依赖和数据质量规则配置。
准备进入生产时：运行监控指南、常见误区、DQC 最佳实践和生产准备指南介绍如何把 Agent 用稳，而不仅是会用。

如果希望先完整走一遍流程，可以阅读端到端教程。

生产使用建议

在生产环境使用 Data Engineering Agent 时，建议采用"先草稿、再确认、后发布、持续监控"的工作方式。

先让 Agent 生成方案：对复杂任务，不要一开始就要求直接发布。先让 Agent 输出表设计、任务链路、调度计划和影响范围。
优先创建草稿任务：对 SQL、Python、Shell 等任务，先创建草稿并在 IDE 中检查代码。确认 SQL 类型是查询、建表、插入还是覆盖写入。
按目录管理任务：创建任务时指定清晰的目标目录，建议按项目、业务域、环境或生命周期组织，例如
```
营销分析/日常汇总
```
营销分析/日常汇总
、
```
财务域/对账任务
```
财务域/对账任务
、
```
测试任务/临时开发
```
测试任务/临时开发
。不要把生产任务、临时测试任务和不同业务域任务混在同一目录。
发布前检查依赖和成本：发布前确认计算集群、调度周期、重试策略、超时时间、上下游依赖、预估数据量和运行成本。
上线后监控运行：新任务上线后，建议连续观察最近几次运行结果，检查是否超时、失败、产出为空或数据波动异常。
高影响操作保留确认：删除、下线、补数、重跑、修改依赖、修改调度周期等操作，应先让 Agent 输出影响范围，再确认执行或按界面指引手动操作。

Data Engineering Agent