Data Engineering Agent

Data Engineering Agent 是什么

Data Engineering Agent 是构建于 Lakehouse + Studio 之上的数据工程智能体,覆盖数据开发、任务调度、作业发布、运维监控和治理排查等工作。它把 Lakehouse 的元数据、任务、调度、作业历史、运行日志、产品文档和工具能力交给 Agent 使用,让用户用自然语言表达目标,由 Agent 理解上下文、生成方案、调用工具并协助完成工程操作。

Data Engineering Agent 不是单纯的聊天式 SQL 生成器,而是面向数据工程生产流程的 Agent。它可以查看表结构和样例数据,辅助生成 SQL / Python / Shell / Flow / JDBC 等任务内容,配置调度和依赖,发布作业,查看运行实例,并辅助分析失败原因和下游影响。不同操作是否可直接由 Agent 完成,取决于当前工作空间开放的工具能力和用户权限。

适合解决什么问题

场景可以交给 Agent 的工作典型产出
SQL 开发与临时取数根据自然语言生成 SQL、查看表结构、查询样例数据、解释查询结果查询 SQL、查询结果、分析说明
Studio 任务开发创建 SQL 任务草稿,辅助生成 Python / Shell / Flow / JDBC 等任务内容,写入代码和参数IDE 中的任务草稿或已保存任务
数仓建模与数据管道设计 Bronze / Silver / Gold 或 ODS / DWD / DWS / ADS 分层,生成转换 SQL 和任务链路分层方案、建表 SQL、转换任务
调度与发布配置 Cron、依赖关系、重试策略、超时策略,并发布任务到调度系统可调度运行的任务或任务组
运维监控与诊断查询任务运行状态、作业历史、失败实例、SQL Profile 和下游影响范围根因分析、修复建议、重跑或补数方案
数据源与同步辅助配置数据源、同步映射、全量/增量/CDC 同步策略数据源连接、同步任务、同步状态分析
数据质量与治理辅助设计或创建 DQC 规则、检查数据异常、查询权限和审计信息质量规则、异常诊断、治理建议
MCP / CLI / SDK 集成查询文档、生成配置示例、指导外部工具连接 LakehouseMCP Server、CLI、JDBC、Python SDK 配置方案

工作方式

Data Engineering Agent 更自然的使用方式通常不是一开始就把所有需求一次说全,而是按下面这条路径推进:

  • 先探索:先让 Agent 盘点表、任务、目录、作业历史、配置状态和工具能力,帮助把问题提清楚。
  • 再收敛:当对象和范围逐步明确后,再让 Agent 把目标转换为工程方案,例如任务类型、目标表、调度周期、依赖关系和风险点。
  • 后执行:对创建任务、修改配置、发布调度、执行写入、下线任务、重跑任务等会改变环境的动作,先确认影响范围,再执行操作。
  • 再回读:执行后再让 Agent 返回任务 ID、路径、运行状态、诊断结论或后续建议,继续追问和调整。

这条路径的核心不是让用户一开始就把所有对象、约束和步骤都讲完整,而是让 Agent 先帮助用户把问题收敛清楚,再进入执行。

哪些场景适合先探索,哪些可以直接执行

更适合先探索的,通常是这些场景:

  • 还不知道该用哪张表、哪个任务、哪个目录
  • 不确定现有任务是否可以复用
  • 不知道当前任务缺的是内容、参数、调度还是发布条件
  • 想排查失败,但还不知道该从哪次运行开始查

这类问题更适合这样起手:

  • 帮我看看当前有哪些表适合做这个需求。
  • 帮我看看当前目录里有没有现成任务可以复用。
  • 帮我看看这个任务现在还缺哪些配置。
  • 帮我看看最近一次运行状态怎么样。

可以直接执行的,通常是这些场景:

  • 目录已经明确,准备新建任务
  • 任务已经明确,准备保存内容
  • 参数、范围和运行目标已经明确,准备执行
  • 内容和配置已经确认,准备发布

这类问题更适合直接说:

  • 帮我在
    测试任务/临时开发
    测试任务/临时开发
    目录下创建一个 SQL 草稿任务。
  • 把我接下来给你的 SQL 保存到这个任务里。
  • 用昨天的业务日期先跑一次。
  • 如果结果正常,再帮我发布。

授权与安全边界

Data Engineering Agent 会根据操作影响区分不同的确认方式。

  • 默认可进行只读探查:为了理解任务,Agent 可以查看元数据、表结构、少量样例数据、任务配置、运行历史和产品文档。这类操作通常不改变环境,是 Agent 生成正确方案的基础。
  • 变更类操作需要确认:创建或修改任务、保存任务配置、配置调度、发布作业、创建表、写入数据、暂停/恢复/重跑/终止任务等,都会影响环境或产生运行成本。Agent 应先说明将执行的对象、动作和影响范围,并在用户确认后执行。
  • 高影响操作应关注影响范围:删除任务、下线任务、重跑历史任务、补数、修改依赖、修改调度周期等操作,可能影响上下游任务和业务数据产出。建议在确认前要求 Agent 先检查任务是否已发布、是否有下游依赖、是否有运行历史、是否会影响任务组。删除类操作是否能由 Agent 直接完成,取决于当前工具开放范围;如果不能直接完成,应在界面中手动操作。
  • 草稿与运行要区分清楚:Agent 可以只创建 SQL 草稿而不执行,也可以生成
    CREATE TABLE AS SELECT
    CREATE TABLE AS SELECT
    这类落表 SQL。草稿本身不会创建目标表,但用户后续点击运行后会真正执行 SQL。因此在运行前应确认 SQL 是预览查询、建表、插入还是覆盖写入。
  • 创建任务要指定任务目录:Studio 任务属于工作空间内的任务树。任务树支持新建、重命名、移动和删除目录。创建任务前,建议先按项目、业务域、环境或生命周期规划目录,并在提问中明确目标目录,例如项目目录、业务域目录、测试目录或清理目录。这样便于后续查找、权限管理、发布编排和批量清理。如果目标目录尚未创建,建议先在 Studio 中完成目录创建,再让 Agent 创建任务草稿,不要让任务自动落到默认目录。

操作入口

点击菜单栏顶部「Data Agent」可唤起该功能。

通过自然语言的方式,将需求直接告诉 Agent,让 Agent 帮你操作产品。

从哪里开始

如果你第一次使用 Data Engineering Agent,可以按产品流程阅读:

如果希望先完整走一遍流程,可以阅读 端到端教程

生产使用建议

在生产环境使用 Data Engineering Agent 时,建议采用"先草稿、再确认、后发布、持续监控"的工作方式。

  • 先让 Agent 生成方案:对复杂任务,不要一开始就要求直接发布。先让 Agent 输出表设计、任务链路、调度计划和影响范围。
  • 优先创建草稿任务:对 SQL、Python、Shell 等任务,先创建草稿并在 IDE 中检查代码。确认 SQL 类型是查询、建表、插入还是覆盖写入。
  • 按目录管理任务:创建任务时指定清晰的目标目录,建议按项目、业务域、环境或生命周期组织,例如
    营销分析/日常汇总
    营销分析/日常汇总
    财务域/对账任务
    财务域/对账任务
    测试任务/临时开发
    测试任务/临时开发
    。不要把生产任务、临时测试任务和不同业务域任务混在同一目录。
  • 发布前检查依赖和成本:发布前确认计算集群、调度周期、重试策略、超时时间、上下游依赖、预估数据量和运行成本。
  • 上线后监控运行:新任务上线后,建议连续观察最近几次运行结果,检查是否超时、失败、产出为空或数据波动异常。
  • 高影响操作保留确认:删除、下线、补数、重跑、修改依赖、修改调度周期等操作,应先让 Agent 输出影响范围,再确认执行或按界面指引手动操作。

相关文档

联系我们
预约咨询
微信咨询
电话咨询
邮件咨询