动态表任务

Web-IDE提供了支持协作开发的向导式动态表任务模板,提高动态表任务的开销效率,同时支出与任务运维、监控告警功能打通,增加面向生产的运维监控能力。

Web-IDE中动态表的开发过程,是通过可视化的向导方式辅助用户编写创建动态表的必要内容。例如:动态表所在的schema、动态表名称、刷新周期、动态表查询逻辑等。开发动态表脚本完成后,执行任务"提交"时系统会根据脚本内容在目标位置创建动态表、动态表的刷新策略配置进行自动化调度,从而实现动态表任务的部署上线。

  • 第一步:新建动态表任务

您可以在Studio的IDE开发环境中,通过新建任务的方式添加"动态表"类型的任务。

新建时为任务代码指定任务名称并指定保存位置。

  • 第二步:为动态表命名并编写动态表的SELECT查询语句

首先,填写动态表在提交后将要保存的schema位置以及动态表名称

其次,在SQL代码区域编写和测试动态表的查询语句。

在SQL代码区编写处理转换的SELECT语句,设置运行SQL的集群名称(当动态表部署运行时,将默认使用该集群运行刷新任务),同时可以通过运行按钮测试运行SELECT语句以确保处理逻辑的正确。

最后,通过Explain按钮校验查询语句的语法正确性并保存动态表的模型定义

点击按钮检查校验SELECT查询语法的正确性、检查字段名称及数据类型是否符合预期。确认正确后点击弹出窗口的"确定并继续"按钮,系统将保存动态表的定义并退出SQL代码编辑状态。

  • 第三步:修改和调整动态表配置并提交部署

在完成动态表SQL代码开发并退出SQL编辑模式后,您将看到包括动态表基本信息、运行参数、SQL代码、动态表字段、动态表分区及分桶相关的默认配置。

在动态表模型定义提交部署至Lakehouse数据环境前,您还需要根据业务需要检查并修改以下配置信息,以满足生产运行需要。以下是动态表支持调整和修改的配置项目,请根据需要进行配置。

配置项默认值配置说明示例
动态表生命周期永久可选项。可选择指定动态表数据生命周期。
负责人任务脚本创建者可选项。可调任务整负责人。
动态表说明可选项。添加动态表的注释信息。
运行集群IDE开发时指定的集群名称可选项。可根据部署环境的集群规划,选择其他计算集群运行动态表刷新任务。
刷新方式手动刷新可选项。***建议生产使用时,选择自动刷新的刷新方式。***当前支持按分钟、小时、天间隔设置调度策略,最小调度间隔为1分钟。
参数配置可选项。动态表运行的高级参数设置,仅在特定优化场景下需要使用(一般由平台方针对特定场景提供优化参数),默认无需设置。
SQL代码上次保存的代码内容可选项。当您在保存后,希望对SQL代码进行调整时可通过编辑方式修改并保存。
编辑字段在编辑字段时,您可以设置:* 字段注释。为字段添加注释信息
  • 设置分区字段。添加特定字段为分区字段,支持普通分区字段、Transform分区

  • 设置动态表分桶字段和数量。添加特定字段为分桶字段,并设置分工数量,开启分桶设置后,分桶数默认值为256个

  • 设置排序字段。可指定1个或多个字段为排序字段,指定排序方法。 |

    |

  • 第四步:提交部署动态表模型到目标环境

完成SQL开发和动态表配置后,您可以通过"DDL预览"查看动态表模型完整的DDL定义。

确认符合预期后,您可以点击动态表任务右侧的"提交"按钮,系统弹出与上次保存代码版本的对比:

确定提交后,您的模型开发内容最终将通过DDL命令在Lakehouse目标数据环境中执行、创建动态表数据对象。Lakehouse系统将自动根据动态表的刷新策略进行调度执行。

联系我们
预约咨询
微信咨询
电话咨询