入门指南:如何快速配置和使用数据质量规则
适用场景
数据质量规则用于校验数据对象的质量是否符合要求,比如数据的正确性、有效性和一致性等,尤其是对于服务于生产使用的任务产出的数据表。如果您配置了ETL流程,比如前文的 入门指南:如何快速配置编排和周期调度ETL流程,计划对数据的质量增加一个检查,建议阅读此指南。
前置阅读
在阅读本指南之前,建议完成以下文档的阅读和理解:
操作指南
您可以通过 Lakehouse Studio 提供的「数据质量」功能,来配置质量规则进行检查。 检查主要基于数据质量规则来进行。在规则中会预先定义校验的对象、检查逻辑和预期结果,并可以通过多种方式来触发质量规则的运行。本示意展示如何对一张Lakehouse表的字段来配置规则校验其取值非空。
使用说明
- 具备
工作空间管理员角色(workspace_admin)
或者工作空间开发角色(workspace_dev)
的用户,有权限使用「数据质量」功能。 - 「数据质量」功能目前主要用于监控Lakehouse的数据对象,比如Table、View、Volume、Dynamic Table等,对于MySQL等其它数据类型,暂不支持。
操作步骤
-
如下图所示,点击按钮进入Lakehouse服务实例:
-
导航到「数据」>「数据质量」页面:
-
在“质量规则”Tab页,点击“新建规则”按钮,打开新建质量规则的页面。请注意核对确保页面右上角的工作空间是需要校验的数据表所在的工作空间,如果不是,可以点击后操作切换。
-
新建规则页面,工作空间的取值,会自动设定为上一步选择的工作空间【1】。选择需要校验的数据对象,本示意中,选择先前ETL流程中同步任务导入数据写入的test_json表进行校验【2】。质量规则执行,实际会转化为Lakehouse SQL执行,所以需要一个执行集群,简单起见,建议直接选择默认的GP类型集群DEFAULT【3】。
-
配置“校验方式”、“触发方式”并“保存”规则。
-
校验方式【4】:本示意中我们计划监控test_json表中的c1_id字段取值非空,所以选择“单值指标取值校验”即可;“指标取值变动校验”会比较两个指标、校验变化值)。在产品内部内置了诸多的指标规则,开箱可用。这里选择字段空值数、选定字段名称、期待结果设定为等于0。
-
触发方式【5】:如字面含义,产品提供定时触发、周期调度任务来触发和手动触发三种方式。周期任务触发会和调度系统绑定、在任务调度实例运行完成后即可触发质量规则的运行,能让校验更及时。对于生产场景,推荐使用这种方式。尤其是“强阻塞调度”选项,可以做到在质量规则校验失败时,阻塞整个调度流程、防止质量问题扩散。选择这种方式时,需要选择绑定的调度任务(也就是产出这张表的任务)。
-
其它配置项保留默认值/留空即可。最后点击“保存”【6】按钮,完成质量规则的新建。
-
-
创建完成后,在质量规则列表页面可以看到新增的规则。
-
可以点击“试跑”按钮来测试质量规则的配合和校验情况,在“校验结果”Tab可以查看具体结果,如下图所示,质量规则被触发运行、校验结果和预期一致、一切正常,校验符合预期。
-
等待调度任务的定时到达后,观察质量规则触发情况。
-
在「任务运维」里面,通过周期任务实例运行的日志中,可以查看对质量规则的触发运行情况。
-
在「数据质量」的“校验结果”中,可以看到新增的校验记录,触发方式为“周期任务触发”。
-
-
至此,已经完成了质量规则的配置和校验运行具体情况的观察。在完成数据质量规则配置之后,如果需要能及时收到质量规则校验失败的监控告警信息,还需要进行监控的配置,在此略过,详见数据质量 的帮助文档。
相关文档
- 您可以阅读 数据质量 的帮助文档来了解数据质量模块的完整使用指南。
下一步建议
- 完成质量规则的配置后,可以参考 如何快速配置和使用监控告警规则 的指南文档,对质量规则的校验结果和任务运行状态等,配置监控规则、发送告警。