入门指南:如何快速配置和使用数据质量规则
适用场景
数据质量规则用于校验数据对象的质量是否符合要求,比如数据的正确性、有效性和一致性等,尤其是对于服务于生产使用的任务产出的数据表。如果您配置了ETL流程,比如前文的 入门指南:如何快速配置编排和周期调度ETL流程,计划对数据的质量增加一个检查,建议阅读此指南。
前置阅读
在阅读本指南之前,建议完成以下文档的阅读和理解:
操作指南
您可以通过 Lakehouse Studio 提供的「数据质量」功能来配置质量规则进行检查。检查主要基于数据质量规则来进行。规则会预先定义校验的对象、检查逻辑和预期结果,并可以通过多种方式触发运行。本示例展示如何为一张 Lakehouse 表的字段配置规则,以校验其取值非空。
使用说明
- 具备
工作空间管理员角色(workspace_admin)或工作空间开发角色(workspace_dev)的用户,有权限使用「数据质量」功能。 - 「数据质量」功能目前主要用于监控 Lakehouse 的数据对象,比如 Table、View、Volume、Dynamic Table 等,对于 MySQL 等其他数据类型,暂不支持。
操作步骤
-
如下图所示,点击按钮进入 Lakehouse 服务实例:

-
导航到「数据」>「数据质量」页面:

-
在“质量规则”Tab页,点击“新建规则”按钮,打开新建质量规则的页面。请注意核对,确保页面右上角的工作空间是需要校验的数据表所在的工作空间。如果不是,可以点击后进行切换。

-
在新建规则页面,工作空间的值会自动设定为上一步选择的工作空间【1】。选择需要校验的数据对象。本示例中,选择先前ETL流程中同步任务导入数据写入的
test_json表进行校验【2】。质量规则执行时,实际上会转化为 Lakehouse SQL 语句执行,因此需要一个执行集群。为简单起见,建议直接选择默认的 GP 类型集群DEFAULT【3】。
-
配置“校验方式”、“触发方式”并“保存”规则。
-
校验方式【4】:本示例中我们计划监控 test_json 表中的 c1_id 字段取值非空,所以选择“单值指标取值校验”即可;“指标取值变动校验”会比较两个指标,并校验变化值。产品内置了诸多指标规则,开箱即用。这里选择字段空值数、选定字段名称、期待结果设定为等于0。
-
触发方式【5】:如字面含义,产品提供定时触发、周期调度任务触发和手动触发三种方式。周期任务触发会与调度系统绑定,在任务调度实例运行完成后即可触发质量规则的执行,能使校验更及时。对于生产场景,推荐使用这种方式。尤其是“强阻塞调度”选项,可以在质量规则校验失败时,阻塞整个调度流程,防止质量问题扩散。选择这种方式时,需要选择绑定的调度任务(即产出该数据表的任务)。
-
其他配置项保留默认值或留空即可。最后点击“保存”【6】按钮,完成质量规则的新建。

-
-
创建完成后,在质量规则列表页面可以看到新增的规则。

-
可以点击“试跑”按钮来测试质量规则的配置和校验情况。在“校验结果”Tab页可以查看具体结果,如下图所示:质量规则被触发运行,校验结果与预期一致,一切正常。


-
等待调度任务的定时到达后,观察质量规则触发情况。
-
在「任务运维」中,通过周期任务实例运行的日志,可以查看质量规则的触发运行情况。

-
在「数据质量」的“校验结果”中,可以看到新增的校验记录,触发方式为“周期任务触发”。

-
-
至此,已经完成了质量规则的配置和校验运行情况的观察。在完成数据质量规则配置后,如果需要及时收到质量规则校验失败的监控告警信息,还需进行监控配置,具体操作在此略过,详见 数据质量 的帮助文档。
相关文档
- 您可以阅读 数据质量 的帮助文档来了解数据质量模块的完整使用指南。
下一步建议
- 完成质量规则的配置后,可以参考 如何快速配置和使用监控告警规则 的指南文档,对质量规则的校验结果和任务运行状态等,配置监控规则、发送告警。
