入门指南:如何快速配置和使用数据质量规则

适用场景

数据质量规则用于校验数据对象的质量是否符合要求,比如数据的正确性、有效性和一致性等,尤其是对于服务于生产使用的任务产出的数据表。如果您配置了ETL流程,比如前文的 入门指南:如何快速配置编排和周期调度ETL流程,计划对数据的质量增加一个检查,建议阅读此指南。

前置阅读

在阅读本指南之前,建议完成以下文档的阅读和理解:

操作指南

您可以通过 Lakehouse Studio 提供的「数据质量」功能来配置质量规则进行检查。检查主要基于数据质量规则来进行。规则会预先定义校验的对象、检查逻辑和预期结果,并可以通过多种方式触发运行。本示例展示如何为一张 Lakehouse 表的字段配置规则,以校验其取值非空。

使用说明

  • 具备 工作空间管理员角色(workspace_admin)工作空间开发角色(workspace_dev) 的用户,有权限使用「数据质量」功能。
  • 「数据质量」功能目前主要用于监控 Lakehouse 的数据对象,比如 Table、View、Volume、Dynamic Table 等,对于 MySQL 等其他数据类型,暂不支持。

操作步骤

  1. 如下图所示,点击按钮进入 Lakehouse 服务实例:

  2. 导航到「数据」>「数据质量」页面:

  3. 在“质量规则”Tab页,点击“新建规则”按钮,打开新建质量规则的页面。请注意核对,确保页面右上角的工作空间是需要校验的数据表所在的工作空间。如果不是,可以点击后进行切换。

  4. 在新建规则页面,工作空间的值会自动设定为上一步选择的工作空间【1】。选择需要校验的数据对象。本示例中,选择先前ETL流程中同步任务导入数据写入的 test_json 表进行校验【2】。质量规则执行时,实际上会转化为 Lakehouse SQL 语句执行,因此需要一个执行集群。为简单起见,建议直接选择默认的 GP 类型集群 DEFAULT【3】。

  5. 配置“校验方式”、“触发方式”并“保存”规则。

    • 校验方式【4】:本示例中我们计划监控 test_json 表中的 c1_id 字段取值非空,所以选择“单值指标取值校验”即可;“指标取值变动校验”会比较两个指标,并校验变化值。产品内置了诸多指标规则,开箱即用。这里选择字段空值数、选定字段名称、期待结果设定为等于0。

    • 触发方式【5】:如字面含义,产品提供定时触发、周期调度任务触发和手动触发三种方式。周期任务触发会与调度系统绑定,在任务调度实例运行完成后即可触发质量规则的执行,能使校验更及时。对于生产场景,推荐使用这种方式。尤其是“强阻塞调度”选项,可以在质量规则校验失败时,阻塞整个调度流程,防止质量问题扩散。选择这种方式时,需要选择绑定的调度任务(即产出该数据表的任务)。

    • 其他配置项保留默认值或留空即可。最后点击“保存”【6】按钮,完成质量规则的新建。

  6. 创建完成后,在质量规则列表页面可以看到新增的规则。

  7. 可以点击“试跑”按钮来测试质量规则的配置和校验情况。在“校验结果”Tab页可以查看具体结果,如下图所示:质量规则被触发运行,校验结果与预期一致,一切正常。

  8. 等待调度任务的定时到达后,观察质量规则触发情况。

    • 在「任务运维」中,通过周期任务实例运行的日志,可以查看质量规则的触发运行情况。

    • 在「数据质量」的“校验结果”中,可以看到新增的校验记录,触发方式为“周期任务触发”。

  9. 至此,已经完成了质量规则的配置和校验运行情况的观察。在完成数据质量规则配置后,如果需要及时收到质量规则校验失败的监控告警信息,还需进行监控配置,具体操作在此略过,详见 数据质量 的帮助文档。

相关文档

  • 您可以阅读 数据质量 的帮助文档来了解数据质量模块的完整使用指南。

下一步建议

联系我们
预约咨询
微信咨询
电话咨询