数据质量管理

在大数据时代,数据质量管理是确保数据正确性、有效性和一致性的关键环节。通过数据质量管理,我们可以对海量数据进行清洗、加工和优化,从而提升数据价值密度,更好地服务于业务需求。数据质量模块为您提供全方位监控和评估数据质量的功能,包括完整性、唯一性、一致性、准确性、有效性和及时性六大维度。通过数据质量模块,您可以实现数据质量的持续改进和优化。

概览

数据质量概览页面为您提供了一个直观的数据质量监控大盘,方便您查看质量规则和校验运行的整体情况。以下是部分指标的详细解释:

部分指标的口径如下

  • 质量规则数:服务实例的所有工作空间下,配置的质量规则总数,包含未开启的规则
  • 覆盖表总数:服务实例的所有工作空间下,有配置质量规则的表的数量
  • 检测运行次数:近一个月的质量规则运行次数
  • 校验通过率:近一个月的通过次数/校验总次数
  • 质量规则分布:服务实例的所有工作空间下的质量规则,按照负责人或者工作空间统计的数量分布
  • 校验结果分布:服务实例的所有工作空间下的质量规则,校验结果状态的分布
  • 高质量表:有配置质量规则,且最近7天均校验通过的表
  • 今日需要关注结果:校验失败的质量规则

质量规则

质量规则页面以列表形式展示您已配置的全部质量规则。通过顶部的筛选过滤区域,您可以快速找到所需的规则。

通过顶部的筛选过滤区域,可以进行精细化地查找。

新建质量规则

  1. 在质量规则列表中,或在校验对象的规则列表中,点击“新建规则”按钮,进入新建质量规则页面。
  2. 填写必填配置项,如数据源、工作空间、校验对象、负责人、描述、参数配置、取值过滤、校验方式、期待结果、触发方式、执行集群和超时时间等。
配置项配置说明
数据源指数据源类型,当前只支持Lakehouse数据源
工作空间校验对象所属的工作空间
校验对象校验对象是Lakehouse表时,选择其所在的Schema和名称(表名、视图名称等)
负责人质量规则的负责人,影响告警的接受
描述给质量规则定义的描述
参数配置质量规则中,在取值过滤和自定义SQL来计算指标值时,支持引用预先定义的动态参数取值。举例定义如下参数* partition = $[yyyyMMdd]
取值过滤用以过滤需要校验的对象范围,比如按照分区过滤,支持引用参数* dt = ${partition}
校验方式 - 内置指标系统内置的校验指标,按需选择使用
校验方式 - 自定义SQL如果系统内置的校验指标不满足使用需要,可以通过自定义SQL来计算指标取值* 特别注意:自定义SQL的运行结果,必须是一个单值的数值,才能进行比较
期待结果定义指标值的期待结果
触发方式用于配置质量规则触发运行的方式 1、定时触发:在给定的定时时间,由系统触发运行一次校验 2、周期任务触发:由关联的周期任务实例来触发,在实例运行成功后,触发质量规则运行。对于周期调度触发,有两种调度阻塞配置选项 A:强阻塞调度:如果质量规则校验失败,会把关联的调度任务实例置为失败,进而会阻塞该调度实例的下游实例运行。 B:不阻塞调度:质量规则作为旁路运行,不影响关联的调度任务实例的运行状态 3、手动触发:按需手动触发
执行集群指定工作空间下,运行质量规则的计算集群
超时时间在设定的超时时间到达后,如果质量规则校验没有完成,会被系统自动取消

填写好必填的配置项后,点击“确认”按钮新建规则。

  1. 举例:如果您希望检测某个表的记录数是否符合预期,可以选择“记录数”作为内置指标,设置取值过滤为特定分区,期待结果为一个具体数值,触发方式为定时触发,执行集群为您的工作空间下的计算集群。

试跑质量规则

新建质量规则后,建议您使用“试跑”功能来验证配置的正确性。试跑成功后,您可以查看试跑结果,以便对规则进行调整。

查看试跑结果

点击“试跑”后,按照提示点击“查看结果”可以查看试跑校验的结果

配置监控告警

为确保数据质量问题得到及时处理,您可以为质量规则配置监控告警。有两种方式:

  1. 开启全局的质量监控告警:在监控告警模块中搜索“数据质量检测失败”,开启系统内置的全局质量校验监控规则。
  2. 配置自定义的质量监控告警:创建自定义监控规则,选择“质量规则校验失败”作为监控消息,并设置过滤条件,如工作空间或具体校验对象。

校验对象

在校验对象页面,您可以按照校验对象(表)的维度管理全部质量规则。使用搜索过滤区域,您可以快速定位到特定的规则。

校验结果

校验结果列表

在校验结果列表页面,您可以查看全部质量规则的运行情况。通过搜索和过滤区域,您可以精确地找到所需的校验结果。

校验结果的操作

针对每个校验结果,您可以执行以下操作:

  • 终止:取消当前的校验运行。
  • 置成功/置失败:将校验结果人为置为成功或失败。
  • 再次校验:触发质量校验的再次运行。请注意,如果校验失败的规则再次校验通过,不会继续触发监控告警的发送。

通过以上功能,您可以有效地管理和监控数据质量,确保数据在业务中的应用价值得到充分发挥。

联系我们
预约咨询
微信咨询
电话咨询