入门指南:如何快速配置和使用监控告警规则
适用场景
如果您配置了ETL流程,比如完成了前文的 入门指南:如何快速配置编排和周期调度ETL流程,计划对任务运行的稳定性和产出的数据质量检查增加一个监控、在出现异常时发送告警通知,建议阅读此指南。
前置阅读
在阅读本指南之前,建议完成以下文档的阅读和理解:
操作指南
Lakehouse Studio的「监控告警」产品模块,提供了一套强大的功能,它允许用户通过系统内置的规则或自定义规则,对任务运行状态等关键指标进行实时监控。一旦检测到异常情况,系统将发送及时的告警通知,帮助您确保数据流的稳定性和可靠性。
使用说明
具备 工作空间管理员角色(workspace_admin)
、工作空间开发角色(workspace_dev)
或者 工作空间运维角色(workspace_sre)
的用户,可以使用「监控告警」功能。
操作步骤
进入监控告警模块
-
如下图所示,点击按钮进入Lakehouse服务实例:
-
导航到「运维监控」>「监控告警」页面:
使用内置规则
如上文提及,产品内部内置了全局的监控规则可供选择启用。
-
如下图所示,主要内置了“周期任务实例的运行失败”和“数据质量检测失败”两类监控规则:
-
点击具体的监控规则,可以查看其详细的配置定义。以“数据质量检测失败-强规则”为例,下图展示了其监控事项、告警通知方式和通知人员等核心信息。
- 监控事项:强阻塞调度的质量规则校验失败的情况。
- 告警通知:严重等级的规则、按照通知策略的定义(此处不展开,详见相关文档),会通过电话推送告警。
- 通知人员:默认会通知给对象责任人。对于数据质量规则,默认通知给规则创建人。
-
启用内置的全局告警规则和订阅,继续以“数据质量检测失败-强规则”为例:
- 点击“开启”即可启用此规则【1】。按照规则定义,本告警会通知到对象责任人,即质量规则的创建人。
- 如果您不是对象责任人(比如不是质量规则的创建人),但也想关注此告警,可以点击“订阅”按钮【2】。
自定义监控规则
内置规则主要从全局的维度进行整体监控、方便快速使用。但在实际情况下,对于一些特殊对象,也有存在单独配置精细化监控的诉求。这种情况下需要使用自定义监控规则的能力。
在下面的示意中,会展示如何监控特定周期调度任务的实例运行失败、通过电话告警,主要操作步骤如下:
-
在“监控规则”列表里面,点击“新建规则”按钮。
-
在新建规则的弹框中,填写规则的必填信息、保存。
- 监控事项:任务实例运行失败,通过过滤项,选择具体的任务名称。
- 告警通知:等级设定为“警告”、选用“通用通知策略”,来发送短信告警。通知人员默认会选择上当前操作人。
-
规则创建后,在列表中会展示出一条记录:
-
观察监控规则的工作情况。
-
这里做一个模拟的错误变更:把被监控的任务的SQL逻辑进行一个改动、使用一个错误字段名,提交调度运行。来触发一个调度实例运行失败。
-
任务被调度运行、出现失败后,在「监控告警」中可观察到监控告警规则的工作情况,符合预期:
- 在“告警事件”中,可以看到新增了一条告警事件:
- 在“通知历史”中,可以看到具体的告警通知推送情况:
- 在“告警事件”中,可以看到新增了一条告警事件:
-
至此,已经完成了监控告警内置规则和自定义规则的配置和实际工作效果观察。
相关文档
- 强烈建议您进一步阅读 监控告警 的帮助文档来了解监控告警模块的完整使用指南,尤其是进一步理解监控规则、通知策略、告警事件、通知历史等核心概念。
下一步建议
- 无