监控告警

概述

监控告警系统是一套强大的功能,它允许用户通过系统内置的规则或自定义规则,对任务运行状态等关键指标进行实时监控。一旦检测到异常情况,系统将发送及时的告警通知,帮助您确保数据流的稳定性和可靠性。

核心概念

概念含义说明
监控规则指一组配置信息,包含具体对象和消息类型等关键属性,用以告知系统,哪些关键消息是其关注的。针对特定对象、配置特定条件的规则,在条件满足的情况下会产生告警事件
告警事件基于监控规则,在监控条件满足时,产生的潜在需要发送告警通知的事件记录信息
通知历史在告警事件产生后,实际推送给用户的信息记录。告警通知推送会基于下述三个策略的作用影响
通知策略用于定义告警推送时,使用什么样的通知渠道、发送频次等,来推送给告警接收人

监控规则

监控规则列表展示了当前配置的所有规则。用户可以进行筛选和过滤操作,快速找到所需的规则。

监控规则列表

对于单条规则,可以进行如下操作:

操作名称行为定义可操作人员
查看详情打开监控告警规则的详情页面,查看完整信息对实例成员全部开放
开启/关闭设定告警规则启用或者停止实例管理员、实例运维角色
复制基于当前规则,复制其配置属性,来产生新的规则实例管理员、实例运维角色
编辑通过合适的交互方式,支持用户来修改监控规则的属性实例管理员、实例运维角色
订阅/取消订阅把操作者自身加入/移出告警接收人对实例成员全部开放

系统内置规则

系统提供了一些预设的全局监控规则,用户可以根据需要启用它们。

规则名称规则作用默认启停状态
通用规则监控任务失败监控任务实例失败的默认规则默认关闭

新建监控规则

可以点击“新建规则”按钮,根据自己的需求创建自定义监控规则。

新建监控规则界面

分类参数描述
基础信息名称输入新建自定义规则的名称。
描述非必填,您可以添加当前规则的描述信息,或填写在收到报警后,相关的处理方式等。
触发条件监控事项具体的监控对象,当前系统支持「事件监控」和「指标监控」两种方式。
过滤条件对消息的过滤条件,多个条件之间是“且”的关系
告警等级告警等级通用模版中的告警等级配置规则如下,同时支持用户在通知策略中自定义配置不同等级的通知方式。 高危:使用所有告警通道发送,含电话 严重:使用所有告警通道发送,含电话 警告:系统内、邮件、短信、Webhook,不含电话 提醒:系统内、邮件、Webhook,不含电话、短信 用户点击告警等级会联动下方通知策略列表中呈现的信息。
监控通知通知策略点击下拉框直接选择在通知「通知策略」里管理的信息,或者点击+号,新建通知策略,具体通知策略的配置见通知策略
告警订阅下拉选择针对该规则需要通知到的具体人
Webhook通知选择通知方式,目前支持的通知类型有 钉钉 飞书
通知开始时间监控规则触发后发送通知的开始时间
通知结束时间监控规则触发后发送通知的结束时间

触发条件规则

触发条件由监控事项、指标计算方式、阈值和触发方式组成。当前系统支持“事件监控”和“指标监控”两种类型。

基于「指标」的监控配置

针对指标监控类型,在定义好计算方式和阈值后,支持两种触发方式的配置。

持续:指标一旦连续N次触碰到阈值时,则会触发监控告警。

检查间隔:用户需定义在检查间隔范围内累计N次触碰到阈值后,才会触发监控告警。

指标监控配置:用户可以定义计算方式和阈值,并选择触发方式。例如,配置全增量一体同步任务延迟指标,延迟时间大于等于50秒,持续3个数据点,告警频次限制为30分钟发送一次。

00:40的时候,发现连续3次在阈值之上,第一次触发告警。接下来一直到01:50的时候,均处于第一次告警阶段。

在告警阶段,通过告警频次判断接下来的几个时间点,结合告警频次的配置决定是否持续发送告警。告警限制为30分钟发送一次,则会在01:10、01:40两个时间点发送告警通知。

从02:00开始,接下来后面的三次指标均处于阈值之下,则第一次告警恢复,不再触发告警通知。

若用户的触发方式是检查监控内的累积次数。

基于「事件」的监控配置

事件监控是基于特定事件或条件发生时产生的告警。用户可以基于当前产品内的运维实例或数据质量校验规则进行监控。基于产品内当前支持的行为,当前事件监控主要分为两大类:

任务运维:用户在开发场景内通过配置调度场景定义的各类周期调度任务,或者实时运行任务实例。

数据质量:用户在数据质量内配置的针对表质量的各类监控。

告警事件

告警事件列表展示了所有触发监控规则后的告警信息。用户可以对列表中的告警事件进行操作,如抑制或关闭。

抑制:设置当前告警事件在多少分钟内不再发送消息。

关闭:关闭当前告警事件,不再接收这类消息。 告警事件列表

告警事件处理操作

操作定义适用场景影响范围
抑制设置告警事件在指定时间内不再发送消息已知问题正在处理中,暂时不需要重复告警当前告警事件
关闭关闭告警事件,停止接收此类消息问题已解决或确认为误报当前告警事件
自动关闭告警 --不是在告警事件中点击处理的系统检测到问题恢复后自动关闭告警任务实例重跑成功、手动置成功相关告警事件

通知历史

通知历史记录了所有基于通知策略实际推送的消息通知。

通知历史列表

通知策略

通知策略列表展示了所有定义好的通知策略。用户可以进行搜索和过滤操作。

通知策略列表

新建通知策略

用户可以点击“新建策略”按钮,根据自己的需求创建新的通知策略。

新建通知策略界面

分类参数描述
基础信息名称通知策略的名称
描述非必填,您可以添加当前规则的描述信息
通知方式高危告警针对不同告警等级设置通知的具体方式,支持的方式有: wehook 短信 电话
严重告警
警告告警
提醒告警
通知时间发送间隔(分钟)两次报警之间的时间间隔。
最大发送次数报警的最大次数,超过设置的次数后,不再产生报警。
免打扰开始时间设置了免打扰时间后,则在该时间段内系统将不会发送告警。 例如,当设置了任务状态为运行失败时触发报警,且该任务设置的免打扰时间为00:00到08:00,则该时间段内将不会发出报警信息,如果到达8点,任务仍处于上述异常状态,将会发出报警信息。
免打扰结束时间

配置管理

配置管理允许用户对个人信息和Webhook进行配置。

个人配置

用户可以在个人配置中修改接收告警的手机号和邮箱地址,并设置免打扰时段。

个人配置界面

Webhook配置

Webhook配置用于定义告警推送所需的Webhook渠道,当前支持飞书和钉钉。

Webhook配置界面

新建Webhook配置

用户可以点击“新建配置”按钮,填写所需参数来创建新的Webhook配置。建议在保存前进行测试,确保配置正确。

其它

监控告警自动关闭

对于任务实例运行失败的监控告警,在运维中心对实例进行处置后恢复成功,比如手动置成功或者重跑实例后成功等,会将对应的告警事件自动置为关闭,不需要人工去关闭。

Webhook告警的安全设置

钉钉等IM,对Webhook推送告警会有一定的安全设置,通过“自定义关键词”,新增配置上“云器”这个关键词即可。

联系我们
预约咨询
微信咨询
电话咨询