监控告警
概述
监控告警系统是一套强大的功能,它允许用户通过系统内置的规则或自定义规则,对任务运行状态等关键指标进行实时监控。一旦检测到异常情况,系统将发送及时的告警通知,帮助您确保数据流的稳定性和可靠性。
核心概念
概念 | 含义说明 |
---|---|
监控规则 | 指一组配置信息,包含具体对象和消息类型等关键属性,用以告知系统,哪些关键消息是其关注的。针对特定对象、配置特定条件的规则,在条件满足的情况下会产生告警事件 |
告警事件 | 基于监控规则,在监控条件满足时,产生的潜在需要发送告警通知的事件记录信息 |
通知历史 | 在告警事件产生后,实际推送给用户的信息记录。告警通知推送会基于下述三个策略的作用影响 |
通知策略 | 用于定义告警推送时,使用什么样的通知渠道、发送频次等,来推送给告警接收人 |
监控规则
监控规则列表展示了当前配置的所有规则。用户可以进行筛选和过滤操作,快速找到所需的规则。
对于单条规则,可以进行如下操作:
操作名称 | 行为定义 | 可操作人员 |
---|---|---|
查看详情 | 打开监控告警规则的详情页面,查看完整信息 | 对实例成员全部开放 |
开启/关闭 | 设定告警规则启用或者停止 | 实例管理员、实例运维角色 |
复制 | 基于当前规则,复制其配置属性,来产生新的规则 | 实例管理员、实例运维角色 |
编辑 | 通过合适的交互方式,支持用户来修改监控规则的属性 | 实例管理员、实例运维角色 |
订阅/取消订阅 | 把操作者自身加入/移出告警接收人 | 对实例成员全部开放 |
系统内置规则
系统提供了一些预设的全局监控规则,用户可以根据需要启用它们。
规则名称 | 规则作用 | 默认启停状态 |
---|---|---|
通用规则监控任务失败 | 监控任务实例失败的默认规则 | 默认关闭 |
新建监控规则
可以点击“新建规则”按钮,根据自己的需求创建自定义监控规则。
分类 | 参数 | 描述 |
---|---|---|
基础信息 | 名称 | 输入新建自定义规则的名称。 |
描述 | 非必填,您可以添加当前规则的描述信息,或填写在收到报警后,相关的处理方式等。 | |
触发条件 | 监控事项 | 具体的监控对象,当前系统支持「事件监控」和「指标监控」两种方式。 |
过滤条件 | 对消息的过滤条件,多个条件之间是“且”的关系 | |
告警等级 | 告警等级 | 通用模版中的告警等级配置规则如下,同时支持用户在通知策略中自定义配置不同等级的通知方式。 高危:使用所有告警通道发送,含电话 严重:使用所有告警通道发送,含电话 警告:系统内、邮件、短信、Webhook,不含电话 提醒:系统内、邮件、Webhook,不含电话、短信 用户点击告警等级会联动下方通知策略列表中呈现的信息。 |
监控通知 | 通知策略 | 点击下拉框直接选择在通知「通知策略」里管理的信息,或者点击+号,新建通知策略,具体通知策略的配置见通知策略 |
告警订阅 | 下拉选择针对该规则需要通知到的具体人 | |
Webhook通知 | 选择通知方式,目前支持的通知类型有 钉钉 飞书 | |
通知开始时间 | 监控规则触发后发送通知的开始时间 | |
通知结束时间 | 监控规则触发后发送通知的结束时间 |
触发条件规则
触发条件由监控事项、指标计算方式、阈值和触发方式组成。当前系统支持“事件监控”和“指标监控”两种类型。
基于「指标」的监控配置
针对指标监控类型,在定义好计算方式和阈值后,支持两种触发方式的配置。
持续:指标一旦连续N次触碰到阈值时,则会触发监控告警。
检查间隔:用户需定义在检查间隔范围内累计N次触碰到阈值后,才会触发监控告警。
指标监控配置:用户可以定义计算方式和阈值,并选择触发方式。例如,配置全增量一体同步任务延迟指标,延迟时间大于等于50秒,持续3个数据点,告警频次限制为30分钟发送一次。
00:40的时候,发现连续3次在阈值之上,第一次触发告警。接下来一直到01:50的时候,均处于第一次告警阶段。
在告警阶段,通过告警频次判断接下来的几个时间点,结合告警频次的配置决定是否持续发送告警。告警限制为30分钟发送一次,则会在01:10、01:40两个时间点发送告警通知。
从02:00开始,接下来后面的三次指标均处于阈值之下,则第一次告警恢复,不再触发告警通知。
若用户的触发方式是检查监控内的累积次数。
基于「事件」的监控配置
事件监控是基于特定事件或条件发生时产生的告警。用户可以基于当前产品内的运维实例或数据质量校验规则进行监控。基于产品内当前支持的行为,当前事件监控主要分为两大类:
任务运维:用户在开发场景内通过配置调度场景定义的各类周期调度任务,或者实时运行任务实例。
数据质量:用户在数据质量内配置的针对表质量的各类监控。
告警事件
告警事件列表展示了所有触发监控规则后的告警信息。用户可以对列表中的告警事件进行操作,如抑制或关闭。
抑制:设置当前告警事件在多少分钟内不再发送消息。
关闭:关闭当前告警事件,不再接收这类消息。
告警事件处理操作
操作 | 定义 | 适用场景 | 影响范围 |
---|---|---|---|
抑制 | 设置告警事件在指定时间内不再发送消息 | 已知问题正在处理中,暂时不需要重复告警 | 当前告警事件 |
关闭 | 关闭告警事件,停止接收此类消息 | 问题已解决或确认为误报 | 当前告警事件 |
自动关闭告警 --不是在告警事件中点击处理的 | 系统检测到问题恢复后自动关闭告警 | 任务实例重跑成功、手动置成功 | 相关告警事件 |
通知历史
通知历史记录了所有基于通知策略实际推送的消息通知。
通知策略
通知策略列表展示了所有定义好的通知策略。用户可以进行搜索和过滤操作。
新建通知策略
用户可以点击“新建策略”按钮,根据自己的需求创建新的通知策略。
分类 | 参数 | 描述 |
---|---|---|
基础信息 | 名称 | 通知策略的名称 |
描述 | 非必填,您可以添加当前规则的描述信息 | |
通知方式 | 高危告警 | 针对不同告警等级设置通知的具体方式,支持的方式有: wehook 短信 电话 |
严重告警 | ||
警告告警 | ||
提醒告警 | ||
通知时间 | 发送间隔(分钟) | 两次报警之间的时间间隔。 |
最大发送次数 | 报警的最大次数,超过设置的次数后,不再产生报警。 | |
免打扰开始时间 | 设置了免打扰时间后,则在该时间段内系统将不会发送告警。 例如,当设置了任务状态为运行失败时触发报警,且该任务设置的免打扰时间为00:00到08:00,则该时间段内将不会发出报警信息,如果到达8点,任务仍处于上述异常状态,将会发出报警信息。 | |
免打扰结束时间 |
配置管理
配置管理允许用户对个人信息和Webhook进行配置。
个人配置
用户可以在个人配置中修改接收告警的手机号和邮箱地址,并设置免打扰时段。
Webhook配置
Webhook配置用于定义告警推送所需的Webhook渠道,当前支持飞书和钉钉。
新建Webhook配置
用户可以点击“新建配置”按钮,填写所需参数来创建新的Webhook配置。建议在保存前进行测试,确保配置正确。
其它
监控告警自动关闭
对于任务实例运行失败的监控告警,在运维中心对实例进行处置后恢复成功,比如手动置成功或者重跑实例后成功等,会将对应的告警事件自动置为关闭,不需要人工去关闭。
Webhook告警的安全设置
钉钉等IM,对Webhook推送告警会有一定的安全设置,通过“自定义关键词”,新增配置上“云器”这个关键词即可。