跳到主要内容

告警管理

概述

告警管理帮助你把"发现异常→通知到人→快速处置"串成闭环:用统一的规则监测关键指标与事件,按策略路由到合适的人与渠道,自动去噪与收敛,及时通知,从而降低MTTA/MTTR、减少无效告警。

概念解释

1.告警细分类型:指标周期性告警、事件监测告警和VIP告警。 其中,事件监测告警中的“新增崩溃告警”和“超长请求告警”是没有“恢复”事件的,是一次性事件,下个版本会增加“已发生”状态。 当前考虑到事件的周末周期,为这两个事件增加了“自动关闭”,即这两类事件发生后,默认6个小时后自动关闭。

2.告警状态

  • 告警中:告警事件产生后还未恢复。
  • 已恢复:告警事件中的指标从异常变为正常状态,符合恢复条件的,被置为已恢复。
  • 已关闭:告警事件属于已恢复状态,通过一段“观察窗口期”后没有出现告警抖动,才会被认为真正处理解除了,状态置为已关闭。当前“观察窗口期”默认为10分钟。

3.通知配置

  • 警报:没生成疑似问题的警报,发送的通知警报类型的通知模版内容。
  • 疑似问题:一个疑似问题包含1-n个警报。这些警报默认按照“疑似问题”的通知模版来发送通知给客户,包含的警报不会再独立通知。

4.收敛原则 AI智能收敛是通过判断在一定有效时间窗口内,多个警报是否是由于同一个根因引起的,算法判断如果是由同一个根因引起的,则将这些警报聚合成一个疑似问题。

应用场景

针对平台监控的实体提供指标告警、事件监测告警,通过通知配置将符合告警条件的事件路由到相关渠道和负责人,使用通知模版告知告警内容。

配置思路

  1. 首先,配置通知模版,系统默认提供了邮件、短信、微信小程序和微信公众号的模版,其他可自定义。
  2. 其次,配置通知配置,针对警报或疑似问题的严重级别和状态选择不同的通知渠道和负责人。
  3. 最后,配置告警规则,选择监控实体和指标,设置告警阈值,明确触发条件,完成配置。

前提条件

  • 如果是对VIP用户设置告警规则,首先要创建VIP用户和VIP用户组。配置后平台会自动下发规则给采集器,采集器会根据VIP标识对数据进行处理。
  • 被标记为VIP的用户,在APM和RUM采集链路信息时,不会被"采样"。

告警列表

作为告警事件的呈现入口,默认展示所有正在告警中(不受"查询时间窗口"限制)的事件,可以通过筛选条件搜索想关注的告警。

时间窗口

查询告警事件的时间范围窗口,通常与告警搜索绑定在一起使用。

默认展示所有正在告警中的事件,不受"查询时间窗口"限制。

只有当状态选中了"已恢复"或"已关闭"时,查询时间窗口才有效。

如下图,查询时间窗口为"最近30分钟":

时间窗口示例

系统默认展示告警中的事件数据,因此以下告警ID会被查询并展示:

  • #703(30天前发生的告警事件,状态一直处于"告警中")
  • #1122(在查询时间窗口内产生的告警)

告警列表

告警列表示例

页面区域信息项说明
1 筛选栏状态默认展示"告警中"的告警事件。
告警级别致命、严重、警告和信息。
告警分类可用性、错误、慢、资源、自定义事件。
是否VIP告警是和否
是否事件监测是和否
2 时间窗口时间控件通过选择时间控件来查找告警信息。
3 过滤条件告警ID精确查询
实体对象模糊匹配
告警规则模糊匹配
4 告警列表告警内容点击后页面跳转进入到告警详情页面。
实体对象告警事件归属监控实体对象。
状态告警中、已恢复、关闭。
告警规则点击后可查看该告警事件对应的告警规则详情。
归属问题告警收敛后会归属于疑似问题,有的告警不收敛因此不归属疑似问题。
告警分类可用性、错误、慢、资源、自定义事件
告警时间符合告警条件的最后一个时间点,例如:5分钟3次达到阈值就告警,则将第三次达到阈值后的时间作为告警时间。
持续时间告警关闭时间-告警时间 (告警已经关闭)
系统当前时间-告警时间(告警还未关闭)
恢复时间告警恢复但有可能产生告警抖动现象,因此还需要一段"观察期"。
关闭时间从告警恢复开始经过一小段观察期后真正"结束"的时间。
告警ID告警唯一标识,用于告警查询。
5 告警操作导出Excel最多1000条限制。
自定义表头可以灵活选择展示哪些列字段。
添加到仪表盘可将告警列表添加到已有仪表盘。

告警详情

展示该告警事件的整个生命周期状态过程、告警指标趋势图和告警事件属性信息。

告警详情示例

页面区域信息项说明
1 告警标题告警级别致命、严重、警告和信息。
标题描述最新的告警事件描述。
2 告警属性告警ID告警唯一标识,用于告警查询。
告警分类可用性、错误、慢、资源、自定义事件
实体对象告警实体监控的对象
告警规则点击后右侧抽屉面板显示详情
3 指标趋势图指标名称告警的指标名称
警戒线由告警阈值形成的警戒线
趋势图未关闭告警:往前观察1倍时间+告警持续时间
已关闭告警:往前观察1倍时间+告警持续时间+往后观察1倍时间
多维探索点击后进入到多维探索页面进一步探索该指标趋势图展现出的问题。
4 事件告警时间轴由上到下优先展示最新一条的告警事件详情
告警详情展示告警事件基本的属性信息。其中,通知人鼠标悬浮,可展示具体的通知渠道、通知调用接口是否成功、通知时间。

告警配置

概述

通过选择监控实体、监控指标,设置告警触发条件、匹配通知策略,完成告警规则的配置,以确保监控数据触发告警规则条件后产生告警及通知。

配置思路

  1. 选择告警实体和指标:
    1. 选择按照"以实体模型配置"方式。
    2. 选择按照"以指标模型配置"方式。
  2. 配置告警阈值:静态阈值、动态基线、智能AI算法
  3. 事件生成:事件标题、内容、分类和级别。
  4. 收敛配置:可配置收敛或不收敛。
  5. 通知策略,选择已有策略或新建策略完成。

配置指导

创建告警配置

参数配置信息项说明
基本信息规则名称为告警规则命名
以实体模型配置实体模型传统告警配置方式,先选择告警实体,在根据告警实体选择配置的指标。
失效时间在失效时间不生成告警事件。
无数据解除等待时长等待1天还未恢复,则系统自动补发一个恢复事件。
筛选实体触发条件满足以下所有条件(and关系),满足以下任意条件(or关系)
根据按照标签筛选实体
过滤标签key
条件表达式等于,存在,在...之中
新增新增一条过滤条件
以指标模型配置指标模型默认"METRIC"模型。
查询偏移量对于延迟上报的指标,配置滑动评估窗口的分钟偏移量可使事件的生成更精确
VISUALIZE选择"度量指标+指标统计函数"
WHERE通过指标数据的属性,筛选指标数据范围
静态阈值触发方式大于,大于等于,小于,小于等于,等于,不等于
静态阈值输入的告警阈值
动态基线基线配置选择几日基线,作为基准值,与指标当前数值进行对比
基线算法偏移基线百分比
偏移基线固定值
偏移阈值百分比数值还是具体固定的一个数值
触发方式大于基线,小于基线,偏离基线(包括偏移上限和下限)
智能AI算法灵敏度1-100之间,越大代表选出的异常点越严格
触发方式大于阈值上届,小于阈值下届,超过阈值边界
无数据上报无数据上报指标无数据上报告警
事件监测事件类型无数据告警、无心跳告警、请求时长告警、新增崩溃率告警
事件生成事件标题系统提供默认值,用户可以自己用"常量+变量"配置
事件描述系统提供默认值,用户可以自己用"常量+变量"配置
事件分类可用性、错误、慢、资源、自定义事件
事件级别致命、严重、警告和信息
收敛配置不收敛只生成警报,不生成疑似问题
AI智能收敛同时生成警报和疑似问题
通知策略选择如果平台有匹配的策略会自动关联带出展示,如果没有请点击"新增通知策略"
新增通知策略在右侧抽屉面板展示新增通知策略页面
页面保存取消取消对当前配置不予保存
确定将配置页面进行保存

告警配置列表

告警配置列表示例

信息项说明
规则名称告警配置规则的名称
通知策略展示匹配的通知策略名称,1-n个。
规则启动告警唯一标识,用于告警查询。
操作编辑:可修改已有的告警配置
复制:复制一条已有的告警配置
删除:删除一条已有的告警配置
列表搜索支持对告警规则名称进行模糊匹配搜索。
新建点击"新建"按钮,在下方浮动窗口中为您提供了"告警规则创建"和"VIP告警规则创建"两种场景,根据需求选择对应告警规则场景进行创建即可。
导出点击"导出"图标,以Excel文件格式形式导出最多1000条列表数据。

通知配置

概述

通知配置功能旨在帮助用户灵活管理告警通知,确保关键事件能够迅速触达相关人员,提升问题响应效率。

配置思路

  1. 先确定推送类型方式:"警报"还是"疑似问题"。
  2. 设置推送触发条件。
  3. 配置对应的通知渠道和通知人。
  4. 点击"保存"完成配置。

配置指导

新建通知配置

新建通知配置示例

参数配置信息项说明
基本信息策略名称为通知策略命名
策略信息策略分类警报、疑似问题
通过标签、实体或者规则过滤通知的问题开关,代表启用和不启用。
告警规则选择为某一个告警规则配置对应的通知策略
使用标签过滤实体对象有打过标签的,可以筛选过滤
使用实体过滤实体对象的属性,通过筛选过滤
使用告警规则的分组过滤通过"指标模型配置"来设置告警规则的,通过"分组"字段,筛选过滤
规则条件-警报致命告警严重程度的最高级别
严重告警严重程度的次高级别
警告告警严重程度的中等级别
信息告警严重程度的最低级别
解除告警恢复对应的状态
规则条件-疑似问题-问题状态变化新问题产生新产生问题时触发通知
问题解除问题解除时触发通知
问题关闭问题关闭时触发通知
问题重新打开问题重新打开时触发通知,当问题处于解除状态时,当有新的事件追加到问题时,即为重新打开状态。
有新实体加入问题有新的告警事件实体追加到问题时
规则条件-疑似问题-问题根因变化根因发生变化疑似问题根因判定发生变化时触发通知
规则条件-疑似问题-问题等级变化问题等级转为严重(FATAL)严重时触发通知
问题等级转为错误(ERROR)错误时触发通知
问题等级转为警告(WARNING)警告时触发通知
问题等级转为信息(INFO)信息时触发通知
响应动作通用通知包括语音、短信、邮件、企业微信(个人)、企业微信(小程序)。
选择通知渠道、通知模版、接收人/接收组、通知时间范围
第三方通知在第三方推送中配置的通知对象。
选择通知渠道、通知模版、接收人/接收组、通知时间范围
页面保存取消取消对当前配置不予保存
确定将配置页面进行保存

通知配置列表

通知配置列表示例

页面区域信息项说明
列表表头策略名称致命、严重、警告和信息。
策略分类最新的告警事件描述。
响应动作告警唯一标识,用于告警查询。
创建时间可用性、错误、慢、资源、自定义事件
变更时间告警实体监控的对象
启用状态让通知配置生效或失效
列表操作编辑修改通知配置策略。
复制对已有的通知配置进行快速复制。
删除点击右上角的新建按钮,去配置通知策略。
搜索区域搜索条件模糊匹配告警策略名称
新建点击后在右侧抽屉面板新打开一个配置页面
导出点击"导出"图标,以Excel文件格式形式导出最多1000条列表数据。

通知模版

概述

平台根据不同通知渠道(如短信、邮件、语音等)提供了默认的告警通知模版。

用户也可以手动添加自定义的通知模版。

注意:当前短信通知渠道,不允许用户自己手动创建通知模版,因为运营商限制要求,只能用平台默认的模版。

配置指导

新建通知模版

新建通知模版示例

以邮件通知渠道模版为例,平台默认给出了模版内容,用户可以基于这个模版进行自定义修改。

表单元素:

信息项说明
模版名称为通知模版命名。
模版类型警报、疑似问题,点击切换后,模版内容和右侧模版变量说明会动态变化。
邮件标题系统默认给了一个"变量+常量"的标题内容,用户可以自行设置。
内容格式TXT(简单格式)、HTML(富文本格式)
包含短链接是、否
模版内容系统默认给了一个"变量+常量"的标题内容,用户可以自行设置。
变量说明对邮件标题和内容中的变量进行说明解释
取消对当前配置不予保存
确定将配置页面进行保存

模版列表

模版列表示例

页面区域信息项说明
列表表头模版名称通知模版名称。
模版类型警报、疑似问题。
通知渠道通用通知和第三方通知。
启用状态让通知配置生效或失效
列表操作编辑修改通知模版。
复制对已有的通知模版进行快速复制。
删除点击右上角的新建按钮,去配置通知模版。
搜索区域搜索条件模糊匹配模版名称
新建点击后在右侧抽屉面板新打开一个配置页面
导出点击"导出"图标,以Excel文件格式形式导出最多1000条列表数据。

VIP设置

概述

VIP用户和VIP用户组功能用于对关键用户或业务对象进行重点监控与告警管理,支持创建专属用户组、定制告警策略和通知规则,确保关键业务事件得到优先响应。

应用场景

针对用户的VIP用户进行监控告警,当VIP用户出现类似用户体验卡顿、响应时间慢、后端页面服务请求慢等情形,第一时间通知VIP用户所属的负责人,第一时间帮助排查问题、解决性能体验差的问题。

配置思路

  1. 先创建VIP用户和VIP用户组。
  2. 根据配置好的参数内容平台自动下发到采集器。
  3. 采集器根据规则自动给数据打VIIP标签。
  4. 在告警规则中创建VIP用户告警。

配置指导

新建VIP用户

新建VIP用户示例

信息项说明
VIP用户标识我们平台用户的用户,录入用户唯一标识
VIP用户信息
邮箱邮箱地址用于邮件告警通知
手机号用于短信或语音告警通知
选择VIP用户组归属VIP用户组

VIP用户列表

通过手动创建VIP用户来维护管理。

VIP用户列表示例

页面区域信息项说明
列表表头VIP用户标识通知模版名称。
VIP用户信息
邮箱VIP用户的邮箱地址。
手机号VIP用户的手机号码。
列表操作编辑修改VIP用户配置。
复制对已有的VIP用户配置进行快速复制。
删除点击右上角的新建按钮,去配置VIP用户。
搜索区域搜索条件模糊匹配VIP用户标识和VIP用户信息
新建点击后在右侧抽屉面板新打开一个配置页面
导出点击"导出"图标,以Excel文件格式形式导出最多1000条列表数据。

新建VIP用户组

新建VIP用户组示例

信息项说明
组名为VIP用户组命名
过滤方式根据下拉框值筛选出符合的VIP用户。
组员名单根据过滤方式匹配对应的内容,进行填写完成。

VIP用户组列表

VIP用户组列表示例

页面区域信息项说明
列表表头组名VIP用户组名称。
过滤方式指定用户ID、包含、不包含、等于、正则表达式、以前缀开始、以后缀结束
组员名单根据过滤方式筛选组员名单。
人数该VIP用户组下的VIP用户数量。
列表操作编辑修改VIP用户组配置。
复制对已有的VIP用户组配置进行快速复制。
删除点击右上角的新建按钮,去配置VIP用户组。
搜索区域搜索条件模糊匹配VIP用户组名称。
新建点击后在右侧抽屉面板新打开一个配置页面
导出点击"导出"图标,以Excel文件格式形式导出最多1000条列表数据。