告警管理
概述
告警管理帮助你把"发现异常→通知到人→快速处置"串成闭环:用统一的规则监测关键指标与事件,按策略路由到合适的人与渠道,自动去噪与收敛,及时通知,从而降低MTTA/MTTR、减少无效告警。
概念解释
1.告警细分类型:指标周期性告警、事件监测告警和VIP告警。 其中,事件监测告警中的“新增崩溃告警”和“超长请求告警”是没有“恢复”事件的,是一次性事件,下个版本会增加“已发生”状态。 当前考虑到事件的周末周期,为这两个事件增加了“自动关闭”,即这两类事件发生后,默认6个小时后自动关闭。
2.告警状态
- 告警中:告警事件产生后还未恢复。
- 已恢复:告警事件中的指标从异常变为正常状态,符合恢复条件的,被置为已恢复。
- 已关闭:告警事件属于已恢复状态,通过一段“观察窗口期”后没有出现告警抖动,才会被认为真正处理解除了,状态置为已关闭。当前“观察窗口期”默认为10分钟。
3.通知配置
- 警报:没生成疑似问题的警报,发送的通知警报类型的通知模版内容。
- 疑似问题:一个疑似问题包含1-n个警报。这些警报默认按照“疑似问题”的通知模版来发送通知给客户,包含的警报不会再独立通知。
4.收敛原则 AI智能收敛是通过判断在一定有效时间窗口内,多个警报是否是由于同一个根因引起的,算 法判断如果是由同一个根因引起的,则将这些警报聚合成一个疑似问题。
应用场景
针对平台监控的实体提供指标告警、事件监测告警,通过通知配置将符合告警条件的事件路由到相关渠道和负责人,使用通知模版告知告警内容。
配置思路
- 首先,配置通知模版,系统默认提供了邮件、短信、微信小程序和微信公众号的模版,其他可自定义。
- 其次,配置通知配置,针对警报或疑似问题的严重级别和状态选择不同的通知渠道和负责人。
- 最后,配置告警规则,选择监控实体和指标,设置告警阈值,明确触发条件,完成配置。
前提条件
- 如果是对VIP用户设置告警规则,首先要创建VIP用户和VIP用户组。配置后平台会自动下发规则给采集器,采集器会根据VIP标识对数据进行处理。
- 被标记为VIP的用户,在APM和RUM采集链路信息时,不会被"采样"。
告警列表
作为告警事件的呈现入口,默认展示所有正在告警中(不受"查询时间窗口"限制)的事件,可以通过筛选条件搜索想关注的告警。
时间窗口
查询告警事件的时间范围窗口,通常与告警搜索绑定在一起使用。
默认展示所有正在告警中的事件,不受"查询时间窗口"限制。
只有当状态选中了"已恢复"或"已关闭"时,查询时间窗口才有效。
如下图,查询时间窗口为"最近30分钟":

系统默认展示告警中的事件数据,因此以下告警ID会被查询并展示:
- #703(30天前发生的告警事件,状态一直处于"告警中")
- #1122(在查询时间窗口内产生的告警)
告警列表

| 页面区域 | 信息项 | 说明 |
|---|---|---|
| 1 筛选栏 | 状态 | 默认展示"告警中"的告警事件。 |
| 告警级别 | 致命、严重、警告和信息。 | |
| 告警分类 | 可用性、错误、慢、资源、自定义事件。 | |
| 是否VIP告警 | 是和否 | |
| 是否事件监测 | 是和否 | |
| 2 时间窗口 | 时间控件 | 通过选择时间控件来查找告警信息。 |
| 3 过滤条件 | 告警ID | 精确查询 |
| 实体对象 | 模糊匹配 | |
| 告警规则 | 模糊匹配 | |
| 4 告警列表 | 告警内容 | 点击后页面跳转进入到告警详情页面。 |
| 实体对象 | 告警事件归属监控实体对象。 | |
| 状态 | 告警中、已恢复、关闭。 | |
| 告警规则 | 点击后可查看该告警事件对应的告警规则详情。 | |
| 归属问题 | 告警收敛后会归属于疑似问题,有的告警不收敛因此不归属疑似问题。 | |
| 告警分类 | 可用性、错误、慢、资源、自定义事件 | |
| 告警时间 | 符合告警条件的最后一个时间点,例如:5分钟3次达到阈值就告警,则将第三次达到阈值后的时间作为告警时间。 | |
| 持续时间 | 告警关闭时间-告警时间 (告警已经关闭) 系统当前时间-告警时间(告警还未关闭) | |
| 恢复时间 | 告警恢复但有可能产生告警抖动现象,因此还需要一段"观察期"。 | |
| 关闭时间 | 从告警恢复开始经过一小段观察期后真正"结束"的时间。 | |
| 告警ID | 告警唯一标识,用于告警查询。 | |
| 5 告警操作 | 导出Excel | 最多1000条限制。 |
| 自定义表头 | 可以灵活选择展示哪些列字段。 | |
| 添加到仪表盘 | 可将告警列表添加到已有仪表盘。 |