北极星
功能概述
北极星系统通过梳理、采集和计算关键业务的核心指标,结合异常检测、关联分析,精准发现失败业务的真实故障,帮助团队快速发现业务问题并定位根因,提升业务故障响应效率和业务连续性保障能力。
| 名词 | 一句话解释 |
|---|---|
| 业务线 | 公司内部的业务组织或产品线名称,如“电商业务线”、“出行业务线”等。 |
| 北极星指标(SLI) | 直接反映业务核心价值是否正常的指标,例如:在线用户数、下单量等。 |
| 评估周期 | 指计算可用性目标的时间范围,系统会按周期统计并评估业务可用性情况。 |
| 可用性配额 | 评估周期内允许故障的总分钟数。 |
| 可用性目标(SLO) | 用于衡量业务在评估周期内应达到的服务可用性目标,99.99%、99.95%等。 |
落地步骤
- 根据业务需求梳理关键业务、对应的核心指标和业务线的负责人。
- 配置业务线和对应的核心指标。
- 配置核心指标的告警,告警支持静态阈值、动态基线、智能AI算法三种检测方式,可以根据业务需要选择。
- 北极星:查看关键业务和核心指标的健康状态。
- 灭火图:对异常指标进行分析和根因定位。当核心指标异常时,客户可快速定位业务对应的后端服务的异常。
配置指导
前提条件
- 进行配置前,先梳理确定需要监控的业务线及核心指标,明确各业务线的负责人等关键信息。
- 若业务的核心指标为观云探针采集的指标,即可直接创建业务线。若业务线的核心指标为第三方指标或复合指标,请先创建核心指标。
新建指标
- 在左侧导航栏选择“北极星”,进入北极星页面。
- 单击页面右上角的"新建指标"按钮,在添加自定义指标页面根据需要创建业务的北极星指标。

- 点击“确定”。新增的指标会展示在指标体系中,用户可以在指标体系功能模块查看、编辑或者删除该指标。
新建业务线
新建业务:在北极星页面点击右上角的 「新建业务」 按钮进入「新建业务」页面。

- 填写基本信息:
- 业务线名称:公司内部的业务组织或产品线名称,如“电商业务线”、“出现业务线”等。
- 负责人:该业务的主要责任人,通常为业务或技术负责人,负责业务的运行监控及异常处理。
- 排序权重:用于北极星首页的业务排序,业务线按排序权重倒序显示。
- 可用性目标(SLO):用于衡量业务在评估周期内应达到的服务可用性目标。
- 评估周期:指计算可用性目标的时间范围,系统会按周期统计并评估业务可用性情况。
- 可用性配额:评估周期内允许故障持续的总时长。
- 添加指标(SLI):
- 从列表中选择一个核心指标。
- (可选)设置过滤条件,选择该指标所关联的一个或多个实体。
- 保存:检查信息无误后,点击 「确定」。
创建成功后,系统将开始计算该业务的可用性,用户可在北极星首页查看每个业务线才可用性及相关信息。
配置告警
从北极星首页,单击业务卡片进入详情页,显示每个北极星指标的趋势图。单击告警图标进入告警配置页,为所选指标配置告警。
- 告警规则支持 静态阈值、动态阈值、智能AI算法三种检测方式,可以根据业务需要选择。
- 告警支持多种触发方式,可根据需求配置。
- 支持添加通知策略和通知人。

北极星首页
北极星页面展示所有的业务卡片。业务卡片通过不同颜色显示业务的健康状态:
- 灰色卡片:表示该业务一切正常。
- 红色卡片:表示该业务有异常指标,需要立即关注。
业务卡片展示当前可用性、可用性目标、指标数等信息。各信息项说明如下:
- 当前可用性:指在当前评估周期内(即创建业务监控时配置的“评估周期”),业务实际达到的可用程度,通常以百分比表示。计算方式为(1 - 业务实际故障分钟数 / 评估周期的分钟数)×100%,其中“业务实际故障分钟数”指核心指标触发告警且确认为故障的持续时间。
- 可用性目标:即创建业务监控时配置的“可用性目标”(如99.99%),是业务计划达到的稳定程度。
- 指标数:显示 该业务已配置的核心指标中,异常指标与总指标的数量关系,以“异常指标数 / 总指标数”的形式展示。例如,显示“1 / 2”,表示该业务一共有2个监控指标,其中有1个指标处于异常状态。当“异常指标数 ≥ 1”时,业务卡片会显示红色(需立即关注),异常指标数越多,说明业务故障影响范围越广。
- 负责人:即创建业务监控时配置的业务负责人(可多选),主要职责是在业务异常时接收告警通知、协调故障排查。
- 可用性配额:指在当前评估周期内(即创建业务监控时配置的“评估周期”),业务已使用的故障时间占可用性配额的情况,以“业务实际故障分钟数 / 可用性配额”展示。例如,显示“3 / 12.24分钟”表示已消耗24.5%的可用性配额;若显示“12.24 / 12.24分钟”,说明可用性配额已耗尽,优先修复故障。
北极星详情
-
在北极星首页,点击红色业务卡片,进入详情页面。详情页面展示所选业务下所有核心指标的趋势图,红色卡片即为异常指标趋势图。

-
将鼠标悬停在异常指标趋势图的红色标记区域,查看告警详情。

-
通过以下方式分析故障根因:
- 点击异常指标 趋势图右上角的灭火图图标
,在弹出的灭火图中查看当前指标的关联实体(如应用、服务、接口等)状态。红色节点表示该关联实体异常,点击实体信息,显示该实体的详情页面,包括指标、疑似问题、日志、追踪等信息,帮助快速定位根因。

- 单击多维探索图标 ,跳转到多维探索页面,可以在多维探索页面对该指标按照不同的聚合方式、过滤条件和分组方式进行自由的数据查询和即席分析。
灭火图
单击灭火图的实体可查看实体的详情,包括:指标、关系、疑似问题、追踪、事件、日志和场景分析。例如:
- 当登录成功率告警时,可分析登录发生的错误和追踪,定位到错误的根因和发生错误的代码,帮助用户快速定位到根因。

- 灭火图可帮助梳理请求、服务的调用关系,帮助定位下游服务导致当前服务异常的问题。
