跳到主要内容

北极星

功能概述

北极星系统通过梳理、采集和计算关键业务的核心指标,结合异常检测、关联分析,精准发现失败业务的真实故障,帮助团队快速发现业务问题并定位根因,提升业务故障响应效率和业务连续性保障能力。

名词一句话解释
业务线公司内部的业务组织或产品线名称,如“电商业务线”、“出行业务线”等。
北极星指标(SLI)直接反映业务核心价值是否正常的指标,例如:在线用户数、下单量等。
评估周期指计算可用性目标的时间范围,系统会按周期统计并评估业务可用性情况。
可用性配额评估周期内允许故障的总分钟数。
可用性目标(SLO)用于衡量业务在评估周期内应达到的服务可用性目标,99.99%、99.95%等。

落地步骤

  1. 根据业务需求梳理关键业务、对应的核心指标和业务线的负责人。
  2. 配置业务线和对应的核心指标。
  3. 配置核心指标的告警,告警支持静态阈值、动态基线、智能AI算法三种检测方式,可以根据业务需要选择。
  4. 北极星:查看关键业务和核心指标的健康状态。
  5. 灭火图:对异常指标进行分析和根因定位。当核心指标异常时,客户可快速定位业务对应的后端服务的异常。

配置指导

前提条件

  1. 进行配置前,先梳理确定需要监控的业务线及核心指标,明确各业务线的负责人等关键信息。
  2. 若业务的核心指标为观云探针采集的指标,即可直接创建业务线。若业务线的核心指标为第三方指标或复合指标,请先创建核心指标。

新建指标

  1. 在左侧导航栏选择“北极星”,进入北极星页面。
  2. 单击页面右上角的"新建指标"按钮,在添加自定义指标页面根据需要创建业务的北极星指标。 polaris-createmetric-light
  3. 点击“确定”。新增的指标会展示在指标体系中,用户可以在指标体系功能模块查看、编辑或者删除该指标。

新建业务线

新建业务:在北极星页面点击右上角的 「新建业务」 按钮进入「新建业务」页面。 polaris-create-light

  1. 填写基本信息
    • 业务线名称:公司内部的业务组织或产品线名称,如“电商业务线”、“出现业务线”等。
    • 负责人:该业务的主要责任人,通常为业务或技术负责人,负责业务的运行监控及异常处理。
    • 排序权重:用于北极星首页的业务排序,业务线按排序权重倒序显示。
    • 可用性目标(SLO):用于衡量业务在评估周期内应达到的服务可用性目标。
    • 评估周期:指计算可用性目标的时间范围,系统会按周期统计并评估业务可用性情况。
    • 可用性配额:评估周期内允许故障持续的总时长。
  2. 添加指标(SLI)
    • 从列表中选择一个核心指标。
    • (可选)设置过滤条件,选择该指标所关联的一个或多个实体。
  3. 保存:检查信息无误后,点击 「确定」

创建成功后,系统将开始计算该业务的可用性,用户可在北极星首页查看每个业务线才可用性及相关信息。

配置告警

从北极星首页,单击业务卡片进入详情页,显示每个北极星指标的趋势图。单击告警图标polaris-alarm-light进入告警配置页,为所选指标配置告警。

  • 告警规则支持 静态阈值动态阈值智能AI算法三种检测方式,可以根据业务需要选择。
  • 告警支持多种触发方式,可根据需求配置。
  • 支持添加通知策略和通知人。 polaris-createalarm-light

北极星首页

北极星页面展示所有的业务卡片。业务卡片通过不同颜色显示业务的健康状态:

  • 灰色卡片:表示该业务一切正常。
  • 红色卡片:表示该业务有异常指标,需要立即关注。

polaris-overview-light 业务卡片展示当前可用性、可用性目标、指标数等信息。各信息项说明如下:

  • 当前可用性:指在当前评估周期内(即创建业务监控时配置的“评估周期”),业务实际达到的可用程度,通常以百分比表示。计算方式为(1 - 业务实际故障分钟数 / 评估周期的分钟数)×100%,其中“业务实际故障分钟数”指核心指标触发告警且确认为故障的持续时间。
  • 可用性目标:即创建业务监控时配置的“可用性目标”(如99.99%),是业务计划达到的稳定程度。
  • 指标数:显示该业务已配置的核心指标中,异常指标与总指标的数量关系,以“异常指标数 / 总指标数”的形式展示。例如,显示“1 / 2”,表示该业务一共有2个监控指标,其中有1个指标处于异常状态。当“异常指标数 ≥ 1”时,业务卡片会显示红色(需立即关注),异常指标数越多,说明业务故障影响范围越广。
  • 负责人:即创建业务监控时配置的业务负责人(可多选),主要职责是在业务异常时接收告警通知、协调故障排查。
  • 可用性配额:指在当前评估周期内(即创建业务监控时配置的“评估周期”),业务已使用的故障时间占可用性配额的情况,以“业务实际故障分钟数 / 可用性配额”展示。例如,显示“3 / 12.24分钟”表示已消耗24.5%的可用性配额;若显示“12.24 / 12.24分钟”,说明可用性配额已耗尽,优先修复故障。

北极星详情

  1. 在北极星首页,点击红色业务卡片,进入详情页面。详情页面展示所选业务下所有核心指标的趋势图,红色卡片即为异常指标趋势图。 polaris-detail-light

  2. 将鼠标悬停在异常指标趋势图的红色标记区域,查看告警详情。

    polaris-detail-alarm-light

  3. 通过以下方式分析故障根因:

  • 点击异常指标趋势图右上角的灭火图图标polaris-fire-light,在弹出的灭火图中查看当前指标的关联实体(如应用、服务、接口等)状态。红色节点表示该关联实体异常,点击实体信息,显示该实体的详情页面,包括指标、疑似问题、日志、追踪等信息,帮助快速定位根因。 polaris-fire1-light
  • 单击多维探索图标
    polaris-esper-light
    ,跳转到多维探索页面,可以在多维探索页面对该指标按照不同的聚合方式、过滤条件和分组方式进行自由的数据查询和即席分析。

灭火图

单击灭火图的实体可查看实体的详情,包括:指标、关系、疑似问题、追踪、事件、日志和场景分析。例如:

  • 当登录成功率告警时,可分析登录发生的错误和追踪,定位到错误的根因和发生错误的代码,帮助用户快速定位到根因。 polaris-fire-detail-error-light
  • 灭火图可帮助梳理请求、服务的调用关系,帮助定位下游服务导致当前服务异常的问题。 polaris-fire-detail-serviceflow-light