AIOps故障复盘案例：当“智能”引发告警风暴与漏报

作者：ai | 发布时间：2026-05-11 19:01

AIOps故障复盘案例：当“智能”引发告警风暴与漏报

在AIOps（智能运维）落地过程中，算法模型往往被寄予厚望，以为引入了动态基线就能一劳永逸地解决告警洪流问题。然而，现实往往比模型复杂得多。本文将复盘一起因AIOps平台动态基线失准，导致告警风暴与关键故障漏报并发的典型生产事件，探讨智能运维的边界与改进方向。

故障背景

某电商平台在年中大促期间，核心交易链路出现间歇性响应延迟，导致部分用户下单失败。该问题持续了近2小时，期间运维团队并未收到任何P0/P1级别的致命告警，直到客服侧大量客诉涌入，运维才手动介入排查。

更具讽刺意味的是，在此期间，AIOps平台的告警系统并未“沉默”，反而处于疯狂状态——在故障发生的2小时内，运维组共收到超过1500条P2/P3级别的“指标异常”告警（涉及CPU使用率微波动、网络包微小延迟等）。由于告警数量过多，运维人员陷入“狼来了”的疲劳状态，导致真正核心的数据库连接池耗尽告警被淹没在无意义的噪音中。

排查过程

故障发生后，我们立即成立了联合排查小组，整个过程分为“业务止血”与“平台溯源”两步：

业务侧止损：通过调用链追踪，定位到订单服务响应慢的根因是数据库连接池被占满。通过紧急扩容数据库连接池并重启僵死进程，业务在15分钟内恢复。
AIOps平台溯源：为什么数据库连接池接近满载时，AIOps没有提前预警？为什么会产生1500条低级别告警？

- 我们调取了AIOps平台在故障窗口的动态基线数据，发现数据库连接池使用率的“动态上限阈值”被算法计算为95%（实际安全水位应在80%以下）。

- 检查告警收敛引擎日志，发现由于低级别告警暴增，触发了平台的“限流保护”机制，导致部分高级别告警因队列积压被延迟发送。

根因分析

通过对算法逻辑、数据质量和运维流程的深挖，我们总结出导致此次事件的三层根因：

数据漂移导致基线失真（算法层）

AIOps平台的动态基线算法采用过去14天的历史数据预测当日指标走势。但在大促前两周，系统刚经历了一次日常扩容，导致各项指标的历史基线发生“漂移”。算法未能识别出这种结构性变化，将大促当天的正常流量激增误判为“异常”，从而疯狂触发低级别告警。

敏感度配置一刀切与收敛机制缺陷（平台层）

平台的异常检测敏感度被统一设置为“高”，缺乏针对核心指标与边缘指标的差异化策略。同时，告警收敛模块仅基于“时间窗口+告警级别”进行去重，缺乏基于拓扑的关联分析能力，导致同源故障衍生的大量告警无法被有效合并。

缺乏人机协同与熔断机制（流程层）

在大促这种高敏场景下，运维团队完全依赖AIOps的自动基线，没有建立“大促专属静态阈值兜底”机制。当AIOps系统本身行为异常（如短时间吐出千条告警）时，平台缺乏自检与熔断能力，任由噪音淹没真实的故障信号。

改进措施

针对上述根因，我们从算法优化、平台能力和运维流程三个维度制定了改进措施，确保AIOps真正成为运维的助手而非负担。

引入特征工程与上下文感知基线

- 区分工作日/节假日模式：在算法输入层加入时间特征标签，对大促、节假日等特殊场景采用独立的基线学习分支。

- 基线校准机制：当检测到基础设施发生变更（如扩容、缩容）时，自动标记历史数据为“不可信”，缩短回看窗口或临时切换为静态阈值，待数据平稳后再重新训练模型。

强化告警收敛与拓扑关联能力

- 基于拓扑的降噪：将CMDB中的微服务调用拓扑引入告警收敛引擎。当底层主机或网络出现异常时，上层应用的衍生告警自动降级为“附属告警”并折叠，只推送根因告警。

- 防洪熔断机制：当系统检测到某单一指标在5分钟内产生超过N条同类告警时，自动触发“算法熔断”，暂停该指标的动态基线检测，并回退至预设的静态安全阈值，同时向运维发送“算法失效”通知。

建立AIOps效果评估与闭环流程

- 大促护航标准SOP：在重保期间，实行“静态兜底+动态辅助”的混合策略。核心水位线（如DB连接池、核心接口RT）保留绝对安全的静态红线，AIOps仅作趋势预测，不作为唯一告警源。

- 常态化算法复盘：将AIOps模型的准确率、召回率纳入日常运维KPI。每周输出“算法误报/漏报分析报告”，持续调优敏感度参数，避免算法模型在无人监管下“野蛮生长”。

结语

AIOps不是万能药，它本质上是用算法的不确定性去应对系统的不确定性。此次故障复盘给我们最大的启示是：智能运维的尽头不是替代人工，而是更好的人机协同。 我们必须对算法保持敬畏，在赋予其自动化权力的同时，也要为其划定边界、设计兜底与熔断机制，唯有如此，AIOps才能真正从“制造风暴”走向“平息风暴”。

← 返回AI专栏