告警聚合是如何工作的？

Flashduty 用机器学习语义相似度或确定性规则，把相关告警归为一个故障。你可按通道配置聚合模式、窗口与风暴预警。

支持多少种通知渠道？

9 种：Slack、Microsoft Teams、飞书、钉钉、企业微信、电话、短信、邮件与 App 推送。

Flashduty 如何改善 MTTA 与 MTTR？

MTTA（Mean Time to Acknowledge）是平均确认时间；MTTR（Mean Time to Resolve）是平均解决时间。聚合减少重复告警，路由把事交给对的人，升级避免无人确认，通过这些手段可有效提升这两项指标。

能否同时接入商业 APM、开源栈与云监控？

可以。Prometheus、Grafana、Datadog、云厂商信号等可走同一流水线，标签归一后复用同一套聚合与升级逻辑。

可以从 PagerDuty 迁移吗？

可以。Flashduty 兼容 PagerDuty Events API，原本推送到 PagerDuty 的告警改个目标地址即可接入；值班表与服务在 Flashduty 内重新配置，我们会协助企业客户完成迁移。

只有实际排查、处理故障的成员占用席位，其余人接收通知免费——相比 PagerDuty，团队通常可节省 80–90%。

收敛告警噪音，把故障交给值班人

Q: Flashduty 如何改善 MTTA 与 MTTR？

MTTA（Mean Time to Acknowledge） 是平均确认时间；MTTR（Mean Time to Resolve）是平均解决时间。聚合减少重复告警，路由把事交给对的人，升级避免无人确认，通过这些手段可有效提升这两项指标。

Flashduty 在 60+ 告警来源之上自动完成聚合、路由与升级，少打扰、不漏接，9 大通知渠道稳定触达当值人员。

14 天免费试用预约演示

故障列表

Ask AI

全部状态

接入你的监控栈，分钟级上线

先把信号接进来，再统一处理。接入一次，标准化、聚合、路由与分派策略，全链路都能复用。

50+集成

从常见监控栈到协作工具，无需重复改造告警格式，统一进入标准处理链路。

查看所有集成

策略一次配置，全链路复用

策略可复用：一套标准化与升级逻辑贯穿全链路

迁移成本可控，兼容现有体系

迁移平滑：兼容 PagerDuty Events API，原本推送到 PagerDuty 的告警改个地址即可接入

聚合后的故障可直达多通知渠道

聚合后的故障可直达 9 大通知渠道（含飞书、钉钉、企微），监控到触达一条链路

常见监控与 APM 已可直接接入

PrometheusGrafanaCloudWatchDatadogSentry

覆盖品类

开源监控

Prometheus / Grafana / Zabbix

云厂商

AWS / 阿里云 / 腾讯云 / 华为云

APM

Datadog / Sentry / Dynatrace

协作渠道

飞书 / 钉钉 / 企微 / Slack / Teams

2.0Normalize & route

标准化、增强并路由到责任团队

把原始告警先转成可计算事件，再补齐归属上下文并按策略分派，让故障更快落到能处理的人。

{
  "alertname": "API latency spike",
  "instance": "checkout-api:9090",
  "labels": "env=prod, region=cn-hz",
  "severity": "critical",
  "startsAt": "2025-04-13T04:12:00Z"
}

{
  "trigger": "CPU > 95% on db-master",
  "host": "db-master-01",
  "hostgroup": "MySQL Cluster",
  "priority": "disaster",
  "timestamp": "1713010320"
}

{
  "AlarmName": "HighErrorRate",
  "Namespace": "AWS/Lambda",
  "MetricName": "Errors",
  "StateValue": "ALARM",
  "Region": "ap-southeast-1"
}

{
  "ruleName": "MemoryPressure",
  "folder": "Infrastructure",
  "orgId": "1",
  "state": "alerting",
  "dashboardUID": "infra-mem-01"
}

标准化（Normalize）

把不同来源的字段映射到统一结构，消除源系统差异。

标签增强（Enrich）

从服务目录、CMDB 与值班规则补充业务上下文。

路由分发（Route）

按服务归属、严重级别、时间窗将事件分发到目标值班单元。

serviceapi-gateway

teamCore SRE

severityP1

runbookcheckout-latency-v2

交接更快

告警一入站就补齐归属，不再靠群里猜负责人

分派更准

严重级别与时间窗联动，白天/夜间策略可分开执行

复盘更清晰

映射与路由全过程可追溯，能解释每次分派依据

3.0Noise aggregation

把告警噪音收敛为一条故障

重复、连锁、抖动的告警，统统收敛为单一故障，值班人只需认领一次就能推进处置。

CPU > 90%

API latency spike

Gateway timeout

Error budget burn

Disk I/O sat.

OOM killed

#9BD163

API 网关延迟升高

Flashduty

已关闭1分钟入告警事件：2

Flashduty 协作空间·4月14日 15:08:19

重复打扰明显减少

同根因多告警不再反复触发

处置更聚焦

响应人先看真正影响业务的那条线程

确认更快

一次认领即可推进后续处理

4.0Delivery channels

用团队顺手的渠道，稳定送达

通知沿团队真实协作路径送达：日常走低干扰渠道，关键故障自动切换强提醒兜底。

原生 IM 触达

飞书、钉钉、企微原生触达，不必靠邮件转发凑合

强提醒兜底

短信与电话作高优先级兜底，关键告警不易被漏接

渠道偏好可调

响应人可自调渠道组合与强度，兼顾安静与必达

5.0Dispatch & escalation

按策略分派，一路升级到有人确认

先分派当前责任人，再按时间窗和严重级别自动升级，直到有人确认接管。

P1Critical

servicecheckout-api:9090

time02:30 AM

P3Info

servicecms-backend

time10:15 AM

P2Warning

serviceapi-gateway

time18:45 UTC

策略引擎

严重级别

工作时间窗

服务归属

升级层级

主备角色

更多...

P1 · 夜间值班

不是只把消息发出去，而是确保有明确责任人进入处理。

P3 · 工作时段

不是只把消息发出去，而是确保有明确责任人进入处理。

P2 · 跨时区协作

不是只把消息发出去，而是确保有明确责任人进入处理。

责任更明确

当前值班人优先接管，避免群里悬空

升级更可预期

何时升级、升级给谁都可提前看清

漏接风险更低

主备与兜底角色自动接力

常见问题

探索更多产品

Response

一条时间线，一间作战室，上下文不丢失

Status Pages

宕机时刻，信任不掉线

AI SRE

懂你技术栈的 AI SRE

更少噪音，更快恢复

免费试用，即刻上手；预约演示，完整体验故障处置全流程。

免费试用预约演示