跳至主内容

收敛告警噪音,把事件交给值班人

Flashduty 在 100+ 告警来源之上自动完成聚合、路由与升级,少打扰、不漏接,9 大通知渠道稳定触达当值人员。

1.0Integration

接入你的监控栈,分钟级上线

先把信号接进来,再统一处理。接入一次,标准化、聚合、路由与升级策略,全链路都能复用。

activemq
aliyunARMS
aliyunSLS
AWSCW
azureMonitor
BaiduBCM
Blackbox
clickhouse
cloudflare
consul
Docker
elasticsearch
etcd
gitlab
grafana
harbor
http
HuaweiCES
jira
kafka
Kubernetes
l_statecloud
Linux
loki
memcache
meraki
minio
mongodb
mysql
NET
nginx
nightingale
opmanager
oracle
OS
PING
postgresql
rabbitmq
redis
servicenow
slack
solarwinds
splunk
tencentCM
tomcat
uptime-kuma
zabbix
zilliz
zookeeper
50+集成

从常见监控栈到协作工具,无需重复改造告警格式,统一进入标准处理链路。

查看所有集成

策略一次配置,全链路复用

策略可复用:一套标准化与升级逻辑贯穿全链路

迁移成本可控,兼容现有体系

迁移成本低:兼容 PagerDuty 协议,现有服务与排班更易迁入

归一事件可直达多通知渠道

归一事件可直达 9 大通知渠道(含飞书、钉钉、企微),监控到触达一条链路

常见监控与 APM 已可直接接入

PrometheusGrafanaCloudWatchDatadogSentry

覆盖品类

开源监控

Prometheus / Grafana / Zabbix

云厂商

AWS / 阿里云 / 腾讯云 / 华为云

APM

Datadog / Sentry / Dynatrace

协作渠道

飞书 / 钉钉 / 企微 / Slack / Teams

2.0Normalize & route

标准化、增强并路由到责任团队

把原始告警先转成可计算事件,再补齐归属上下文并按策略分派,让故障更快落到能处理的人。

{
  "alertname": "API latency spike",
  "instance": "checkout-api:9090",
  "labels": "env=prod, region=cn-hz",
  "severity": "critical",
  "startsAt": "2025-04-13T04:12:00Z"
}
{
  "trigger": "CPU > 95% on db-master",
  "host": "db-master-01",
  "hostgroup": "MySQL Cluster",
  "priority": "disaster",
  "timestamp": "1713010320"
}
{
  "AlarmName": "HighErrorRate",
  "Namespace": "AWS/Lambda",
  "MetricName": "Errors",
  "StateValue": "ALARM",
  "Region": "ap-southeast-1"
}
{
  "ruleName": "MemoryPressure",
  "folder": "Infrastructure",
  "orgId": "1",
  "state": "alerting",
  "dashboardUID": "infra-mem-01"
}

标准化(Normalize)

把不同来源的字段映射到统一结构,消除源系统差异。

标签增强(Enrich)

从服务目录、CMDB 与值班规则补充业务上下文。

路由分发(Route)

按服务归属、严重级别、时间窗将事件分发到目标值班单元。

serviceapi-gateway
teamCore SRE
severityP1
runbookcheckout-latency-v2

交接更快

告警一入站就补齐归属,不再靠群里猜负责人

分派更准

严重级别与时间窗联动,白天/夜间策略可分开执行

复盘更清晰

映射与路由全过程可追溯,能解释每次分派依据

3.0Noise aggregation

把告警噪音收敛为一条故障

重复、连锁、抖动的告警,统统收敛为单一故障,值班人只需认领一次就能推进处置。

CPU > 90%
API latency spike
Gateway timeout
Error budget burn
Disk I/O sat.
OOM killed
#9BD163

高级模式-告警阈值提取测试2 / vm_cluster - 10.99.1.106-log-collector

Flashduty
已关闭1分钟入告警事件:2
Flashduty 协作空间·4月14日 15:08:19

重复打扰明显减少

同根因多告警不再反复触发

处置更聚焦

响应人先看真正影响业务的那条线程

确认更快

一次认领即可推进后续处理

4.0Delivery channels

用团队顺手的渠道,稳定送达

通知沿团队真实协作路径送达:日常走低干扰渠道,关键故障自动切换强提醒兜底。

电话
邮件
短信
飞书
钉钉
企微
Slack
Microsoft Teams

原生 IM 触达

飞书、钉钉、企微原生触达,不必靠邮件转发凑合

强提醒兜底

短信与电话作高优先级兜底,关键告警不易被漏接

渠道偏好可调

响应人可自调渠道组合与强度,兼顾安静与必达

5.0Dispatch & escalation

按策略分派,一路升级到有人确认

先分派当前责任人,再按时间窗和严重级别自动升级,直到有人确认接管。

P1Critical
servicecheckout-api:9090
time02:30 AM
P3Info
servicecms-backend
time10:15 AM
P2Warning
serviceapi-gateway
time18:45 UTC
策略引擎
严重级别
工作时间窗
服务归属
升级层级
主备角色
更多...
P1 · 夜间值班
Phone
L1
SMS
L2
PhoneSMS
L3

不是只把消息发出去,而是确保有明确责任人进入处理。

P3 · 工作时段
FeishuDingTalkWeCom
L1

不是只把消息发出去,而是确保有明确责任人进入处理。

P2 · 跨时区协作
Slack
L1
Email
L2

不是只把消息发出去,而是确保有明确责任人进入处理。

责任更明确

当前值班人优先接管,避免群里悬空

升级更可预期

何时升级、升级给谁都可提前看清

漏接风险更低

主备与兜底角色自动接力

常见问题

更少噪音,更快恢复

免费试用,即刻上手;预约演示,完整体验故障处置全流程。