接入你的监控栈,分钟级上线
先把信号接进来,再统一处理。接入一次,标准化、聚合、路由与升级策略,全链路都能复用。
策略一次配置,全链路复用
策略可复用:一套标准化与升级逻辑贯穿全链路
迁移成本可控,兼容现有体系
迁移成本低:兼容 PagerDuty 协议,现有服务与排班更易迁入
归一事件可直达多通知渠道
归一事件可直达 9 大通知渠道(含飞书、钉钉、企微),监控到触达一条链路
常见监控与 APM 已可直接接入
覆盖品类
开源监控
Prometheus / Grafana / Zabbix
云厂商
AWS / 阿里云 / 腾讯云 / 华为云
APM
Datadog / Sentry / Dynatrace
协作渠道
飞书 / 钉钉 / 企微 / Slack / Teams
标准化、增强并路由到责任团队
把原始告警先转成可计算事件,再补齐归属上下文并按策略分派,让故障更快落到能处理的人。
{ "alertname": "API latency spike", "instance": "checkout-api:9090", "labels": "env=prod, region=cn-hz", "severity": "critical", "startsAt": "2025-04-13T04:12:00Z" }
{ "trigger": "CPU > 95% on db-master", "host": "db-master-01", "hostgroup": "MySQL Cluster", "priority": "disaster", "timestamp": "1713010320" }
{ "AlarmName": "HighErrorRate", "Namespace": "AWS/Lambda", "MetricName": "Errors", "StateValue": "ALARM", "Region": "ap-southeast-1" }
{ "ruleName": "MemoryPressure", "folder": "Infrastructure", "orgId": "1", "state": "alerting", "dashboardUID": "infra-mem-01" }
标准化(Normalize)
把不同来源的字段映射到统一结构,消除源系统差异。
标签增强(Enrich)
从服务目录、CMDB 与值班规则补充业务上下文。
路由分发(Route)
按服务归属、严重级别、时间窗将事件分发到目标值班单元。
交接更快
告警一入站就补齐归属,不再靠群里猜负责人
分派更准
严重级别与时间窗联动,白天/夜间策略可分开执行
复盘更清晰
映射与路由全过程可追溯,能解释每次分派依据
把告警噪音收敛为一条故障
重复、连锁、抖动的告警,统统收敛为单一故障,值班人只需认领一次就能推进处置。
高级模式-告警阈值提取测试2 / vm_cluster - 10.99.1.106-log-collector
重复打扰明显减少
同根因多告警不再反复触发
处置更聚焦
响应人先看真正影响业务的那条线程
确认更快
一次认领即可推进后续处理
用团队顺手的渠道,稳定送达
通知沿团队真实协作路径送达:日常走低干扰渠道,关键故障自动切换强提醒兜底。

原生 IM 触达
飞书、钉钉、企微原生触达,不必靠邮件转发凑合
强提醒兜底
短信与电话作高优先级兜底,关键告警不易被漏接
渠道偏好可调
响应人可自调渠道组合与强度,兼顾安静与必达
按策略分派,一路升级到有人确认
先分派当前责任人,再按时间窗和严重级别自动升级,直到有人确认接管。
checkout-api:9090cms-backendapi-gateway不是只把消息发出去,而是确保有明确责任人进入处理。
不是只把消息发出去,而是确保有明确责任人进入处理。
不是只把消息发出去,而是确保有明确责任人进入处理。
责任更明确
当前值班人优先接管,避免群里悬空
升级更可预期
何时升级、升级给谁都可提前看清
漏接风险更低
主备与兜底角色自动接力