跳至主内容
  • 故障复盘上线:让每一次故障,都成为团队进步的起点

    新增

    故障恢复并不意味着流程的结束。真正的闭环,始于复盘。

    在实际运营中,许多团队会在故障恢复后迅速回到日常工作:根因分析散落在即时通讯记录中,改进措施停留在口头约定里,而相似问题却可能在未来再次发生。此前的「问题修复」功能仅支持基础字段记录,难以承载完整、系统的事后分析流程。

    为此,Flashduty 正式推出 「故障复盘」,全面替代原有的 「问题修复」 功能。从事件回顾、原因分析到改进追踪,帮助团队建立更完整的复盘闭环,让每一次故障都沉淀为可复用的组织经验,而不是被遗忘的成本。

    如您此前依赖「问题修复」中的数据字段,可通过自定义字段继续实现相同能力。

    AI 辅助生成,快速完成复盘初稿

    故障复盘支持 AI 自动生成报告初稿。系统可综合事件详情、响应时间线,以及飞书或 Slack 作战室中的讨论内容,自动梳理事件经过、提炼关键信息,显著降低复盘的启动成本,让团队将更多精力投入到分析与改进本身。

    实时协同编辑,让复盘更高效地达成共识

    故障从来不是一个人的事,复盘也不应如此。多人可同时在线编辑同一份报告,修改实时同步并自动保存。无需反复传递文档或手动合并版本,团队成员可以在同一页面上对齐事实、补充信息、形成共识。

    模板体系加持,关键问题不再遗漏

    发生了什么?为什么会发生?如何避免再次发生?

    故障复盘提供内置模板,覆盖 摘要、根因、影响、时间线、改进措施、经验教训 六大核心板块。同时,您也可以创建自定义模板,将团队的最佳实践沉淀为标准流程,帮助每一次复盘都更完整、更稳定、更高质量。

    故障不可避免,但同样的问题再次发生可以避免。通过 Flashduty 故障复盘,团队可以更清晰地记录根因、更持续地追踪改进、更系统地沉淀经验。这不仅是一份复盘报告,更是组织韧性不断积累与成长的开始。

    立即体验

    欢迎前往 Flashduty 控制台 → On-call → 故障复盘 开始使用。

    更多介绍请参考产品文档

    本功能在 Flashduty 专业版中可用。

  • Flashduty 状态页:服务宕机,信任在线

    新增

    服务中断不可避免,但信任不应随之掉线。

    在争分夺秒的故障响应中,信息不透明往往比故障本身更具破坏力:利益相关方的重复问询不断消耗团队精力,服务状态的不透明也在无声中侵蚀客户信心。

    Flashduty 状态页的推出旨在打破这一困局:通过建立透明统一服务可用性看板,将技术团队从低效沟通中解放出来;以消息的实时同步替代猜测,让服务即便暂时不可用,您的专业与可靠依然在线。

    从源头上降低重复工单

    与其被动回应,不如让信息先行。状态页为用户提供随时可查的服务状态,同时支持订阅服务更新。一旦发生故障,最新进展会自动推送给订阅者,无需反复刷新或人工确认。信息跑在问题之前,重复咨询自然大幅减少,支持团队也能将精力集中在问题本身。

    让服务维护透明可控

    状态页不仅通报突发故障,也让计划内的维护一目了然。通过提前公布维护窗口,用户可以清楚了解服务调整的时间与影响范围。升级是可预期的,变化是被解释的,维护不再被误认为异常。透明的维护管理,让您的服务在每一次调整中,都展现出可靠与专业。

    用数据证明稳定性

    稳定不是一句承诺,而是一段可追溯的记录。状态页自动沉淀历史可用性数据,将抽象的 SLA 承诺转化为直观、可验证的 Uptime 记录。这些客观数据不仅是服务稳定性的直接证明,更是向客户展示履约能力、建立长期信任的坚实基石。

    通过 Flashduty 状态页,服务不再是后台运作的黑箱。无论突发故障还是计划维护,每一次状态更新都清晰可见,每条历史事件都可靠可查。技术团队回归解决问题的本质,用户随时掌握最新进展:这种在不确定性中建立的“确定性”,正是赢得客户长期信任的最有力证明。

    立即体验

    欢迎前往 Flashduty 控制台 → On-call → 状态页面 进行体验。

    更多关于状态页的介绍,请参考用户文档

    欢迎订阅 Flashduty 官方状态页,第一时间获取 Flashduty 服务状态更新。

  • 路由规则升级

    优化

    本次更新对 Alert Routing(告警路由) 能力进行了全面增强,重点提升自动化程度、规则可读性以及配置体验,帮助团队更高效地管理复杂告警路由场景。

    image.png

    1. 支持 Name Mapping 自动路由

    新增 Name Mapping 能力,可根据告警中的 labels 值,自动将告警路由到与该值同名的协作空间(Channel / Workspace)

    无需为每个应用或服务单独维护固定路由规则,特别适合多应用、多团队的规模化场景。

    示例:

    • labels.application_name = "order-service"
    • 告警将自动路由到名为 order-service 的协作空间

    2. 支持 Channel 筛选与排序

    在路由规则较多的情况下,支持按 Channel 维度进行筛选与排序,帮助快速定位目标规则,提升整体可读性与管理效率。


    3. 路由规则 UI 优化

    • 支持路由规则 拖拽排序,灵活调整规则优先级
    • 优化规则内容展示,条件与动作更直观清晰
    • 整体布局更清爽,减少配置与排查成本
  • 作战室上线,变更管理升级,故障协同更高效

    新增

    作战室

    紧急故障处理往往争分夺秒,如何快速拉齐团队、高效协同是关键。现在,您可以一键拉起作战室,让信息同步更迅速、故障响应更敏捷。

    核心能力:

    • 即时建群:一键创建飞书、钉钉、企微或 Slack 群聊,自动邀请处理人与相关方入群
    • 消息同步:故障消息卡片自动投递至群内,始终置顶并实时更新最新状态
    作战室演示

    Webhook 调用历史

    排查 Webhook 调用问题不再需要"盲猜"。系统现已支持完整的调用记录追溯,帮助您快速定位问题根因。

    记录内容包括:

    • 调用状态与错误码
    • 重试次数
    • 完整的请求与响应信息
    Webhook调用历史演示

    历史变更

    多数故障源于变更。本次我们大幅增强了变更事件管理能力,助您更高效地关联故障与变更。

    主要升级:

    • 动态路由:变更事件可按业务自动路由至相关协作空间,实现精准投递
    • 标签增强:支持对上报事件进行二次加工,丰富事件信息
    • 全新视图:历史变更页面焕新升级,支持自定义视图,并可基于故障标签进行关联检索
    历史变更页面

    优化

    1. 故障列表:支持批量分派故障,提升处理效率
    2. 新奇故障:支持关闭新奇故障检测,按需启用
    3. 风暴提醒:支持配置多个风暴阈值,实现阶梯式递进提醒
    4. 分派策略:群聊渠道配置中可指定应用的严重程度
    5. 故障详情:支持自定义标签排序,支持以 JSON 格式展示故障标签
    6. 集成中心:新增 Zoho ServiceDesk Plus 和 Cloudflare 集成
  • AI 总结 和 ServiceNow 集成

    新增

    AI 总结

    新增 AI 总结功能,快速提炼故障详情,特别适用于聚合大量告警的场景。总结聚焦于:

    1. 事件概况(关键信息)
    2. 影响范围(资源、服务等)
    3. 可行措施(排查、止损、预防)
    AI 总结

    ServiceNow 集成

    新增 ServiceNow 集成,支持故障信息双向同步:

    1. 支持手动和自动触发同步
    2. 支持 Flashduty 与 ServiceNow 双向同步,实现信息共享
    ServiceNow 集成

    优化

    移动端应用

    全新 Flashduty 移动端应用已上线各应用市场,界面与功能全面优化:

    1. 新增英文版本支持
    2. 集成 AI 总结功能
    3. 故障详情新增自定义字段,优化标签展示与文本编辑体验
    image.png

    分析看板

    分析看板现支持按标签和自定义字段筛选故障,助力更精准的数据分析。

    分析看板

    Microsoft Teams

    Teams 应用现支持向频道或群组发送故障分派通知,支持交互、动态更新及多端同步。

    image.png

    企业微信/Zoom/飞书机器人

    1. 支持上传飞书等平台的邮箱与账户 ID 映射关系
    2. 分派策略支持绑定映射关系,实现群聊推送中的精准 @ 提醒
    机器人优化
  • 6月系列更新

    新增

    1. Link集成
      实现与外部系统的无缝关联,支持根据机器hostname直接跳转至CMDB主机信息页面,提升运维效率。

      Link集成演示
    2. 钉钉与飞书告警集成
      新增支持通过钉钉和飞书Webhook接收告警通知,简化团队沟通流程。

      钉钉飞书告警

    优化

    1. 故障合并交互优化
      支持模糊匹配及删除被合并的故障,提升故障管理的灵活性与准确性。

      故障合并优化
    2. 告警智能聚合支持自定义字段
      允许基于指定字段计算告警相似度,优化告警聚合的精准度和效率。

      智能聚合
    3. 故障超时关闭优化
      新增基于最后一次合入事件时间的倒计时关闭功能,故障管理更智能。

      超时关闭
    4. 共享集成权限管理
      支持为共享集成设置管理团队,仅团队成员可修改配置,提升安全性。

      共享集成
    5. 故障收敛升级为抖动检测
      故障进入抖动状态后,可选择持续通知或静默通知,灵活应对不同场景。

      抖动检测
  • 固定License与路由版本管理

    优化

    License 管理

    1. 新增固定 License 类型:长期有效,不会被抢占,适合为长期使用平台的成员分配。
    2. 灵活的 License 分配:账户管理员可为成员设置固定或临时 License,或撤销其 License。
    3. 成员自主管理:普通成员可主动放弃自己的 License。
    4. API 批量操作:支持通过 API 批量设置成员 License 类型。
    License 管理

    路由版本管理

    1. 历史版本查看:集成中心告警路由现支持查看历史版本。
    2. 版本对比功能:支持将当前路由规则与历史版本进行对比。
    3. 一键回滚:支持回滚至任一历史版本的路由规则。
    路由版本管理 1
    路由版本管理 2
  • Jira 集成与全新模板管理上线

    新增

    Jira 集成

    • 手动或自动同步故障信息到 Jira Issue:您可以选择手动或自动将故障信息同步到 Jira Issue,确保团队能够及时跟踪和处理问题。
    • 支持 Jira Cloud 和 Server 版本:无论您使用的是 Jira Cloud 还是 Server,Flashduty 都能实现无缝集成。
    • 对有限范围内的故障进行同步:支持选择性地同步特定范围内的故障,灵活控制同步内容。
    • 故障字段映射管理:允许自定义故障字段与 Jira Issue 字段的映射,确保信息传递准确无误。
    Jira 集成界面

    即将推出:我们计划尽快支持 Jira Issue 同步到 Flashduty 故障的功能,敬请期待!


    优化

    模板管理

    • 全新交互设计:模板管理界面经过重新设计,更加美观易用,大幅提升用户体验。
    • 历史故障预览调试:支持选择历史故障进行模板预览和调试,确保配置准确无误。
    • 智能输入提示:键入 {{ 后,系统自动提供输入建议,降低配置难度,提高效率。
    模板管理界面

    其他优化

    • IM 集成:新增对飞书和钉钉私有化版本的支持,满足更多企业的集成需求。
    • 故障 Webhook:支持订阅故障评论事件,实时获取评论更新。
    • 故障收敛:新增故障收敛功能,支持启用或关闭,默认关闭,帮助您更高效地管理故障通知。
  • 响应效率提升40%!Flashduty APP上线

    新增

    亲爱的Flashduty用户,

    今天我们正式推出Flashduty移动端App!无论您身处何地,都能像在工位前一样掌控全局。

    image.png

    核心功能亮点

    1. 故障管理,一手掌握

    • 移动端全流程操作:支持故障检索、详情查看、认领、关闭、升级及手动触发,适配移动端交互深度优化,关键操作响应速度提升40%;
    • 多维度信息聚合:故障时间线、处理记录、关联日志集中展示,辅助快速决策;

    场景价值在工位能做的,手机同样高效完成


    2. 重要通知,绝不漏接

    • IOS 紧急通知:基于Apple官方Critical Alerts协议,突破勿扰模式限制,确保严重告警100%推送抵达;
    • Android 系统级通道:支持所有主流Android厂商系统级通道,即使关闭APP仍可触达告警,避免遗漏。

    场景价值"正在睡觉?开会?严重故障依然能通知到你"


    3. 语音通知,更靠谱

    • 智能白名单同步:自动将Flashduty语音号码添加至手机通讯录,规避运营商误拦截风险;

    立即行动

    1️⃣ 下载安装
    👉 前往应用市场或点击下载Flashduty App(iOS/Android)
    2️⃣ 权限配置建议

    • iOS用户:前往「设置-通知」中为Flashduty开启Critical Alerts权限
    • 所有用户:在App「设置-语音通知」中启用同步联系人权限

    故障不等人,但你可以永远快它一步。

    —— Flashduty团队

  • 映射数据管理

    新增

    标签增强功能自推出以来广受好评,特别是在结合 mapping 数据进行标签映射方面。然而,过去只能通过 API 管理映射 schema 及数据上传下载,对于部分用户而言存在一定使用门槛。

    现在,我们在控制台新增了 映射数据管理 功能,让您可以直接在界面上便捷地操作数据,无需依赖 API!

    image.png

    📖 详细使用指南请见:标签增强

  • 分析看板全新升级!

    全新的分析看板正式上线,各位久等了!

    优化

    增加指标查看维度

    指标聚合维度从全局和时间维度,扩展到按团队、空间、个人等维度进行查看。方便您从全局下钻到各子维度进行指标分析。

    image.png

    对时间段进行拆分

    当我们需要进行24小时on-call时,将每一小时对等看待,并不公平。在新版中,我们将时间划分为三个阶段,您可以按照这三个维度分别统计各类指标:

    • 工作时间:工作日 8am~7pm
    • 休息时间:工作日 7pm11pm,非工作日 8am11pm
    • 睡眠时间:每一天 11pm~8am
    image.png

    新增工作量指标

    当我们追踪团队处理故障的工作量时,仅看故障和告警数量,是远远不够的。现在,我们支持了中断次数和响应投入等指标。

    • 中断次数:将短信、电话、应用推送等高优先级消息标记为中断,中断意味着对心流状态的打断,这会降低团队成员的工作效率和幸福感。
    • 响应投入:成员在认领故障到恢复故障之间的时间差值求和。该指标可以粗略估计成员花在故障响应中的时间。
    image.png

    报告下载与数据导出

    现在您可以在控制台直接打印报表,用于工作汇报。在每一个报表的下方,我们也返回了数据明细,您可以导出为csv进行二次分析。

    image.png
  • 故障数据隔离升级

    很多用户反馈Flashduty对故障权限管控较弱,今天我们发布如下优化。

    优化

    1. 协作空间支持访问级别,如果设置为私有时,其故障数据仅面向团队成员及账户管理员开放。除此之外,其他成员仅能通过分享链接查看私有空间的故障。
    image.png
    1. 故障列表支持我的空间筛选,选中则仅查看我的空间下的故障。
    image.png

    数据隔离最佳实践

    我们认为平台数据隔离有三个层次,依次减弱,每个层次推荐不同的实现方式:

    1. 人员隔离:希望不同团队人员隔离,信息需要加密。

      直接注册多个主体,人员及资源完全隔离,分别管理。

    2. 资源隔离:我不希望其他成员看到和处理我的故障。

      设置协作空间访问级别为私有,则其他成员看不到此空间及其故障。但注意,账户管理员仍然可见所有空间所有故障。

    3. 观感体验:我不希望看到其他与我无关或与我团队无关的告警。

      故障列表始终保持我的空间筛选即可。当您需要查看全部数据时,则去掉此筛选。

    期待您的反馈!