服务器虚拟化与云 2025年11月18日-Cloudflare史诗级事故:一次配置失误，引爆全球宕机前言继今年10月19号亚马逊云AWS的 us-east-1的大故障，导致美国一半的线上服务不可用···

服务器虚拟化与云

2025年11月18日-Cloudflare史诗级事故:一次配置失误，引爆全球宕机

前言

继今年10月19号亚马逊云AWS的 us-east-1的大故障，导致美国一半的线上服务不可用，波及到全球用户。

2025 年 10 月 29 日，微软 Azure 在全球范围内发生大规模宕机，持续近 9 小时。受影响的不仅包括微软自家核心服务（Office 365、Xbox Live、Copilot 等），还波及航空、医疗、零售等多个行业。

不甘寂寞的Cloudflare人称赛博活佛CF也出事故了！

2025年11月18日，Cloudflare 发生了一次堪称史诗级的全球宕机。作为全球最大的 CDN 与安全服务提供商之一，它的服务覆盖了数百万网站和应用。这次事故直接导致全球范围的访问异常，用户看到的不是网页，而是熟悉的Cloudflare 错误页。

官方承认，这是自 2019 年以来最严重的一次宕机。

一、事故概述

2025 年 11 月 18 日 11:20 UTC，Cloudflare 全球网络爆发大规模故障，核心流量交付功能出现严重异常，用户访问其客户网站时普遍收到 HTTP 5xx 系列错误（主要为 500 内部服务器错误）。此次故障并非由网络攻击或任何恶意行为导致，系内部数据库配置变更引发的连锁反应，是 Cloudflare 自 2019 年以来最严重的一次服务中断事件。

故障发生后，技术团队启动紧急响应，14:30 核心流量基本恢复正常，17:06 所有受影响服务完全恢复稳定运行。期间多个核心产品及服务受到不同程度影响，对广大客户及全球互联网访问体验造成了负面影响，Cloudflare 官方已就此公开致歉。

二、影响范围

云服务、内容分发网络（CDN）和安全服务中断，导致包括ChatGPT、X（原 Twitter）、Spotify、游戏服务、零售商及公共交通系统在内的多个大型网站和应用出现访问失败或 5xx 系列错误。

几乎所有依赖 Cloudflare 服务的平台都受到了波及。

（一）核心 CDN 与安全服务

直接返回 HTTP 5xx 错误码，用户无法正常访问依赖 Cloudflare CDN 加速及安全防护的网站，页面显示 Cloudflare 网络内部故障提示。

（二）Turnstile 服务

完全无法加载，导致依赖该服务进行验证的场景出现功能中断。

（三）Workers KV

核心代理故障引发其前端网关请求失败，HTTP 5xx 错误率显著升高，功能可用性大幅下降。

（四）管理后台（Dashboard）

虽主体功能未完全中断，但由于登录页面集成的 Turnstile 服务不可用，多数用户无法正常登录；后续恢复阶段因登录请求积压及重试机制，出现 latency 升高问题。

（五）邮件安全（Email Security）

邮件处理与交付未受影响，但暂时丢失部分 IP 信誉数据源，导致垃圾邮件检测准确性下降，部分新域名年龄检测功能失效；部分自动转移（Auto Move）操作失败，相关邮件已完成复核与修复。

（六）Access 服务

11:20 起多数用户出现认证失败，无法访问目标应用，已建立的有效会话不受影响；故障期间的认证失败均记录在案，配置更新操作要么直接失败，要么传播速度极慢，后续已完全恢复。

此外，故障期间 Cloudflare CDN 响应延迟显著增加，原因是调试与可观测性系统消耗大量 CPU 资源，用于收集未捕获错误的额外调试信息。

三、应急措施

故障初期启动多维度排查，快速排除 DDoS 攻击等外部因素，锁定内部服务异常。针对 Workers KV 和 Access 服务启用旁路机制，绕开故障核心代理，快速降低关键服务影响范围。定位特征文件异常后，立即停止异常文件的生成与传播，避免故障进一步扩散。全球部署经验证的历史正常特征文件，强制重启核心代理服务，修复核心流量处理链路。恢复阶段扩容控制平面并发能力，处理登录请求积压问题，修复剩余异常服务实例。

四、补救和后续步骤

现在我们的系统已恢复正常运行，我们已经开始着手研究如何加强系统，以防止未来再次发生类似故障。具体来说，我们正在：

加强对 Cloudflare 生成的配置文件的摄取，就像我们加强对用户生成输入的摄取一样。为功能启用更多全局终止开关消除核心转储或其他错误报告占用系统资源的可能性审查所有核心代理模块的错误情况故障模式

五、时间轴

时间（UTC）

地位

描述

11:05

云服务器日本

普通的。

数据库访问控制变更已部署。

11:28

冲击开始。

部署到达客户环境后，在客户 HTTP 流量中首次发现错误。

11:32-13:05

该团队调查了 Workers KV 服务流量异常增加和故障情况。

最初的症状似乎是 Workers KV 响应速率下降，导致对其他 Cloudflare 服务产生下游影响。为了使 Workers KV 服务恢复到正常运行水平，我们尝试了流量控制和账户限制等缓解措施。第一次自动化测试于 11:31 检测到问题，人工调查于 11:32 开始。事件报告于 11:35 创建。