这不是对 Cloudflare 的攻击：一个错误的配置文件如何导致部分互联网瘫痪

这不是对 Cloudflare 的攻击（图片来源：Stable Diffusion）

从表面上看，互联网似乎是去中心化的。但实际上，只有少数几个全球参与者能确保网站和应用程序的功能。Cloudflare 是其中最大的一家，11 月 18 日星期二，Cloudflare 在数小时内无法使用。最初看起来像是一次攻击，后来发现只是一个简单的错误。

Marc Herter (translated by Ninh Duy), Published 11/23/2025 🇺🇸 🇩🇪 ...

Internet of Things (IoT) Fail Network Server/Datacenter Hack / Data Breach

本周二，许多用户在上网时可能都看到了著名的 Cloudflare 错误 500。在世界协调时 11:30 至 14:30 期间，无数网页和服务都无法访问。其中包括宜家、PayPal、ChatGPT、X（前 Twitter）等。Notebookcheck 也受到了影响。

Cloudflare 为网站运营商提供各种服务

谈到互联网上最大的公司，亚马逊、谷歌、微软和 Meta（Facebook）通常是最先被提及的。如果它们出了问题，互联网的大部分地区就会停止运作。Cloudflare的主要工作是保护网站免受攻击并加快其运行速度，但它却大多被忽视了。许多网站和服务都依赖 Cloudflare 的服务来缩短加载时间并保护其服务器。

通过缓存网站和服务的数据并充当代理，Cloudflare 帮助客户和服务器之间的连接更加顺畅。此外，Cloudflare 还能过滤恶意请求，确保拦截负载高峰。Cloudflare 最为人熟知的可能是其对 DDoS 攻击的防护功能。对于网站运营商来说，通过缓存全球不同服务器上的网页来优化加载时间往往是最重要的方面。许多网站依赖 Cloudflare 的服务来卸载自己的服务器，同时减少访问者的延迟。

11 月 18 日，Cloudflare 发生大面积故障

本周二，Cloudflare 网络发生严重错误，导致其客户的网站和服务无法访问。在博客文章中中，Cloudflare 首席执行官马修-普林斯（Matthew Prince）详细介绍了导致 Cloudflare 网络自 2019 年以来发生最大故障的事件。

5xx-Fehler im Cloudflare-Netzwerk am 18.11.2025 (Bildquelle: Cloudflare)

大约 11:30 UTC 时，由于配置错误，大量错误 5xx 代码开始涌入 Cloudflare。然而，错误数量在 13:00 UTC 之前一直大幅波动，最初导致 Cloudflare 认为它正面临外部攻击。Cloudflare 自身的状态页面在此时无法访问，进一步证实了这一假设。一段时间后，其网络内的错误率恢复到预期的低水平。早些时候的内部讨论推测是僵尸网络造成了这次故障。

实际问题源于 Cloudflare 的网络。数据库系统的权限变更导致了各种错误。这已经在 11:05 UTC 前后实施。因此，僵尸管理系统的特征文件大小被人为夸大，几乎是原来的两倍。然而，Cloudflare 程序为该文件设置了固定大小，并在内存中保留。过大的文件填满了预留内存，导致系统崩溃。由于功能文件每五分钟更新一次，而且并非所有 Cloudflare 集群都在新配置上运行，因此在任何特定时间，网络中都可能分布着一个可完全运行或无法运行的文件。这就是错误频率波动的原因。13:37 左右，Cloudflare 的事件响应团队意识到，僵尸管理系统的调整导致了网络中断。一小时后，他们终于成功解决了问题。

Cloudflare-Ausfalls 的影响表明，只有极少数公司能在互联网上获得强大的能力。在一个中心位置的一个特殊配置器的作用下，未配置的网站和服务无法正常运行。因此，我们不禁要问，我们所了解的互联网究竟是怎样的？