Cloudflare a expliqué la panne majeure d'Internet du 18 novembre 2025
- 👨 Alban Martin
- Il y a 3 heures
- 💬 Réagir
Cloudflare n'a pas été attaquée
Au début, l’équipe de réponse aux incidents a cru être victime d’une des plus grosses attaques DDoS jamais observées. Les processus de routage du trafic tombaient mystérieusement en panne pendant environ cinq minutes, se rétablissaient, puis échouaient à nouveau, un schéma qui semblait délibéré, car les vrais bugs logiciels se « réparent » rarement d’eux-mêmes aussi proprement. Pour ajouter à la confusion initiale, la page de statut de Cloudflare (hébergée entièrement en dehors de son propre réseau) est également tombée au même moment, renforçant les craintes d’une attaque sophistiquée et coordonnée.
En réalité, tout l’incident provenait d’une unique erreur de permissions lors d’une mise à jour de base de données considérée comme routinière. Les ingénieurs renforçaient les contrôles d’accès sur un cluster ClickHouse utilisé par le système de gestion des bots de Cloudflare. Cette modification a involontairement provoqué la duplication de certaines entrées lors de l’écriture dans un fichier critique appelé « feature file », qui indique aux serveurs périphériques comment identifier et bloquer les bots malveillants. Le fichier a soudain doublé de volume, dépassant une limite fixe non détectée dans le logiciel de routage du trafic. Lorsque les serveurs tentaient de charger ce fichier trop gros, le processus plantait, entraînant dans sa chute de larges parties du réseau. Le cycle étrange de cinq minutes ? Le fichier est régénéré toutes les cinq minutes. Comme la mise à jour des permissions se déployait progressivement nœud par nœud sur le cluster ClickHouse, environ une génération sur deux produisait un fichier corrompu (trop gros) et l’autre un fichier sain. C'est donc le hasard qui a permis au réseau d'alterner entre état fonctionnel et défaillant.
La direction de Cloudflare a qualifié l’erreur de « profondément douloureuse », reconnaissant qu’une interruption à leur échelle est inacceptable. « Nous savons que nous vous avons déçus aujourd’hui », a écrit l’entreprise dans son billet de blog signé Matthew Prince et son communiqué d’excuses publiques. Les services ont été totalement restaurés en quelques heures après l’identification et l’annulation de la modification problématique des permissions. Cet incident rappelle brutalement que même les infrastructures les plus critiques d’Internet peuvent être mises à genoux non par des pirates, mais par une simple ligne de permissions mal configurée. Microsoft en avait fait les frais il y a plus d'un an. Amazon aussi, mais plus récemment, le mois dernier.