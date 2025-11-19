La société Cloudflare, l'un des plus grands réseaux d'Internet au monde, a publié un rapport d’incident détaillé expliquant la panne majeure d’hier qui a rendu inaccessibles de vastes portions du web et fortement ralenti de nombreux autres services. Des sites comme X, ChatGPT et autres étaient touchés, ce qui a, de fait, affectés des millions de clients, voire des milliards.

Cloudflare n'a pas été attaquée

Au début, l’équipe de réponse aux incidents a cru être victime d’une des plus grosses attaques DDoS jamais observées. Les processus de routage du trafic tombaient mystérieusement en panne pendant environ cinq minutes, se rétablissaient, puis échouaient à nouveau, un schéma qui semblait délibéré, car les vrais bugs logiciels se « réparent » rarement d’eux-mêmes aussi proprement. Pour ajouter à la confusion initiale, la page de statut de Cloudflare (hébergée entièrement en dehors de son propre réseau) est également tombée au même moment, renforçant les craintes d’une attaque sophistiquée et coordonnée.

En réalité, tout l’incident provenait d’une unique erreur de permissions lors d’une mise à jour de base de données considérée comme routinière. Les ingénieurs renforçaient les contrôles d’accès sur un cluster ClickHouse utilisé par le système de gestion des bots de Cloudflare. Cette modification a involontairement provoqué la duplication de certaines entrées lors de l’écriture dans un fichier critique appelé « feature file », qui indique aux serveurs périphériques comment identifier et bloquer les bots malveillants. Le fichier a soudain doublé de volume, dépassant une limite fixe non détectée dans le logiciel de routage du trafic. Lorsque les serveurs tentaient de charger ce fichier trop gros, le processus plantait, entraînant dans sa chute de larges parties du réseau. Le cycle étrange de cinq minutes ? Le fichier est régénéré toutes les cinq minutes. Comme la mise à jour des permissions se déployait progressivement nœud par nœud sur le cluster ClickHouse, environ une génération sur deux produisait un fichier corrompu (trop gros) et l’autre un fichier sain. C'est donc le hasard qui a permis au réseau d'alterner entre état fonctionnel et défaillant.



La direction de Cloudflare a qualifié l’erreur de « profondément douloureuse », reconnaissant qu’une interruption à leur échelle est inacceptable. « Nous savons que nous vous avons déçus aujourd’hui », a écrit l’entreprise dans son billet de blog signé Matthew Prince et son communiqué d’excuses publiques. Les services ont été totalement restaurés en quelques heures après l’identification et l’annulation de la modification problématique des permissions. Cet incident rappelle brutalement que même les infrastructures les plus critiques d’Internet peuvent être mises à genoux non par des pirates, mais par une simple ligne de permissions mal configurée. Microsoft en avait fait les frais il y a plus d'un an. Amazon aussi, mais plus récemment, le mois dernier.