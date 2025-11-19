Suite à la panne majeure du mardi 18 novembre 2025, Cloudflare a publié un rapport pour revenir, en toute transparence, sur la cause de cette panne. Spoiler : il ne s'agit pas d'une cyberattaque, mais d'un effet de bord suite à un changement de configuration.

Cet article fait suite à la panne Web mondiale du 18 novembre 2025 évoquée dans celui-ci : Panne Cloudflare : l’internet mondial KO, des millions de sites sont inaccessibles.

La première hypothèse : une cyberattaque

Dès les premières lignes de ce rapport, Cloudflare précise qu'il ne s'agit pas d'une cyberattaque : "Le dysfonctionnement ne résultait, directement ou indirectement, ni d'une cyberattaque ni d'une activité malveillante.", peut-on lire. Pourtant, dans un premier temps, les équipes de Cloudflare ont pensé qu'il s'agissait d'une attaque DDoS importante.

Le graphique ci-dessous montre le volume d'erreurs HTTP 5xx renvoyées par le réseau Cloudflare tout au long de cette panne. Ce qui a fait croire à Cloudflare qu'il s'agissait d'une attaque DDoS, c'est justement les fluctuations : comme si cela s'arrêtait pour reprendre ensuite.

"Ces fluctuations compliquaient fortement nos efforts visant à comprendre ce qui se passait, car du fait de la distribution de fichiers de configuration tantôt valides, tantôt dysfonctionnels sur notre réseau, le système dans son ensemble se rétablissait avant de connaître une nouvelle défaillance. C'est ce comportement qui nous a fait croire au départ que l'événement pouvait être dû à une attaque.", précise le rapport.

La cause : un fichier de configuration trop volumineux

Cloudflare explique qu'une modification des permissions au sein de ses systèmes de base de données est à l'origine de cette panne mondiale. Suite à cette opération, la taille d'un fichier que Cloudflare appelle un "fichier de fonctionnalité" a très largement augmentée, ce qui était inattendu.

Le problème, comme l'explique Cloudflare, c'est que "la limite définie pour ce fichier de fonctionnalité au sein du logiciel était inférieure à la taille réelle du fichier ce jour-là, qui représentait le double de la normale. Ce problème a entraîné une défaillance du logiciel."

Ce fichier est lié au système du service de Bot Management, conçu pour gérer 200 fonctionnalités au maximum, alors qu'en principe Cloudflare en utilise actuellement 60. Sauf que ce fichier contenait plus de 200 fonctionnalités, comme l'explique l'entreprise américaine : "Lorsqu'un fichier dysfonctionnel contenant plus de 200 fonctionnalités a été propagé à nos serveurs, cette limite a été atteinte et a entraîné une panique au sein du système."

Il y a eu un effet boule de neige sur les différents nœuds du réseau Cloudflare, qui ont commencé à ne plus être en mesure de traiter les requêtes. Cela explique les codes d'erreurs HTTP 5xx mais aussi une augmentation de la charge CPU sur les systèmes, ce qui a eu pour impact d'augmenter fortement la latence des réponses du CDN Cloudflare.

Au final, la durée de cette panne a été de près de 6 heures, puisque de premiers signes de défaillances ont été constatés à 12h20 (heure de Paris). "Tous les systèmes Cloudflare fonctionnaient à nouveau normalement à 17 h 06.", précise Cloudflare, soit 18h06 (heure de Paris).

La pire panne Cloudflare depuis 2019

Au-delà de s'excuser auprès de tout le monde, Cloudflare affirme que cette panne est la pire qu'elle a connue depuis 2019. Ce type d'événement est rare, ce qui est tout de même remarquable quand on connait la popularité des services de Cloudflare. Mais, par contre, quand ça casse, cela fait très mal...

"Toutefois, ces six dernières années, nous n'avons pas connu d'autre épisode d'interruption de nos services ayant entraîné l'arrêt de la majorité du trafic principal sur notre réseau.", peut-on lire. Cloudflare estime que cette interruption est inacceptable.

Dans son rapport, le géant américain affirme réfléchir à des solutions pour être en mesure de mieux contrôler et réagir face à ce type d'incident. Voici ce que l'on peut lire :

Renforcer le processus d'ingestion des fichiers de configuration générés par Cloudflare afin qu'il se comporte de la même manière qu'avec les entrées générées par l'utilisateur,

Activer davantage de kill switchs (boutons d'arrêt d'urgence) mondiaux pour les fonctionnalités,

Eliminer la possibilité que des opérations de vidage de la mémoire ou d'autres rapports d'erreurs submergent les ressources système,

Examiner les modes de défaillance à la recherche de conditions d'erreur dans tous les modules de proxy principaux.

Source