Mercredi 29 octobre, une panne majeure a touché l’écosystème de Microsoft à l’échelle mondiale, entraînant des dysfonctionnements en chaîne pour des sites et services très grand public comme Minecraft et Xbox, mais aussi pour des acteurs clés de l’économie et des services publics. Au Royaume-Uni, l’aéroport d’Heathrow et la banque NatWest ont été cités parmi les organisations confrontées à des interruptions d’accès ou des messages d’erreur. Dans la soirée, le Parlement écossais a suspendu ses votes, faute de système en ligne pleinement opérationnel.
Selon les premiers éléments communiqués par l’éditeur américain, l’incident trouve son origine dans une modification de configuration opérée sur l’infrastructure du réseau de diffusion et d’accélération d’Azure appelé Azure Front Door. Ce composant assure, en temps normal, l’acheminement rapide et sécurisé du trafic vers des milliers d’applications et de sites. La modification incriminée a provoqué une dégradation de service, notamment via des problèmes de résolution DNS, rendant certains portails inaccessibles ou très lents.
Un incident au cœur de l’après-midi
Les signalements d’utilisateurs ont commencé à affluer en milieu d’après-midi, avec un pic constaté sur les services Azure et Microsoft 365. Plusieurs régions ont observé des erreurs de type timeout, des redirections vers des pages d’erreur génériques et des difficultés d’accès au portail d’administration Azure. En parallèle, des plateformes grand public adossées à l’écosystème Microsoft, comme Minecraft ou Xbox, ont subi des perturbations ressenties par des milliers de joueurs.
Dans sa communication de crise, l’éditeur a indiqué avoir identifié la cause et lancé un plan de remédiation. Les équipes ont commencé à réacheminer le trafic vers des infrastructures saines, tout en procédant à un retour arrière de la configuration fautive. En fin d’après-midi, plusieurs indicateurs montraient une amélioration de la situation, même si des résidus de panne pouvaient encore être constatés par endroits.
Les transports, la banque et le commerce touchés
Heathrow, l’un des hubs aériens les plus fréquentés d’Europe, a rapporté des perturbations affectant des systèmes dépendants de services hébergés dans le cloud de Microsoft. Si les conséquences ont varié selon les applicatifs, l’épisode illustre la dépendance croissante d’infrastructures critiques à des briques techniques opérées par quelques grands fournisseurs.
Le secteur bancaire a lui aussi été touché. NatWest a confirmé que son site web avait subi des problèmes d’accès. Le groupe a toutefois précisé que ses canaux de secours, en particulier l’application mobile, le chat web et la relation client par téléphone, restaient disponibles. Les clients qui utilisent un accès en ligne enregistré via signet ont, pour certains, pu contourner les difficultés.
Hors d’Europe, les témoignages font état de pannes ou de ralentissements chez des enseignes connues du retail et de la restauration, preuve que la chaîne de dépendance au cloud s’étend bien au-delà du seul monde du logiciel professionnel.
Microsoft 365, Outlook, Copilot, portail Azure, CDN
Côté entreprise, la gêne s’est concentrée sur les outils de productivité et d’administration. Des utilisateurs de Microsoft 365 ont fait état de lenteurs dans Outlook et Teams. Les administrateurs se sont heurtés à des erreurs d’authentification ou de navigation sur le portail Azure. La nature du problème, liée à la couche de distribution et de mise en réseau, explique que des services très différents aient été touchés en même temps.
Azure Front Door est conçu pour absorber des volumes massifs et rediriger intelligemment le trafic vers les datacenters les plus proches et les plus disponibles. Lorsqu’une configuration défaillante affecte ce type de brique, l’effet peut s’étendre rapidement et de manière transversale à des milliers d’applications, y compris des services de jeu en ligne comme Minecraft ou des plateformes internes critiques.
Une semaine après une autre secousse du cloud mondial
Cette panne intervient quelques jours seulement après un incident d’envergure chez un autre géant du cloud. La succession de deux épisodes majeurs en aussi peu de temps ne signifie pas que ces plateformes seraient fondamentalement instables. Elle rappelle toutefois que leur complexité et l’ampleur de leurs interconnexions, crée un risque systémique. Dès qu’un maillon aussi central que le DNS ou la distribution globale de contenu se dérègle, l’onde de choc se propage à grande vitesse.
À l’inverse, les mécanismes de mitigation et de réacheminement mis en place par ces groupes permettent souvent une décrue relativement rapide des symptômes, une fois le diagnostic posé. Les chiffres de rapports d’incidents collectés dans l’après-midi témoignent d’un pic suivi d’une baisse progressive des signalements, signe que les correctifs déployés ont commencé à produire leurs effets.
Le Parlement écossais suspend ses votes
Fait notable, l’incident n’a pas concerné que des entreprises privées. En Écosse, la séance a été interrompue car le système de vote électronique ne fonctionnait plus de manière fiable. Cette décision illustre le principe de précaution appliqué aux processus démocratiques lorsqu’ils s’appuient sur des outils numériques. La priorité est alors de garantir l’intégrité des procédures, quitte à suspendre temporairement la séance en attendant la restauration des services.
Panne mondiale d’AWS le 20 octobre 2025 : que s’est-il vraiment passé ?
Que faire si on est une DSI ou un éditeur qui s’appuie sur Azure
- Éviter le point de défaillance unique. Même si l’on reste chez un même fournisseur, dissocier les plans de contrôle et les plans de données, prévoir des chemins alternatifs pour le routage et utiliser des mécanismes de bascule régionale limite les impacts.
- S’outiller pour la reprise rapide. Disposer d’infrastructures templatisées et de configurations validées, prêtes à être réappliquées, accélère la remise en service.
- Tester le plan de continuité. Les exercices réguliers de chaos engineering et les revues post-mortem renforcent la résilience réelle, pas seulement théorique.
- Soigner la communication. Un canal d’information clair vers les clients et partenaires réduit l’incertitude et les surcoûts opérationnels.
- Surveiller la dépendance DNS et CDN. Cartographier précisément les dépendances réseau, en particulier la résolution de noms et la distribution de contenu, permet d’anticiper les scénarios de crise.
Une concentration du cloud problématique ?
Le marché mondial du cloud est dominé par trois acteurs, ce qui présente un avantage d’échelle mais concentre les risques. En contrepartie, ces plateformes disposent d’un niveau d’automatisation et d’ingénierie considérable, qui leur permet de diagnostiquer et d’isoler rapidement les anomalies. L’incident du jour le montre une nouvelle fois: une simple modification de configuration peut avoir des effets disproportionnés, mais une architecture bien pensée et un rollback maîtrisé ramènent progressivement le système à l’équilibre.
Situation en fin de journée
Au moment de la rédaction, Microsoft indiquait avoir déployé un correctif et poursuivait les actions de mitigation afin de rétablir pleinement l’accès à l’ensemble des services affectés. La majorité des signalements semblaient refluer, tout en restant sujets à des disparités géographiques et à des lenteurs résiduelles. Plusieurs grandes entreprises et institutions mentionnées plus tôt avaient repris des opérations plus proches de la normale, avec quelques garde-fous et procédures manuelles temporaires.
