
Ces services de mise en cache sont généralement utilisés pour améliorer la fiabilité et les performances d’Azure AD. Malheureusement, cette modification a introduit une latence accrue dans la communication de l’interface MFA avec ses services de cache. Ce problème a démarré avec une charge élevée une fois qu’un certain seuil de trafic est atteint. À la suite de ce premier problème, une situation de concurrence critique s’est créée lors du traitement des réponses par le serveur principal MFA, ce qui a déclenché une recirculation des processus du serveur frontal MFA entrainant par la même occasion une latence supplémentaire. En conséquence, le service MFA a commencé à ralentir le traitement des demandes, ce qui a dans un premier temps eu un impact sur les pays en développement d’Europe de l’Ouest (qui desservent le trafic dans les régions d’APAC et EMEA).
Après avoir sans succès tenté plusieurs mesures d’atténuation, l’équipe MFA d’Azure AD s’est résolue à rediriger le trafic vers les États-Unis. Cependant, le même problème de latence dans la communication de l’interface MFA avec ses services de cache s’est également posé une fois qu’un certain seuil de trafic a été dépassé. Les demandes d’authentification ont finalement commencé à expirer également avec les serveurs des États-Unis. Les ingénieurs ont donc redirigé le trafic vers les pays en développement d’Europe occidentale et poursuivi l’enquête.
À la suite de ce deuxième problème, un troisième problème résultant du second est survenu dans le back-end Azure MFA. Il a été provoqué par la situation de concurrence critique dans le serveur frontal et a entrainé une accumulation de processus. Les limites des ressources de back-end Azure MFA étant épuisées, la livraison des messages MFA aux clients a été empêchée.
Microsoft précise que le diagnostic de ces problèmes a été difficile à faire assez tôt, car les divers évènements ayant une incidence sur le service se chevauchaient et ne se manifestaient pas séparément. Cela a par ailleurs été accentué par les insuffisances de la télémétrie permettant d’identifier le problème du serveur principal. En effet, en l’absence de signaux/télémétries pour indiquer d’autres problèmes, l’équipe technique continuait de s’atteler à atténuer le problème de latence dans les serveurs frontaux MFA. Pendant ce temps, les pays en développement d’Europe de l’Ouest connaissaient encore des délais de traitement des demandes.
Après avoir recherché et identifié les problèmes des serveurs principaux MFA, les ingénieurs de Microsoft ont intégralement restauré l’intégrité du service et maintenu l’incident ouvert pendant environ 48 heures afin de s’assurer que tous les services sont opérationnels dans leur intégralité.
À la suite de cet incident, Microsoft présente ses excuses à ses clients et promet de passer en revue ses procédures de mises à jour, ses outils de surveillance pour détecter les problèmes de publication immédiatement ainsi que ses services de surveillance pour assurer une résilience plus rapide en cas d’occurrence d’un éventuel problème.
Source : Microsoft Azure
Et vous ?



Voir aussi




