Amazon explique les raisons de la panne étendue de son Cloud

Et évoque une « tornade de re-mirroring »

Le 2011-05-02 18:20:43, par Idelways, Expert éminent sénior

Mise à jour du 02/05/2011 par Idelways

Amazon vient de publier la rétrospective de la panne étendue de sa région est des États-Unis, ayant provoqué l'indisponibilité prolongée de la plateforme EC2 (Elastic Compute Cloud) et la perte irrécupérable de 0.07 % de ses données.

Techniquement, il s'agit d'une « panne en cascade » étant survenue à la suite à la tentative d'augmentation des capacités réseau de la région est.

Il s'agit d'une opération de scalabilité habituelle pour Amazon qui a cette fois dérapé en raison d’une erreur humaine compliquée par un bogue logiciel. Le tout, a fait basculer l'ensemble du réseau de cette région vers le mauvais routeur.

Un réseau secondaire redondant du sous-système de stockage EBS (plus lent, de faible capacité et habituellement réservé aux sauvegardes et à l'intercommunication) a donc subitement reçu tout le trafic de la région, plombant tout le système.

Les volumes de stockage EBS fonctionnent de paires en réseau, un volume primaire et un volume secondaire plus lent destinés à la sauvegarde. Chaque EBS est composé de clusters contenant des noeuds, et chaque noeud agit comme une unité de stockage distincte.

Pour préserver l'intégrité des données, il existe toujours deux copies du même noeud (re-mirroiring).
Si un noeud n'arrive pas à trouver son partenaire pour y écrire les données de sauvegarde, il refuse de fonctionner (en lecture comme en écriture) et tente sans relâche jusqu'à ce qu'il trouve un noeud de remplacement.

Si la correction de la défaillance initiale a été rapidement réussie, le rétablissement du fonctionnement normal du système, conçu pour ne plus « faire confiance » aux noeuds défaillants, a pris beaucoup de temps.

À la correction de la défaillance initiale, le réseau secondaire a été largement saturé et de nombreux noeuds principaux n'ont pas pu reformer leurs paires et n'ont pas pu donc « re-mirroirer » correctement.

Cette situation a été compliquée par le nombre sans cesse croissant des demandes de création de nouveaux noeuds en attente, ayant amené les ingénieurs d'Amazon à désactiver la création de nouveaux noeuds. Ce qui a provoqué ce que qualifie Amazon de « tornade de re-mirroiring »

Un bogue logiciel est venu compliquer la situation : quand de nombreux noeuds EBS annulent leurs requêtes de re-mirroiring simultanément, ils tombent en panne et amènent davantage de noeuds à vouloir se mirroirer.

Les ingénieurs d'Amazon ont donc dû localiser physiquement et un par un les noeuds défaillants et ont du les reconnecter manuellement pour former de nouveaux noeuds fonctionnels.

De plus, la récupération de 2.2 % des données a été effectuée manuellement.

L'entreprise reconnait en tout cas ses erreurs, aussi bien sur le plan technique que sur la mauvaise gestion de la crise qui a essuyé de violentes critiques. Des crédits de 10 jours seront offerts à tous les clients affectés par cette interruption de service.

Amazon recommande à ses utilisateurs une série de mesures antidésastres, mais n'explique pas le sort ni les raisons de la perte des 0.07 % des données, un chiffre d'apparence dérisoire, mais qui représente à l’échelle d’Amazon des quantités colossales d’informations.

Source : Amazon

Et vous ?

Que pensez-vous des explications d'Amazon ?

Discussion forum

21 commentaires

frfancha
Membre éprouvé

Envoyé par sevyc64

C'était le cas, pas de badge ou code mais salle fermée à clé. Mais il avait besoin d'intervenir dans cette salle. Il avait une prise sur le tableau électrique qui était aussi dans cette salle sur laquelle on lui avait vivement recommandé de brancher son matériel, mais le câble de sa perceuse était trop court.

On ne laisse pas un externe seul dans la salle serveurs. Ca parait "ch.." de rester à côté à regarder, mais c'est nécessaire, la preuve.

le 02/05/2011 à 21:27
jmnicolas
Membre éprouvé

Entre Amazon et VmWare ils sont entrain de démolir toute la belle pub sur le cloud dont on nous a gavés ces derniers temps

Et j'ai quand même l'impression que ce genre d'architecture (data centers) est bien trop complexe pour être comprise et maitrisée dans sa totalité, ce qui amène des situations ridicules où un admin appuie sur une touche par inadvertance et tout plante en cascade (chez VmWare).

le 03/05/2011 à 15:13