Developpez.com

Le Club des Développeurs et IT Pro

La foudre malmène les Cloud d'Amazon et Microsoft en Irlande

La lenteur du rétablissement du service d'Amazon critiquée

Le 2011-08-09 00:02:51, par Idelways, Expert éminent sénior
Un puissant coup de foudre a frappé Dublin dimanche passé, provoquant une coupure de courant étendue ayant touché des Datacenters appartenant à Microsoft et Amazon, avec comme conséquence une indisponibilité relativement prolongée de leurs services Cloud respectifs.

Les redondances en sources électriques n'ont pas résisté à la puissance de la décharge électrique provenant du ciel irlandais. La foudre s'est abattue pile sur un transformateur électrique provoquant une explosion gigantesque et la propagation d'incendie ayant touché les générateurs électriques censés prendre le relais.

D'après le tableau de bord public de l'état de service, Amazon s'est expliqué quelques minutes après l'incident : « Vu l'étendue de la coupure électrique, un grand nombre de serveurs EBS [Blocks de stockages élastiques] ont perdu leur alimentation électrique et nécessitent des opérations manuelles pour que les volumes puissent être restaurés »

Si la survenue d'une telle « minicatastrophe naturelle » est un risque encouru par tous les fournisseurs et clients des services Cloud, l'architecture complexe d'Amazon et la nécessité de l'intervention manuelle ont empêché le rétablissement rapide de toutes les instances affectées.

Une partie a été rétablie quelques heures après l’incident, mais d'autres client et services n'ont pu retrouver leurs fichiers, bases de données et unités de calculs qu'après 24 à 48 heures.

Heureusement, aucune perte définitive de données n'est à déplorer cette fois, contrairement au dernier grand incident passé ayant emporté 0.07 % des données de toute la région est des états unis. Pour rappel, ce premier grand couac du Cloud d’Amazon a été dû à une erreur humaine doublée d'une défaillance technique, et compliqué par la complexité de la plateforme.

De son côté, Microsoft a fait savoir sur son compte Twitter, environ trois heures après l'incident que tout était rentré dans l'ordre pour ses services BPOS (Business Productivity Online Standard Suite)

Source : Amazon, compte Twitter de Microsoft

Et vous ?

Que pensez-vous de cet incident ?
De la fiabilité des plateformes Cloud ? Et de la lenteur de la récupération par Amazon notamment ?
  Discussion forum
12 commentaires
  • ithel
    Membre averti
    @CAML: je suppose que tu faisais référence à ceci ^^
    (merci à xkcd)

  • arno31
    Membre habitué
    C'est vrai que ce n'est pas de leur faute si la foudre est tombée au plus mauvais endroit possible ! N'empêches qu'il y a des moyens physiques d'empêcher la foudre de tomber sur un endroit sensible ! les générateurs ne devaient pas être très bien sécurisés.
  • kdmbella
    Expert éminent
    je croyais que la foudre est un phénomène maitrisé en électricité avec des systèmes de dérivation vers la terre! est ce à dire que les installations électriques de ces deux géant du web sont hors normes? est ce qu'ils sont les seuls à avoir été touché ou alors d'autre installation en ont subit les frais ?
  • gangsoleil
    Modérateur
    Ah bah oui, mais c'est le probleme de la centralisation hein : s'il y a un probleme, c'est tout le cloud qui est mort...

    Mais a part ca, c'est vendu comme etant plus securise
  • Freem
    Membre émérite
    Personne ne trouve ironique que le cloud, "nuage" se fasse défoncer à coups d'éclairs, qui proviennent de véritables nuages, eux!

    M'enfin, on voit bien ici l'intérêt du cloud....

    PS: je rejoins au sujet des orages, les dérivations, c'est pas juste rediriger les déjections des animaux dans les caniveaux
  • CAML
    Membre averti
    - "Dites ! le câble qui traîne là, il faudrait pas mieux le ranger pour pas se prendre les pieds dedans ?"
    - "Mais non voyons ça ne devrait pas arrivé !"
  • shkyo
    Membre expérimenté
    Et ben, quel pagaille pour un gros orage... Bon après, c'est vrai que la foudre ça peut faire vraiment beaucoup de dégâts suivant où ça tombe!

    Je me rappelle d'un orage plutôt moyen il y a environ 2 ans dans mon ancienne boite, le lendemain matin, notre liaison T2 était HS, ainsi que le boitier du quartier et même quelques cartes dans le central quelques kilomètres plus loin...
    Et les coupures électriques nous avaient grillées "seulement" 2 écrans, une alim d'un PC, et un disque dur sur un autre. Mais rien côté serveur.

    Comme quoi ça peut être très bizarre les conséquences d'une surtension!

    Après on ne peut pas non plus trop en vouloir à Amazon (pour une fois) car une explosion de transfo plus des incendies sur les générateurs de secours, le coup de foudre a du tout de même être plutôt du genre costaud...

    Cet accident montre encore une fois qu'il ne faut pas tout mettre en mode cloud, et qu'il faut garder en local de quoi faire "tourner la boutique"...
  • CAML
    Membre averti
    Envoyé par ithel
    @CAML: je suppose que tu faisais référence à ceci ^^
    (merci à xkcd)

    Si tout à fait
  • jeanluc75
    Nouveau membre du Club
    je n'y comprend plus rien, cela veut donc dire que le cloud est centralisé à Dublin,
    c'est contraire a l'esprit du cloud,
    un serveur HS à cause d'un accident isolé, je peu le faire tout seul
    autant louer 3 serveur dédié dans 3 pays différents, qui se sauvegarde l'un l'autre,
    on ne peut pas avoir 3 pannes électriques dans 3 pays,
    j'ai raison ou j'ai loupé un truc quelque part ?.
  • gangsoleil
    Modérateur
    Envoyé par jeanluc75
    je n'y comprend plus rien, cela veut donc dire que le cloud est centralisé à Dublin,
    c'est contraire a l'esprit du cloud,
    un serveur HS à cause d'un accident isolé, je peu le faire tout seul
    autant louer 3 serveur dédié dans 3 pays différents, qui se sauvegarde l'un l'autre
    Tout n'est pas forcement centralise dans un seul pays a un seul endroit, mais c'est cense etre transparent pour toi. Ce que tu achetes, c'est du temps de calcul, une puissance minimale, bla bla bla...

    Bien sur que ca sera, majoritairement, centralise dans un lieu. Ca coute beaucoup plus cher de faire pleins de petits centres qui doivent communiquer leurs informations en temps reel que d'en faire un gros. Et comme le but est de faire de l'argent et non pas de rendre un service, tu as la conclusion.

    Envoyé par jeanluc75
    on ne peut pas avoir 3 pannes électriques dans 3 pays,
    Si. Tu peux avoir des regions geographiques entieres coupees du monde car le principal cable sous-marin a "casse", tu peux avoir des coupures electriques simultanees dans plusieurs endroits, ...

    C'est juste moins probable.