Le 29 juin dernier, des dizaines de milliers de sites Web hébergés chez OVH sont passés hors ligne pendant une période prolongée, ce qui a mobilisé les équipes d’OVH pour ramener la situation à la normale. Parallèlement aux actions sur le terrain, l’hébergeur avait brièvement évoqué une panne survenue sur une baie du constructeur EMC. On en sait un peu plus depuis hier puisque OVH a refait surface avec un billet de blog plus détaillé sur l’incident.
« Nous avons eu un incident sur l’une des baies de stockage EMC VNX 5400 que nous utilisons pour stocker une partie des bases de données des hébergements mutualisés à P19 », s’était alors exprimé OVH à propos des origines de l’incident telles que communiquées le 30 juin dernier. Et d’ajouter que « seules certaines salles sont spécialement préparées pour ce genre d’hébergement, mais cette baie de stockage n’y a pas été hébergée, ce qui est à l’origine du problème ».
La dernière communication d’OVH évoque des soucis avec le système de refroidissement à eau de la salle dans laquelle la baie de stockage EMC VNX 5400 à l’origine de la panne avait été logée.
« À 18 h 48, le jeudi 29 juin, dans la salle 3 du datacenter P19, en raison d’une fissure sur un tuyau en plastique souple de notre système de watercooling, une fuite de liquide de refroidissement entraîne la présence de fluide dans l’une des deux baies de stockage propriétaires, lesquelles n’étaient pas refroidies par ce procédé, mais se trouvaient à proximité immédiate. Cela a eu pour conséquence directe la détection d’un défaut électrique entraînant l’arrêt complet de la baie », peut-on y lire.
La baie EMC VNX 5400, mise hors service par les systèmes de protection électrique, n’a pas pu être contrôlée à temps en raison d’une défaillance du système d’alerte audio relié aux sondes de détection de liquide en son sein. OVH évoque le fait qu’une mise à jour de ce système, réalisée le jour même où l’incident s’est produit, n’a pas fonctionné correctement. Le premier technicien n’a donc pu arriver sur les lieux que onze minutes après la détection de la fuite, ce qui a certainement eu un impact important sur la panne.
Entre établissement de l’ampleur des dégâts, rapatriement d’une baie similaire depuis Roubaix sur le site de Paris et restauration des données, il a fallu à OVH un peu plus de 24 heures pour que la situation revienne à la normale à 23 h 40 le vendredi soir.
Bien évidemment, OVH s’excuse pour les désagréments causés et promet un « geste commercial » pour dédommager ses clients de l’indisponibilité du service pendant près de 24 heures. Ces derniers se verront accorder une prolongation de leur offre d’hébergement de deux mois.
OVH annonce également des réaménagements internes dans le dessein de passer du matériel propriétaire vers l’open source, ce qui, d’après lui, permettra une meilleure maîtrise sur les aspects hardware et software de sa chaîne de production.
Source : OVH
Et vous ?
Qu’en pensez-vous ?
Voir aussi :
OVH victime de la plus violente attaque DDoS jamais enregistrée par un botnet de caméras connectées qui n'étaient pas sécurisées
Panne OVH : l'hébergeur Web revient sur le dernier incident
Avec plus de détails
Panne OVH : l'hébergeur Web revient sur le dernier incident
Avec plus de détails
Le , par Patrick Ruiz
Une erreur dans cette actualité ? Signalez-nous-la !