Dans un communiqué, Octave Klaba, le fondateur et directeur général de la structure, a donné quelques précisions. « Pour héberger les 3 millions de sites web en hébergement mutualisé nous utilisons deux datacentres : le DC historique à Paris (P19) et le nouveau DC à Gravelines (GRA1). Sur P19, nous utilisons différentes technologies pour stocker les données pour les sites web et les bases de données. Dans la majorité des cas nous utilisons notre technologie NAS ou NAS-HA basée sur le ZFS. »
« Aussi sur P19, dans certains cas nous utilisons les baies de stockage propriétaires d'EMC VNX 5400 avec les disques SSD. Il s'agit d'une solution que nous avons mise en place en 2012 pour pallier les problèmes de performances de stockage que nous avons eus en 2012 sur les bases de données. Depuis nous avons fixé la performance sur nos NAS-HA et sur GRA nous n'utilisons plus que nos solutions internes. »
Il a précisé que « La technologie d'EMC n'est pas à l'origine de l'incident. Nos datacentres ne sont pas adaptés pour héberger ce type d'infrastructure. Seules certaines salles sont spécialement préparées pour ce genre d'hébergement, mais cette baie de stockage n'y a pas été hébergée ce qui est l'origine du problème », avant de remercier EMC pour son aide dans la résolution de l’incident.
Pour résoudre ce problème, OVH a lancé deux actions :
- L’entreprise s’est mise en contact avec EMC avec qui elle a essayé de redémarrer le système. Une équipe de RBX a pris une baie de stockage EMC VNX 5400 qu’elle a eu en spare à Roubaix pour la transporter à P19. La baie est arrivée à P19 vers 3 heures du matin et OVH a essayé de redémarrer les disques dans cette nouvelle baie de stockage. La structure a demandé l'intervention d'EMC sur le site pour le faire au plus vite. « Nous ne savons pas encore combien de temps va prendre le redémarrage de la baie et si nous arriverons à récupérer les données », avait admis Klaba ;
- C'est pourquoi OVH a lancé la restauration de bases de données à partir de backup. Cette restauration a commencé vers minuit du matin. Ce matin à 9 heures, environ 15 % de bases de données ont été remises en route en mode « lecture seule » c'est-à-dire que les sites web peuvent lire les données dans les bases de données, mais ne peuvent pas encore les modifier. « Nous continuons la restauration qui va prendre jusqu'à environ ce soir 20 heures. L'ensemble de process est désormais automatisé et nous avons assez de stockage pour déployer toutes ces bases de données sur P19. »
Il est possible de suivre l’avancée des travaux ici.
« Nous sommes sincèrement désolés pour cette panne. La dernière panne de cette ampleur date de 2006 et à l’époque, nous avions remis en question toutes les technologies de stockage que nous utilisons chez Ovh. Cette panne est une leçon de plus et nous allons vous communiquer les changements qui vont s’opérer dès la fin de cet incident pour éviter de revivre la prochaine panne de cette ampleur dans 10 ans encore », a conclu le fondateur.
Source : OVH
Et vous ?
Avez-vous été affecté par cette panne ?
Voir aussi :
OVH : l'hébergeur français met la main sur le Cloud public de VMware, pour accélérer son implantation aux États-Unis
OVH victime de la plus violente attaque DDoS jamais enregistrée, par un botnet de caméras connectées qui n'étaient pas sécurisées
OVH va lever 300 millions d'euros, l'hébergeur va ouvrir son capital à des investisseurs tiers pour accélérer son développement à l'international