Digital Ocean est une entreprise offrant des services de cloud computing. En 2015, elle a été classée numéro 2 par Netcraft (entreprise britannique qui suit les technologies utilisées sur la toile) après Amazon, car elle aurait hébergé plus de 163 ;000 sites web contre plus de 300 ;000 pour Amazon. Elle est soutenue par des investisseurs de renom et offre des machines virtuelles uniquement équipées de disques durs SSD afin de se démarquer de la concurrence.
Le 5 avril dernier, l’accès à la plateforme cloud de Dital Ocean a été fermé aux clients de l’entreprise. En cause, un ingénieur de l’entreprise a accidentellement supprimé la base de données de l’environnement de production. Selon le rapport de l’entreprise, cela est survenu à cause d’une erreur de configuration effectuée par l’ingénieur en utilisant ses identifiants de l’environnement de production. Se croyant donc dans un autre environnement, l’ingénieur a lancé des tests automatisés qui ont eu pour effet de supprimer la base de données de production.
En l’espace de trois minutes, Digital Ocean a commencé à recevoir des alertes de ses clients lui signifiant qu’aucun Droplet (serveur virtuel) supplémentaire ne pouvait être créé. Vu l’urgence du problème, Ocean Digital a pris la décision, après avoir constaté à 10 h 24 (heure de Paris) que sa base de données primaire avait été supprimée, de procéder à la récupération des données à partir des répliques de bases de données disponibles. L’opération de récupération a commencé à 16 h 34 pour s’achever à 19 h 31, heure de Paris. À cela, il a fallu ajouter environ 50 minutes pour remettre en route tous les systèmes dans la mesure où l’API et le panneau de configuration de Digital Ocean étaient complètement indisponibles. Les clients de Digital Ocean ont donc dû patienter pendant 4 h 56 min pour pouvoir à nouveau faire fonctionner leurs services sur la plateforme cloud de l’entreprise.
Consciente que de nombreuses entreprises ne peuvent se permettre une indisponibilité de leurs services pendant un tel laps de temps, Ocean Digital a tenu à présenter ses excuses tout en prenant sur elle l’entière responsabilité de l’accident qui est survenu. Par ailleurs, pour éviter qu’un tel accident ne se reproduise, l’entreprise entend réduire l’accès au système primaire et améliorera le système de récupération des données afin de réduire drastiquement le temps de récupération en cas d’occurrence d’un évènement similaire.
À travers l’accident qui a eu lieu, l’on réalise combien de fois les erreurs humaines peuvent mettre à mal les activités d’une entreprise tout en mettant le fautif dans de sérieux problèmes. À la fin du mois de janvier dernier, GitLab, la plateforme de gestion des développements collaboratifs a connu un incident similaire où un administrateur a supprimé plus de 300 Go de données de production. Cela a coûté à GitLab plusieurs heures d’indisponibilité pendant lesquelles les développeurs ne pouvaient pas avoir accès à leur code. GitLab est parvenue à restaurer les données supprimées, mais 6 heures de données n’ont pas pu être récupérées, ce qui a probablement lourdement impacté certains développeurs.
Bien que ces accidents puissent paraître étonnants à première vue, certains développeurs expliquent avoir déjà vécu de tels incidents dans leur entreprise. Un développeur explique par exemple qu’un administrateur dans son entreprise a exécuté un script pour supprimer les données inutiles de la base de données. Malheureusement, après avoir achevé son travail, il a oublié de revenir à la configuration initiale et a exécuté des tests automatisés. Conséquence, il a supprimé la base de données d’intégration de son entreprise. Heureusement pour lui, il n’était pas dans l’environnement de production.
Un autre explique qu’un développeur qui croyait travailler sur une base de données Hadoop (HBase) de développement a exécuté une commande HDFS MV afin de supprimer sa base de données. Malheureusement, il était déjà trop tard quand il a réalisé qu’il s’agissait de la base de données de production. Les activités de l’entreprise ont été à l’arrêt jusqu’à la restauration de la sauvegarde.
Comme on peut le noter par ces témoignages, les erreurs humaines entraînant la suppression de bases de données de production sont légion. Avez-vous déjà été dans une telle situation ;? Avez-vous déjà supprimé la base de données de l’environnement de production de votre entreprise accidentellement ;? Ou avez-vous connu une personne dans une telle situation ;? Que conseillez-vous pour éviter cela ?
Source : Blog Digital Ocean
Et vous ?
Que pensez-vous de ces erreurs humaines occasionnant la suppression des données de production ?
Avez-vous déjà été confronté à une telle situation ?
Quels conseils préconisez-vous pour éviter ce type d’accidents ?
Voir aussi
Un administrateur système de GitLab supprime accidentellement 310 Go de données de production et rend le site indisponible depuis plusieurs heures
GitLab parvient à restaurer certaines données supprimées accidentellement et se remet en ligne, mais 6 heures de données n'ont pas pu être récupérées
Forum Actualités, Wiki Developpez.com, Débats Best of, FAQ Developpez.com
Digital Ocean supprime accidentellement sa base de données de production
Et parvient à la restaurer, avez-vous déjà été confronté à un tel accident ?
Digital Ocean supprime accidentellement sa base de données de production
Et parvient à la restaurer, avez-vous déjà été confronté à un tel accident ?
Le , par Olivier Famien
Une erreur dans cette actualité ? Signalez-nous-la !