Ce modèle a déjà été mis au point il y’a des années par des ingénieurs de Netflix qui ont alors développé un logiciel nommé Chaos Monkey qui était en mesure de créer des bogues artificiels dans la plateforme cloud d’Amazon Web Services dont dépend une grande partie des applications de Netflix. Ces systèmes visent à permettre aux ingénieurs de comprendre et de prévoir les problèmes que pourraient rencontrer leurs plateformes matérielles, mais aussi de déterminer si ces dernières sont en mesure de résister à ces menaces éventuelles. Dans un billet de blog, Mazdak Hashemi, responsable de l’infrastructure et des opérations chez Twitter écrit : « cela permet de découvrir les vulnérabilités afin de mieux se préparer à gérer un incident sur l’ensemble du site ». Il ajoute : « en provoquant des pannes sur notre système, nous sommes en mesure de développer des services plus souples ».
Twitter a souvent développé des logiciels et autres outils open source tels que Scalding, Summingbird ou encore Diffy pour répondre à ses propres besoins. En ce qui concerne ce framework de simulation de panne, Hashemi n’a rien précisé sur la possibilité qu’elle soit publiée un jour sous licence open source. Le framework est composé de trois modules à savoir :
- « monitors modules » permettant de vérifier que les tests ne créent pas de problèmes réels dans la plateforme de Twitter, si tel est le cas, il met fin aux tests ;
- « notifiers modules » permettant de faire des rapports sur les tests aux équipes de Twitter.
« mischief modules » permettant de créer des pannes artificielles et de les annuler ;
Le framework permet notamment à Twitter d’avoir une idée sur les pertes de puissance, de réseau ou encore de savoir si un logiciel de Twitter tournant sur le cluster Mesos répond ou non. Le responsable de l’infrastructure et des opérations de Twitter confie que le framework a servi à exécuter tous les tests de Twitter pour déceler des pannes au cours des derniers six mois et a permis de détecter à temps beaucoup de vulnérabilités. Hashemi poursuit en disant que le framework leur a donné confiance sur la résilience de plusieurs des systèmes qu’ils utilisent tels que Apache Mesos, Apache Aurora. Ces derniers ont été largement testés sans révéler d’éventuelles vulnérabilités pouvant affecter négativement leurs utilisateurs.
Source : Blog Twitter
Et vous ?
Que pensez-vous de ce nouveau framework de Twitter ?
Voir aussi
la rubrique Solutions d'entreprise