GitHub est l'une des plateformes où la plupart des logiciels open source du monde sont développés. D'après les chiffres du dernier State of the Octoverse, environ 40 millions de personnes, dont un grand nombre de bénévoles, affinent les projets, consignent les bogues qui doivent être corrigés, recherchent les failles de sécurité et suivent les changements. Entre la publication de la dernière édition et celle qui la précède, la plateforme a vu la création de plus de 44 millions de dépôts. GitHub peut donc être considéré comme une gigantesque bibliothèque d'outils logiciels réutilisables. Et ce n’est pas la seule plateforme…
Parler d’open source ne saurait se faire sans évoquer la problématique essentielle de stockage (ou de sauvegarde) sans laquelle les générations futures ne peuvent hériter desdits contenus. De la disquette 3 pouces et demi aux disques SSD, les durées de vie des supports de stockage s’étalent de dizaines d’années à tout au plus quelques centaines d’années.
« Une part inquiétante du savoir mondial est aujourd'hui stockée sur des supports éphémères : disques durs, SSD, CD bons pour quelques décennies, bandes de sauvegarde dont la durée de vie théorique de 30 ans suppose une chaleur et une humidité strictement contrôlées », rappelle GitHub.
C’est pour apporter sa contribution à la résolution de cette problématique et d’autres comme la survenue de catastrophes susceptibles de provoquer la perte des contenus que GitHub lance l’initiative Arctic Code Vault. L’information est tombée il y a peu en marge du lancement de l’édition 2019 de la conférence GitHub Universe qui s’achève ce jour.
L’idée derrière l’initiative Arctic Code Vault est de sauvegarder les contenus des dépôts GitHub sur un support de stockage qui a une durée de vie plus importante.
« Ces données seront stockées sur des bandes de film de 3 500 pieds, fournies et encodées par Piql, une société norvégienne spécialisée dans le stockage de données à très long terme. La technologie du film repose sur les halogénures d'argent et le polyester. Ce matériau a une durée de vie de 500 ans telle que mesurée par l'ISO. Des tests de vieillissement simulés indiquent que le film de Piql durera deux fois plus longtemps », indiquent les responsables de GitHub. La plateforme détenue par Microsoft prévoit de loger les bandes dans une mine de charbon déclassée à Svalbard, en Norvège. La même ville abrite une chambre froide mondiale. Il s'agit de l'une des villes situées le plus au septentrion de la planète. Les archivistes sont d’avis que le froid et les conditions presque constantes peuvent aider à la préservation des contenus.
« Le 2 février 2020, nous allons procéder à une photographie de chaque dépôt public actif pour la sauvegarde au sein de ce coffre-fort », indiquent les responsables de la plateforme qui ont donné leur aval à la publication de contenus vidéo qui montre le déroulement d’une des opérations.
Dans le cadre d’un partenariat avec Microsoft Research, le service web d'hébergement et de gestion de développement de logiciels entend prolonger la durée de préservation des contenus à 10 000 ans. « L’écriture des contenus se fera sur des plateaux en verre de quartz à l’aide d’un laser femtoseconde », précise GitHub.
En fait, le GitHub Archive Vault fait partie d’un vaste programme d’archivage lancé par GitHub avec un certain nombre de partenaires parmi lesquels l’Internet Archive, Microsoft Research et la fondation Long Now.
La stratégie se résume en une phrase : archiver les contenus au sein de multiples organisation selon la recommandation LOCKS – Lots Of Copies Keep Stuff Safe. Ci-dessous, le détail de la stratégie organisée en tiers hot (GitHub, GHTorrent), Warm (GH Archive, Internet Archive, Software Foundation Heritage), Cold (Bodleian Library, Arctic World Archive, Project Silica) :
GitHub
A chaque push, nous répliquons vos données Git vers de multiples centres de données à travers le monde. De plus, nous stockons des sauvegardes des données Git, des issues, des demandes d'extraction et de toutes vos données sur GitHub dans plusieurs emplacements. Toutes ces données sont disponibles en direct via l'API GitHub.
GHTorrent
GHTorrent surveille la chronologie des événements publics de GitHub, archive ces événements, et parcourt et archive récursivement leurs contenus et dépendances. Ces archives seront ensuite mises à disposition pour téléchargement sur une base quotidienne ou mensuelle.
GH Archive
GH Archive surveille la chronologie des événements publics GitHub, archive ces événements et les rend interrogeables à l'aide de BigQuery. Vous pouvez également télécharger des instantanés par heure, jour ou mois.
Internet Archive
La célèbre Wayback Machine de l'Internet Archive parcourra les dépôts publics de GitHub - y compris les nouveaux dépôts, les problèmes, les demandes d'extraction, les wikis et plus - et stockera des copies sur des disques durs à San Francisco et ailleurs. Ces archives seront accessibles au public via git et https.
Software Heritage Foundation
La Software Heritage Foundation explorera régulièrement GitHub et ajoutera ses rediffusions publiques à ses archives, auxquelles elle fournira un accès public à l'API.
Bodleian Library
La Bodleian Library de l'Université d'Oxford fournira une redondance pour l'Arctic Code Vault en conservant les 10 000 dépôts les plus étoilés et les plus dépendants de GitHub dans leur dépôt sous forme de bandes de film Piql en double.
Source : GitHub Archive Program
Et vous ?
Que pensez-vous de cette initiative ?
Voir aussi :
Rachat de GitHub : pourquoi ce rachat, et quels sont les plans de Microsoft
GitHub permet désormais de créer un nombre illimité de référentiels privés avec son offre gratuite et annonce une offre unifiée pour les entreprises
À tous ceux qui ont fui GitHub suite au rachat par Microsoft : GitLab est hébergé sur Microsoft Azure