IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le Vatican opte pour l'Open Source dans la numérisation de sa bibliothèque
Le format FITS a retenu son attention

Le , par Stéphane le calme

254PARTAGES

7  1 
Cette année, la Bibliothèque apostolique vaticane va fêter ses 540 ans. Il faut dire que les ouvrages les plus anciens que cette institution possède sont bien plus anciens que la bibliothèque elle-même ; nous y retrouvons par exemple des ouvrages datant de l’antiquité, des parchemins de l'époque carolingienne ou même des documents issus de l'empire chinois des Ming. Au total plus de 1,6 millions de livres antiques et médiévaux, 8 300 incunables, 180 000 manuscrits et etc.

Si l’accès à ce trésor n’était réservé qu’à une poignée de personnes qui se sont rendues dans les salles de la bibliothèque, les mécènes ont décidé il y a deux ans de fonder une organisation à but non lucratif, la Digita Vaticana Oculus, qui s'est fixé comme objectif de numériser au moins 82 000 ouvrages et 41 millions de pages dans un premier temps.

Le 20 mars 2014, le japonais NTT Data Corp a annoncé avoir obtenu le contrat, à hauteur de 18 millions d’euros qu’il a signé avec les mécènes réunis au sein de la Digita Vaticana Oculus, pour la numérisation des documents de la bibliothèque apostolique vaticane. Sept mois plus tard, les 500 premiers ouvrages accessibles en ligne sont rendus publics. Un catalogue en ligne a été mis en place pour faciliter la recherche et la consultation des documents. En clair, cette institution de l'état pontificale s’est elle aussi mise à l’heure du numérique. Le projet en tant que tel durera neuf ans qui consiste en l'indexation de quelque 41 millions de pages de la bibliothèque. Lorsque tout sera terminé, l'on estime que quelque 2,8 péta-octets de données auront été nécessaires.

Pour Luciano Ammenti, le responsable des technologies de l’information et de la communication de la Bibliothèque du Vatican, les formats de fichiers Open Source constitue le moyen le plus fiable pour l’humanité de préserver son histoire.

« La Bibliothèque du Vatican est vouée à la conservation de documents. Nous essayons de préserver notre histoire. Nous avons tenté en vain d'augmenter le nombre de salles de lecture disponibles pour les personnes qui veulent consulter notre bibliothèque, mais nous avons réalisé que ces lieux ne pourraient jamais être assez nombreux. Nous avons 82 000 manuscrits au total et seuls 20% d'entre eux peut être consultés simultanément » a-t-il exposé.

« Pour contourner ce problème, nous avons mis l'accent ces dernières années sur la conservation des manuscrits sous forme numérique. La question essentielle qui s'est posée dès le début du projet portait sur le choix du format d'enregistrement pour les textes. Nous devions nous assurer que le public pourrait encore lire les fichiers numériques d'ici 50 ans ou 100 ans » a-t-il déclaré. Les outils Open Source ont été choisi parce qu’ils ne nécessitent pas de recourir à une plateforme propriétaire. D’ailleurs, le DSI avance que « nous les sauvegardons en tant qu'image car ce type de format à une durée de vie plus longue qu'un fichier. Vous ne devez pas compter sur PowerPoint ou Word pour lire les documents et, dans 50 ans, les manuscrits pourront toujours être consultés ».


Habituellement, le format TIFF est préféré lors de l'archivage. Mais cela pose plusieurs problèmes : « ce format n'est pas Open Source et il n'est pas mis à jour sur une base régulière, la dernière fois c'était en 1998 » a argumenté Ammenti. « En plus de cela, c'est un format 32 bits qui n'est pas prêt pour l'imagerie 3D, ce qui limite le type et la quantité d'informations qu'il peut préserver ».

C'est la raison pour laquelle le Vatican recourt à FITS (Flexible Image Transport System) en tant que format d'image, un standard relativement méconnu, qui est surtout utilisé pour conserver les données scientifiques (notamment en astronomie). Ses avantages sont multiples, selon Ammenti. Par exemple, FITS tourne sur 64 bits, accepte une taille de fichier illimitée, supporte la visualisation 3D en plus d’être Open Source. « Ce qui facilite les choses, c'est que FITS contient quasiment toutes les données possibles d'un document. Certaines pièces intègrent de l'or, de l'argent ou d'autres matières délicates qu'il faut aussi pouvoir saisir lorsqu'on scanne un document ». Il faut dire qu’un fichier FITS peut contenir plusieurs extensions, et chacune de celles-ci peut contenir des données.

La numérisation ne va pas sans risque puisque, au fil du temps, il peut y avoir perte de qualité. « C'est pourquoi chaque fichier que nous créons, est contrôlé tous les six mois » a-t-il expliqué. Et, même si le format FITS est régulièrement actualisé, Ammenti n’y voit aucun inconvénient : « c’est comparable à Unix, qui existe depuis des décennies déjà, qui a évolué aujourd'hui et qui est disponible sous plusieurs formes, mais qui, intrinsèquement, fonctionne encore de la même manière ».

En définitive, il a conclu en disant que « nous voulions créer quelque chose et ce, non pas pour nous, mais pour les générations futures, quelque chose qui sera encore et toujours lisible et consultable dans cent ans par tout un chacun dans le monde ».

Un intérêt stratégique d’une opération qui suscite visiblement de l’intérêt en haut lieu puisqu’il confie que « bien qu'il soit préoccupé par des considérations de plus grande importance, le Pape François se tient au courant des avancées de notre projet et j'ai régulièrement des entretiens avec Sa Sainteté à ce sujet ».

Accéder au catalogue en ligne du Vatican

Source : V3

Et vous ?

Qu'en pensez-vous ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Marc le Lorrain
Futur Membre du Club https://www.developpez.com
Le 14/05/2015 à 9:58
Le format FITS (open source géré par l'Union Astronomique Internationale) est effectivement utilisé en astronomie depuis longtemps. Issu du monde Fortran (eh oui...) il était à l'origine formaté sur des enregistrements de 80 caractères. Depuis, il a énormément évolué et on trouve désormais beaucoup d'outils qui manipulent des images sous ce format (GIMP, même Photosh...). Le problème avec le FITS pour l'astronomie est que les meta données n'ont pas été standardisées dès le départ : chaque observatoire/outil a créé sa propre liste et il faut depuis beaucoup de dictionnaires pour "comprendre" les anciennes images ! Le Vatican se créera certainement la sienne vu qu'il ne s'agira pas que d'images astronomiques.
2  0 
Avatar de JackJnr
Membre confirmé https://www.developpez.com
Le 12/05/2015 à 9:28
[troll]Mince, c'est reparti pour 2000 ans de propagande...[/troll]

Blague à part, sur la base des faits présentés leur choix me semble intelligent. Je ne connais pas du tout le format FITS ni ses concurrents potentiels avec leurs avantages et inconvénients.
0  0 
Avatar de DarkHylian
Membre habitué https://www.developpez.com
Le 12/05/2015 à 14:24
Citation Envoyé par macslan Voir le message
Il serai bien qu'ils y numérise la totalité de leurs documents et je dis bien de la totalité.

(PS : je n'ai ni moinsé ni plussé ton message, ta remarque est légitime et doit perdurer dans l'esprit de chacun, mais il est encore trop tôt pour la faire, le projet n'étant encore qu'à son début)

la Digita Vaticana Oculus, qui s'est fixé comme objectif de numériser au moins 82 000 ouvrages et 41 millions de pages dans un premier temps.
Il faut leur laisser le temps de tout numériser.
Vu la masse d’œuvres qu'il y a, il faut sacrément () beaucoup de temps et sacrément d'argent. L'argent n'est pas le souci du Vatican... Mais le temps, lui, est incompressible à l'heure actuelle sur notre Terre. On pourrait penser que rajouter de la main d’œuvre accélèrerait le traitement.

Mais il y a une limite à ça, il faut des personnes qualifiées (pour faire une numérisation correcte) et derrière, il faut des personnes autorisées à consulter ces archives (qu'on le veuille ou non, ces ouvrages sont actuellement la propriété du Vatican, mais vu ce qu'ils font, je pense qu'il s'agit là de l'ouverture complète de ce patrimoine à l'Humanité, et c'est une excellente chose)

[SPOILER]il manquera très certainement des ouvrages déconcertants ou démontant même toute la doctrine catholique, islamique, judaïque, etc.[/SPOILER]
0  0 
Avatar de macslan
Membre éclairé https://www.developpez.com
Le 12/05/2015 à 14:29
Citation Envoyé par DarkHylian Voir le message
(PS : je n'ai ni moinsé ni plussé ton message, ta remarque est légitime et doit perdurer dans l'esprit de chacun, mais il est encore trop tôt pour la faire, le projet n'étant encore qu'à son début)

Il faut leur laisser le temps de tout numériser.
Vu la masse d’œuvres qu'il y a, il faut sacrément () beaucoup de temps et sacrément d'argent. L'argent n'est pas le souci du Vatican... Mais le temps, lui, est incompressible à l'heure actuelle sur notre Terre. On pourrait penser que rajouter de la main d’œuvre accélèrerait le traitement.

Mais il y a une limite à ça, il faut des personnes qualifiées (pour faire une numérisation correcte) et derrière, il faut des personnes autorisées à consulter ces archives (qu'on le veuille ou non, ces ouvrages sont actuellement la propriété du Vatican, mais vu ce qu'ils font, je pense qu'il s'agit là de l'ouverture complète de ce patrimoine à l'Humanité, et c'est une excellente chose)

[SPOILER]il manquera très certainement des ouvrages déconcertants ou démontant même toute la doctrine catholique, islamique, judaïque, etc.[/SPOILER]
Je sais mais vu que je vois déjà venir le problème
0  0 
Avatar de macslan
Membre éclairé https://www.developpez.com
Le 12/05/2015 à 16:38
Citation Envoyé par sazearte Voir le message
Dieu a crée le monde en 7 jour (a non en 6 même),avec l'aide de dieu sa devrait pas leurs prendre plus d'1H.
Non il a surement beaucoup de diners de représentation (pour les déduire)
0  0 
Avatar de macslan
Membre éclairé https://www.developpez.com
Le 14/05/2015 à 15:59
Citation Envoyé par Marc le Lorrain Voir le message
Le format FITS (open source géré par l'Union Astronomique Internationale) est effectivement utilisé en astronomie depuis longtemps. Issu du monde Fortran (eh oui...) il était à l'origine formaté sur des enregistrements de 80 caractères. Depuis, il a énormément évolué et on trouve désormais beaucoup d'outils qui manipulent des images sous ce format (GIMP, même Photosh...). Le problème avec le FITS pour l'astronomie est que les meta données n'ont pas été standardisées dès le départ : chaque observatoire/outil a créé sa propre liste et il faut depuis beaucoup de dictionnaires pour "comprendre" les anciennes images ! Le Vatican se créera certainement la sienne vu qu'il ne s'agira pas que d'images astronomiques.
je vois pas le problème de dire Photoshop
0  0 
Avatar de pvincent
Membre confirmé https://www.developpez.com
Le 15/05/2015 à 9:10
Je ne connaissais pas ce format, mais les spécifications de FITS ont pour moi un délicieux parfum de nostalgie. La longueur des blocks, l'ordre des octets, de nombreuses caractéristiques héritée de l'ancien Fortran comme la longueur des lignes limitées à 80 caractères (ce n'est plus vrai depuis longtemps pour les versions modernes) éveillent mes souvenirs.

Sur un autre plan, le choix d'un format très orienté vers l'astronomie me surprend. Même si la transformation des coordonnées célestes en coordonnées images peut titiller la sensibilité vaticane, je doute qu'elle ait une quelconque utilité pour le stockage des manuscrits.
On peut aussi être un peu surpris de voir que le seul format toléré pour les caractères est le ASCII 7 bits, ce qui interdit de stocker un caractère autrement que sous forme d'image.

En dehors du format NetCDF/HDF, je ne connais pas grand chose au stockage des données et peut être que c'est après tout le meilleur choix.

Je note au passage que Gimp peut lire des fichiers FITS seulement s'ils sont suffisamment simples.
0  0 
Avatar de frantzgac
Membre actif https://www.developpez.com
Le 15/05/2015 à 12:14
Je ne connaissais pas non plus FITS mais à côté des stars du genre (JPEG, TIFF, BMP...) il existe une myriade de méthodes de représentation d'images (ECW n'est pas très répandu non plus).
Cela dit si les raisons d'Oculus sont bonnes celles citées dans l'article paraissent issues de personnes sans grande culture informatique.
Que signifie 32 bits et 64 bits dans la représentation d'une image ? Il me semble qu'il s'agit plutôt d'une exaptation de l'argument marketing de MS qui veut nous persuader que 64 c'est mieux que 32 alors que l'immense majorité des usages du numérique n'en demandent pas tant. Dire que le 32 bits n'est pas prêt pour la 3D laisse rêveur... Il ne faut pas confondre l'organisation du stockage des données et la taille des registres des processeurs et de leurs bus.

L'interopérabilité des formats c'est un peu comme l'histoire du tournevis : plat, cruciforme, allen puis torx ... Qui ne s'est jamais trouvé devant une vis dont il n'avait pas l'outil idoine ? Aucune méthode n'est vraiment meilleure qu'une autre mais l'invention d'une nouvelle garantit temporairement la captation du pouvoir d'achat des utilisateurs et l'ego des inventeurs reçoit au passage un petit coup de pouce.

Il me semble que l'intérêt de FITS repose peut-être sur la capacité à consolider deux types d'informations. Au-delà des données graphiques elles mêmes (format raster résolution fixe) FITS permet le stockage de méta-données c'est à dire des commentaires sur les données elles mêmes. Quand je dis commentaires c'est insuffisant car si l'on prend l'exemple d'une image géographique, chaque pixel peut éventuellement être associé à une coordonnée permettant de situer le pixel sur le terrain. C'est donc un commentaire non verbal et susceptible d'entrer dans un traitement numérique. Mais on peut aussi imaginer que la numérisation d'un parchemin stocke la datation et la nature des substances situées sur sa surface, ce qui relève d'un intérêt historique certain (songeons au saint suaire...). Ne connaissant pas FITS je ne peux être formel mais un rapide coup d'oeil suggère qu'on pourrait s'attendre à ce qu'il permette de stocker à la fois des informations de type raster et des informations de type vecteur.

Mais comme pvincent l'a remarqué, le fait que FITS soit utilisé en astronomie ne peut déplaire à ceux dont le patron est au ciel.
0  0 
Avatar de cushy007
Candidat au Club https://www.developpez.com
Le 18/05/2015 à 11:13
La numérisation ne va pas sans risque puisque, au fil du temps, il peut y avoir perte de qualité.


Ce n'est pas la première fois que j'entend ça et ça commence à m'inquiéter. Comment un fichier peut perdre en qualité au fil du temps ? il peut se corrompre et ainsi devenir illisible mais c'est tout !
0  0 
Avatar de Saverok
Expert éminent https://www.developpez.com
Le 18/05/2015 à 11:36
Citation Envoyé par cushy007 Voir le message


Ce n'est pas la première fois que j'entend ça et ça commence à m'inquiéter. Comment un fichier peut perdre en qualité au fil du temps ? il peut se corrompre et ainsi devenir illisible mais c'est tout !
Peu importe le support, celui-ci a une durée de vie qui peut être plus ou moins longue (qui dépendent énormément des conditions de stockage).
Autrement dit, a un moment donné, il est nécessaire de transférer les données sur un nouveau support et c'est lors de cette opération que des erreurs de copie peuvent survenir.
La probabilité de ces erreurs est très faible mais non négligeable lorsque l'on parle de plusieurs dizaines voir centaines de terra-octets.
De même, ces opérations de renouvellement de support de stockage ont une fréquence assez faible mais la vision du Vatican est sur le long terme voir très long termes (ils raisonnent en siècles et non juste en années ou en décennies).

Ensuite, tu évoques la corruption des fichiers mais qu'est ce que la corruption si ce n'est des erreurs de secteurs de données qui peuvent porter sur l'ensemble du fichier ce qui le rend illisible (pire des situation) ou partiel : perte de fragment du fichier ==> perte de qualité
0  0