IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les archives secrètes du Vatican vers la numérisation intelligente grâce à l'OCR,
L'IA rend possible la reconnaissance des caractères manuscrits

Le , par Stan Adkens

512PARTAGES

4  0 

Les Archives secrètes du Vatican sont l'une des plus grandes collections historiques au monde. Elles contiennent des fonds importants et variés provenant des Congrégations et des bureaux de la curie romaine, ainsi que des dépôts de familles patriciennes romaines et, depuis 1660, la correspondance de la Secrétairerie d’Etat. Les archives du Vatican abritent 53 miles linéaires de rayonnages datant de plus de 12 siècles qui comprennent également des pierres précieuses comme le taureau papal.

Mais ce très riche fond documentaire reste moins exploité donc quasi inutile à la communauté des chercheurs et étudiants du monde. En effet, seulement une très infime partie de ces archives est, à présent, numérisée et rendue consultable en ligne. La majeure partie des archives ne restant consultable qu’en se rendant au Vatican sur demande d’accès spécial.

Mais depuis lors, In Codice Ratio, un projet initié par quatre chercheurs : Paolo Merialdo, Donatella Firmani, Elena Nieddu et Marco Maiorino tend à renverser la situation avec leur procédé de segmentation « Scie sauteuse ». Leur innovation utilise une combinaison de l’intelligence artificielle et du logiciel de reconnaissance de caractères (OCR en anglais Optical Character Recognition) pour parcourir ces textes manuscrits afin de rendre leurs transcriptions disponibles pour la toute première fois.

Le but de ce projet de recherche est de développer de nouvelles méthodes et des outils pour soutenir l'analyse de contenu et la découverte des connaissances à partir de grandes collections de documents historiques et la cible principale est la collection des archives du Vatican.


In Codice Ratio

En effet, l’OCR a été conçu pour numériser des livres et d'autres documents imprimés, mais il n'est pas bien adapté pour les documents manuscrits. Traditionnellement, il casse les mots et compare les lettres-images à une banque de lettres en mémoire. Une fois les correspondances sont trouvées, le texte est rendu consultable.

Ce procédé ne fonctionnant pas avec les documents manuscrits, les chercheurs ont associé à l’OCR, l’intelligence artificielle ainsi que des érudits en latin et des étudiants pour la reconnaissance des caractères latins ainsi que de faux caractères (faux amis pour des mauvaises écritures de mots) correspondants.

Après une série de recherches et de résultats intermédiaires, le projet a abouti à un système à part entière pour la transcription automatiquement du contenu des manuscrits, selon theatlantic.

Après ces derniers résultats obtenus, un test a été fait, avec le projet, sur 18 000 pages des archives secrètes du Vatican afin de vérifier ses possibilités. Mais les résultats obtenus sont mitigés, selon theatlantic. Un tiers des mots contenait des erreurs qui portaient essentiellement sur les lettres m, n et i. Cependant, le logiciel a reconnu 96 % du total des caractères concernés par le test.

Cependant, les résultats préliminaires sont encourageants grâce au logiciel OCR amélioré. En outre, comme tout projet impliquant l’intelligence artificielle, des améliorations sont en cours qui pourraient permettre de parvenir à une excellente transcription. En cas de succès, la technologie pourrait, également, rendre accessible un nombre incalculable d'autres documents dans les archives historiques du monde entier.

Source : theatlantic, inf.uniroma3

Et vous ?

Que pensez-vous de ce projet qui réunit l’OCR et l’intelligence artificielle ?
Selon vous, quelle sera la portée du logiciel OCR définitif si les résultats sont concluants ?

Voire aussi

L'intelligence artificielle est-elle l'arme de la prochaine guerre froide ? Oui, répond un chercheur en informatique

Des experts prédisent que l'IA va dominer les humains dans moins de 50 ans, selon une étude menée par les deux universités Harvard et Yale

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de CoderInTheDark
Membre émérite https://www.developpez.com
Le 09/05/2018 à 9:45
La technologie gagnerait à être utilisée avec beaucoup d'autres archives papier qui sont en sursis.
De nombreux registres dans les mairie s états civils, tribunaux,... seront bientôt perdus.
C'est une mine d'informations qui pourrait mise en ligne pour les généalogistes

Mais ce qui me surprend le plus c'est que le Vatican ouvre ses archives.
Vont-ils tout ouvrir, mais aussi les parties sensibles.
Leur correspondances pendant la deuxième guerre mondiale...
Le temps où ils affirmaient que la terre était plate
L'inquisition

Un défi pour ce système serait de comprendre les ordonnances des médecins.
Heureusement certains se sont mis à l'ordinateur, pour le plus grand bonheur des pharmaciens.

Et parfois les enseignements en auraient bien besoin
4  0 
Avatar de Saverok
Expert éminent https://www.developpez.com
Le 09/05/2018 à 15:22
Citation Envoyé par CoderInTheDark Voir le message
Donc il y a potentiellement beaucoup d'informations qui peuvent être dérangeant.
C'est pourquoi je suis surpris par cette nouvelle
Beaucoup de ces informations sont connues depuis des siècles au travers d'autres archives que celles du Vatican.
De plus, la plupart sont prescrites depuis longtemps donc sans conséquence si révélées / confirmées.

Les Etats déclassifient des documents top secret régulièrement lorsque la période de sûreté de conservation est passée et ça ne remet pas en cause la sécurités / intégrité de ces Etats.

Les informations qui sont réellement sensibles resteront confidentielles qu'elles soient numérisées ou pas.
2  0 
Avatar de CoderInTheDark
Membre émérite https://www.developpez.com
Le 09/05/2018 à 14:22
Ouep pour la terre plate
C'est un raccourcis pour évoquer leur positions passées réactionnaires

Je voulais parler du procès de Galilée , qui remettait en cause l'héliocentrisme, sous l'inquissition

Donc il y a potentiellement beaucoup d'informations qui peuvent être dérangeant.
C'est pourquoi je suis surpris par cette nouvelle
1  0 
Avatar de
https://www.developpez.com
Le 09/05/2018 à 22:24
Citation Envoyé par Saverok Voir le message
Les informations qui sont réellement sensibles resteront confidentielles qu'elles soient numérisées ou pas.
Vous vous attendez à un scoop ?
J'avais déjà été très déçu par les Assange leaks qui nous informaient en grandes pompes que l'Est déteste l'Ouest.
Je pensais qu'on nous en aurait dit plus sur les extra-terrestres et les crop circles. Nada
Alors le Vatican...

-VX
1  0 
Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 09/05/2018 à 11:29
Citation Envoyé par CoderInTheDark Voir le message
Le temps où ils affirmaient que la terre était plate
On sait que le terre est un peu prêt sphérique depuis Platon (mort en -348), les plus vieux documents du Vatican ont 12 siècle.
Donc il ne devrait pas y avoir des histoires de terre plate...

Citation Envoyé par CoderInTheDark Voir le message
Un défi pour ce système serait de comprendre les ordonnances des médecins.
Heureusement certains se sont mis à l'ordinateur, pour le plus grand bonheur des pharmaciens.
Les pharmaciens comprennent l'écriture des médecins, ça fait complètement parti du job.
De toute façon ils ont probablement développé ce type d'écriture quand ils étaient en fac de médecine.
Les pharmaciens écrivent probablement comme les médecins.

C'est sympa de la part du Vatican de numériser et de rendre certains documents accessible librement à tout le monde.
0  0