Le Toolkit de détection, d'extraction et d'analyse de données supporte désormais 1200 formats de fichiers
Après cinq années de développement, le projet open source Tika arrive à maturité et arbore fièrement le numéro de version rond : 1.0.
C'est un toolkit Java léger et facilement intégrable, destiné à la détection, l'extraction et l'analyse de métadonnées et de données texte structurées à partir d'une très large variété de formats de fichiers (1200 à l'heure d'écriture de ces lignes).
Parmi ces formats, on retrouve : HTML, XML, Microsoft Office, OpenOffice/OpenDocument, PDF, images, ebooks/EPUB, Rich Text, divers formats de compression et de packaging, audio/image/vidéo, fichiers de classes et JAR Java, email/mbox, etc.
Tika peut ainsi se montrer d'une efficacité redoutable pour les solutions de data-mining, d’informatique décisionnelle et pour les moteurs de recherche. Tika a d'ailleurs été extrait en 2007 d'Apache Lucene (le célèbre moteur de recherche en full TEXT). Il a par la suite quitté l'incubation (en mai 2010) pour devenir un projet Apache de premier ordre.
Tika a été intensément testé et aurait prouvé son efficacité sur 500 millions de fichiers à travers une variété d'applications industrielles, académiques et de laboratoires gouvernementaux.
La NASA accorde au projet une attention particulière, confiant à sa présidence Chris Mattmann, l'un des scientifiques du Jet Propulsion Laboratory. L'agence spatiale l'utilise dans nombre de ces projets de science de la terre.
« Tika nous aide à traiter des centaines de téraoctets de données scientifiques dans des formats multiples et leurs modèles de métadonnées associées, » déclare Dan Crichton, un responsable de l'agence.
Tika dispose par ailleurs d'une interface graphique permettant d'explorer les données de manière interactive.
Cette version 1.0 se débarrasse de toutes les classes/méthodes/interfaces dépréciées à la version 0.10. Elle supporte un paquet de nouveaux formats, et laisse tomber le support des versions de Java antérieures à la 1.5.

Source : blogs de la fondation Apache
Et vous ?



Vous avez lu gratuitement 487 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.