Apache Tika atteint la version 1.0 : 1200 formats supportés

Par le Toolkit Java de détection, extraction et analyse de données

Le 10 novembre 2011 à 15:52, par Idelways

238PARTAGES

Apache Tika disponible en version 1.0
Le Toolkit de détection, d'extraction et d'analyse de données supporte désormais 1200 formats de fichiers

Après cinq années de développement, le projet open source Tika arrive à maturité et arbore fièrement le numéro de version rond : 1.0.

C'est un toolkit Java léger et facilement intégrable, destiné à la détection, l'extraction et l'analyse de métadonnées et de données texte structurées à partir d'une très large variété de formats de fichiers (1200 à l'heure d'écriture de ces lignes).

Parmi ces formats, on retrouve : HTML, XML, Microsoft Office, OpenOffice/OpenDocument, PDF, images, ebooks/EPUB, Rich Text, divers formats de compression et de packaging, audio/image/vidéo, fichiers de classes et JAR Java, email/mbox, etc.

Tika peut ainsi se montrer d'une efficacité redoutable pour les solutions de data-mining, d’informatique décisionnelle et pour les moteurs de recherche. Tika a d'ailleurs été extrait en 2007 d'Apache Lucene (le célèbre moteur de recherche en full TEXT). Il a par la suite quitté l'incubation (en mai 2010) pour devenir un projet Apache de premier ordre.

Tika a été intensément testé et aurait prouvé son efficacité sur 500 millions de fichiers à travers une variété d'applications industrielles, académiques et de laboratoires gouvernementaux.

La NASA accorde au projet une attention particulière, confiant à sa présidence Chris Mattmann, l'un des scientifiques du Jet Propulsion Laboratory. L'agence spatiale l'utilise dans nombre de ces projets de science de la terre.
« Tika nous aide à traiter des centaines de téraoctets de données scientifiques dans des formats multiples et leurs modèles de métadonnées associées, » déclare Dan Crichton, un responsable de l'agence.

Tika dispose par ailleurs d'une interface graphique permettant d'explorer les données de manière interactive.

Cette version 1.0 se débarrasse de toutes les classes/méthodes/interfaces dépréciées à la version 0.10. Elle supporte un paquet de nouveaux formats, et laisse tomber le support des versions de Java antérieures à la 1.5.

Tika 1.0 est disponible en téléchargement sur cette page

Source : blogs de la fondation Apache

Et vous ?

Avez-vous déjà utilisé Tika ?

Qu'en pensez-vous ?

Quelles autres solutions de son genre préférez-vous ?

Vous avez lu gratuitement 3 131 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Apache Tika atteint la version 1.0 : 1200 formats supportés

Par le Toolkit Java de détection, extraction et analyse de données

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Apache Tika atteint la version 1.0 : 1200 formats supportés Par le Toolkit Java de détection, extraction et analyse de données

Apache Tika atteint la version 1.0 : 1200 formats supportés

Par le Toolkit Java de détection, extraction et analyse de données