Apache Tika atteint la version 1.0 : 1200 formats supportés
Par le Toolkit Java de détection, extraction et analyse de données

Les rubriques (actu, forums, tutos) de Développez
Tags
Réseaux sociaux


 Discussion forum

Le , par Idelways, Expert Confirmé Sénior
Après cinq années de développement, le projet open source Tika arrive à maturité et arbore fièrement le numéro de version rond : 1.0.

C'est un toolkit Java léger et facilement intégrable, destiné à la détection, l'extraction et l'analyse de métadonnées et de données texte structurées à partir d'une très large variété de formats de fichiers (1200 à l'heure d'écriture de ces lignes).

Parmi ces formats, on retrouve : HTML, XML, Microsoft Office, OpenOffice/OpenDocument, PDF, images, ebooks/EPUB, Rich Text, divers formats de compression et de packaging, audio/image/vidéo, fichiers de classes et JAR Java, email/mbox, etc.

Tika peut ainsi se montrer d'une efficacité redoutable pour les solutions de data-mining, d’informatique décisionnelle et pour les moteurs de recherche. Tika a d'ailleurs été extrait en 2007 d'Apache Lucene (le célèbre moteur de recherche en full TEXT). Il a par la suite quitté l'incubation (en mai 2010) pour devenir un projet Apache de premier ordre.

Tika a été intensément testé et aurait prouvé son efficacité sur 500 millions de fichiers à travers une variété d'applications industrielles, académiques et de laboratoires gouvernementaux.

La NASA accorde au projet une attention particulière, confiant à sa présidence Chris Mattmann, l'un des scientifiques du Jet Propulsion Laboratory. L'agence spatiale l'utilise dans nombre de ces projets de science de la terre.
« Tika nous aide à traiter des centaines de téraoctets de données scientifiques dans des formats multiples et leurs modèles de métadonnées associées, » déclare Dan Crichton, un responsable de l'agence.

Tika dispose par ailleurs d'une interface graphique permettant d'explorer les données de manière interactive.

Cette version 1.0 se débarrasse de toutes les classes/méthodes/interfaces dépréciées à la version 0.10. Elle supporte un paquet de nouveaux formats, et laisse tomber le support des versions de Java antérieures à la 1.5.

Tika 1.0 est disponible en téléchargement sur cette page

Source : blogs de la fondation Apache

Et vous ?

Avez-vous déjà utilisé Tika ?
Qu'en pensez-vous ?
Quelles autres solutions de son genre préférez-vous ?


 Poster une réponse

Avatar de jv-boy jv-boy
http://www.developpez.com
Membre régulier
le 10/11/2011 21:01
Interessant !a tester
Avatar de SuperPat SuperPat
http://www.developpez.com
Futur Membre du Club
le 11/11/2011 0:14
Excellent projet, pour la détection des types mime rien à redire un sans-fautes
par contre, il a beaucoup de mal à détecter l'encodage ISO-8859-1 ou ISO-8859-15 des fichiers CSV il me sort, selon les fichiers du ISO-8859-2, ISO-8859-9, Big5, IBM500... et de temps en temps le bon ISO-8859-1 et donc tous ou partie des caractères accentués se retrouve cassés à l'affichage, donc pas vraiment au point...
Avatar de JeitEmgie JeitEmgie
http://www.developpez.com
Expert Confirmé
le 11/11/2011 9:04
Citation Envoyé par SuperPat  Voir le message
Excellent projet, pour la détection des types mime rien à redire un sans-fautes
par contre, il a beaucoup de mal à détecter l'encodage ISO-8859-1 ou ISO-8859-15 des fichiers CSV il me sort, selon les fichiers du ISO-8859-2, ISO-8859-9, Big5, IBM500... et de temps en temps le bon ISO-8859-1 et donc tous ou partie des caractères accentués se retrouve cassés à l'affichage, donc pas vraiment au point...

Il n'y a pas de "au point" qui tienne en cette matière :
la détection des encodings est un problème pour lequel il n'y a pas de solution parfaite lorsqu'on est face à des formats sur 8 bits et dont l'encoding n'est pas décrit par une meta information : un même fichier peut être valide (techniquement parlant) dans plusieurs encodings et seul un humain pourra dire lequel est le "bon".

(et Tika utilise ICU pour la détection des encodings)
Avatar de Jester Jester
http://www.developpez.com
Membre émérite
le 12/11/2011 23:08
Il y a quand même l'analyse par dictionnaire qui permettrait sans doutes d'être plus juste.
Avatar de JeitEmgie JeitEmgie
http://www.developpez.com
Expert Confirmé
le 13/11/2011 9:52
Citation Envoyé par Jester  Voir le message
Il y a quand même l'analyse par dictionnaire qui permettrait sans doutes d'être plus juste.

Oui, mais la question qui se pose dans un framework comme Tika est de savoir où l'on place la limite : n'est-il pas plus raisonnable de laisser le client choisir la méthode additionnelle de résolution des ambiguïtés comme il l'entend plutôt que d'alourdir le framework par une couche qui n'est son "core business"…
Avatar de thierryler thierryler
http://www.developpez.com
Rédacteur
le 15/11/2011 9:34
Il y a un tuto quelque part ? sur un exemple bidon ? parce que le getting started sur apache, à part expliquer comment ajouter une dépendance maven...
Avatar de fitaly fitaly
http://www.developpez.com
Invité de passage
le 16/11/2011 21:14
Bonjour,

Je souhaite créer une application Windows qui compile des glossaires de mots à partir de fichier Word, HTML, PDF, etc .....

Pensez vous que je peux vraiment intégrer facilement Tika dans mon appli?

Si oui je ne serais pas contre quelque hints ?

Merci d'avance

Emmanuel
Avatar de Tommy31 Tommy31
http://www.developpez.com
Membre Expert
le 21/01/2012 9:37
Je l'ai utilisé dans un projet professionnel pour la détection des mime-types, et il marche excellemment bien.

Content de voir qu'il progresse et gagne en visibilité.
Offres d'emploi IT
Formateur ORACLE sur RAC 12C
Mission
BOSSTEK - Ile de France - Châtillon (03210)
Parue le 27/06/2014
Développeur PHP – H/F
CDI
Mobiskill - Ile de France - Paris (75000)
Parue le 27/06/2014
Ingénieur développement h/f
Stage
Atos Technology Services - Lorraine - Metz (57000)
Parue le 17/06/2014

Voir plus d'offres Voir la carte des offres IT
 
 
 
 
Partenaires

PlanetHoster
Ikoula