Developpez.com

Le Club des Développeurs et IT Pro

« Knowledge Graph » : Google se dirige vers la recherche sémantique

Et ajoute une nouveauté majeure à son moteur

Le 2012-05-20 18:10:58, par Gordon Fowler, Expert éminent sénior
Google se dirige un peu plus vers les requêtes en « langage courant ».

Comment ? En introduisant une nouvelle méthode pour « comprendre » les demandes des internautes.

Baptisé « Knowledge Graph », cette méthode structure les données de plusieurs sources pour constituer une base de savoirs qui complète la méthode de référencement actuelle.

Concrètement, Google s’appuie sur Wikipedia, sur le World Factbook de la CIA et sur Freebase pour constituer un ensemble de fiches qui sont proposées aux utilisateurs en plus des liens organiques (qui eux sont toujours sélectionnés en fonction des mots clefs, du nombre de liens pointant vers le site, etc.).

Mieux, avec ce graph, Google fait des liens entre les fiches elles-mêmes et propose des « connaissances » connexes.

Résultat, c’est une mini-fiche encyclopédique qui accompagne chaque requête.



Autre nouveauté que l’on voyait venir (merci Mickael) et qui accompagne ce Graph, Google va séparer les résultats homonymes dans des onglets le faisait son défunt concurrent Cuil.



« Nous avons développé cette technologie pour comprendre le monde au travers de choses réelles et pas simplement avec les textes présents sur le Web », explique au San Fracisco Chronicle Johanna Wright, la responsable du Search chez Google. « Ce que nous essayons de faire c’est de donner des réponses qui correspondent à ce que vous voulez dire, quel que soit la manière dont vous l’avez dit ».


Johanna Wright, responsable du Search chez Google

La prochaine étape est évidemment la compréhension poussée du langage humain qui permettra de répondre à des questions – données en exemple par Johanna Wright elle-même – comme « Où puis-je assister à un concert en plein air quand il fait beau ? Où puis-je trouver un parc d'attractions avec un restaurant végétarien à proximité ? Combien de gouverneurs sont nés dans un état différent de celui qu'ils gouvernent ? ».



La nouveauté devrait être déployée « progressivement dans les jours qui viennent ». Une nouveauté qui pour beaucoup d’observateurs est une des plus importantes - si ce n’est la plus importante - depuis de nombreuses années pour le moteur de Google

Source : Google, San Francisco Chronicle

Et vous ?

Que pensez-vous de ce « Knowledge Graph » : prometteur ou redondant avec Wikipedia ?
  Discussion forum
42 commentaires
  • Sapience
    Membre éprouvé
    Envoyé par Michel
    A quand une google university ?
    Comme le dit si bien Malikemal, le risque est grand d'un appauvrissement du savoir à coup de copier-coller.
    La même question se posait déjà au début d'Internet. La question fondamentale est de savoir ce que nous faisons de tout ce temps gagné et de toutes ces recherches facilitées. Encore plus de technologie ? ou plus de temps à d'autres activités socialement utiles ?

    Envoyé par Michel
    De plus que faut-il penser de la récupération du travail des bénévoles de Wikipédia afin d'augmenter la visibilité d'une entreprise commerciale ?
    Le web sémantique est une belle utopie mais présenté de cette façon, cela risque de devenir un cauchemar.
    Le web de données n'est pas une utopie. C'est là, maintenant. Mettre en ligne des données structurées n'est pas _que_ donner à manger aux index de G., c'est aussi permettre à d'autres applications, services, entreprises, citoyens, de s'en re-servir. De la même façon que publier un billet de blog n'est pas _que_ fait pour ranker le plus haut possible dans l'index de G., c'est aussi permettre à d'autres gens de le lire, le méditer, le commenter, le copier-coller, etc.
  • Sapience
    Membre éprouvé
    Envoyé par Michel
    Structurer des données ne signifie pas nécessairement leurs donner un sens tout au plus, met-on en évidence une organisation en faisant une analyse syntaxique.
    Implicitement dans mon commentaire la notion de données structurées faisait référence au RDF où les entités sont désambiguisées par des URIs. Et bien souvent cela ne passe pas par une analyse du language naturel car dans bien des cas les données structurées existent déjà.

    Envoyé par Michel

    La sémantique prétend donner du sens et là c'est un autre niveau !
    Je crois qu'il faut arrêter avec cet adjectif de "sémantique" qui ne fait paradoxalement qu'ajouter de la confusion à ce domaine. Je préfère en rester à la notion de publication de données structurées (sous-entendu, en RDF), plus claire, et sans fausse promesse. Il n'y a pas de question de "sens", ou de "sémantique" là-dedans. Le sens n'est que dans le cerveau d'un humain qui lit un texte.

    Envoyé par Michel

    Donc un moteur de recherche qui utiliserait la sémantique devrait vous demander de préciser votre domaine de recherche avant même de proposer des solutions.
    Oui, ou au moins de désambiguïser la recherche; et ce n'est pas ce que Google Knowledge Graph fait : la recherche "Hilton Paris" ramène des infos sur Paris Hilton, et ce n'était peut-être pas mon intention de recherche.
  • yohannc
    Membre actif
    Envoyé par antoyo
    Je dirais plutôt « afin d’obtenir encore plus d’informations sur l’utilisateur à son insu »…
    Si tu possèdes un compte mail différent de gmail, je ne pense pas qu'il parvienne a trouver ton mot de passe tout seul.
    Donc ça sera à l'utilisateur de spécifier ses identifiants, donc pas à son insu.
  • Sapience
    Membre éprouvé
    Envoyé par snake264

    Justement non, le mot sémantique est extrêmement important dans ce domaine, les données structurées c'est excellent (c'est pas moi qui dirait le contraire) mais si tu retires la possibilité de faire du raisonnement (donc le terme sémantique) tu te prive des 3/4 des possibilités que tu peux faire avec ces données structurées C'est la différence entre Web de données et Web sémantique
    Hmmm, c'est intéressant, même si on s'éloigne un peu du sujet de départ. Pour moi :

    • le fait d'employer le terme de "données structurées" ou de "web de données" n'exclut pas l'inférence; on peut au contraire facilement expliquer que des données structurées _permettent_ de faire de l'inférence. Je crois que des moteurs d'inférence existent dans des SGBD classiques depuis un moment (mais je ne suis pas 100% sûr, si qq peut confirmer ou infirmer), sans avoir pour autant l'adjectif "sémantique".
    • l'adjectif "sémantique" dans "web sémantique" n'implique pas automatiquement l'inférence;
    • l'adjectif "sémantique" est une mauvaise appellation de cette ensemble de technologies, est trompeur, et donne lieu à de nombreuses fausses compréhensions et fausses promesses ("les machines vont comprendre ce qui est écrit"; la "Semantic Web FAQ" donne d'ailleur une définition de "Semantic Web" qui repose entièrement sur la notion de données ("The Semantic Web provides a common framework that allows data to be shared and reused across application, enterprise, and community boundaries";
    • les machines n'échangent entre elles que des "données", au mieux des "informations", jamais de "connaissances" ni de "sémantique";

    Voilà, donc c'est un point de vue personnel, qui vaut ce qui vaut, mais je préfère et je promeut le terme de "web de données".
  • Freem
    Membre émérite
    Envoyé par Malikemal
    Nous serons tous d'accord pour dire que c'est une nouveauté majeure, qui peut faire beaucoup pour le "Web Sémantique". Néanmoins, le fait que ça soit Google qui l'introduise, va inciter de plus en plus de gens à ne plus se fier qu'à Google pour tout. Alors, non seulement c'est mauvais pour le cerveau (de nombreuses études le montre, cf Google [vous voyez ? c'est devenu un réflexe]) mais ça assied encore plus la suprématie de Google sur le web.
    Ça ne m'étonnerai pas qu'un jour on soit tous obliger d'avoir une adresse GMail, ou alors qu'un compte Facebook soit obligatoire (pour faire le lien avec sa récente entrée en bourse) ...
    Certain diront surement que je suis paranoïaque, mais il suffit de voir la place qu'à Google dans nos vies pour s'en rendre compte !
    Navré... je ne suis pas d'accord avec toi sur un fait : qu'il s'agisse d'une nouveauté.
    En tout cas, ce que l'on vois sur les screen shot n'a rien de nouveau, en fait, c'est même la raison qui fait que je n'utilise plus google depuis... pas mal de temps (2 années, peut-être plus).
    Il suffit de regarder ceci pour comprendre:
    http://duckduckgo.com/?q=marie+curie...1&kl=fr-fr

    La "mini-fiche encyclopédique" est présente. L'utilisation des données de wikipedia n'est PAS UNE NOUVEAUTE!
    C'est une technique courante parmi les méta-moteurs de recherche quand même, de chercher sur plusieurs sites et de compiler le tout. Hors, les méta moteurs existent depuis longtemps.

    La seule nouveauté que, personnellement, je vois, c'est que google deviens un peu plus un méta moteur en plus de sa fonction de moteur classique.
    Et en plus, il le fait mal.
    Regardez, faites la recherche sur 7zip, et cherchez le site officiel, pour voir. Déjà, il n'est pas 1er, et en plus, il n'est pas mis en évidence.
    Maintenant, suivez ce lien:
    http://duckduckgo.com/?q=7zip&kp...1&kl=fr-fr
    Ici, il est mis en évidence, ce qui prouve que la sémantique de DDG est plus poussée je suppose.
    D'ailleurs, c'est même une question de sécurité d'une certaine façon. Il est moins probable d'avoir une version vérolée sur le site officiel que sur les autres. Sans compter que la version stable y sera fatalement la plus récente, ce qui n'est pas le cas des non officiels, sauf dans le cas ou ces non-officiels suivent de près le dev et, pourquoi pas, y contribuent.

    Les onglets, je ne les vois pas sur le screen. Si c'est un index thématique, alors, idem, DDG le possède depuis que je le connais.

    Quand au "web sémantique", j'y croirais quand je le verrai. Les américains sont forts pour breveter des trucs qu'ils se savent pas faire après tout...

    Bien sûr, je n'ai parlé que de DDG. Navré, je n'ai pas assez essayé les autres alternatives pour en parler.
    Tout ce que je vois, c'est un google qui tente de rattraper son retard, en tout cas. Alors quand leur rattrapage de retard est présenté comme de l'invention, ça me fait bondir.

    Au sujet du problème de la suppression du besoin de réfléchir induite par ces fonctionnalités, je trouve qu'au contraire, il est plus simple d'éveiller la curiosité quand on a des explications au sujet de ce que sont les différentes options.
    Bien sûr, ça empêche de voir certains trucs qui ne sont pas sur wikipedia (il ne faut pas se leurrer non plus) mais ça permet tout de même de filer un bon coup de main. J'ai été à plusieurs reprises intrigué ou amusé de voir les significations alternatives d'un truc sur lequel j'effectuai des recherches.
  • Sapience
    Membre éprouvé
    Envoyé par Freem

    Il suffit de regarder ceci pour comprendre:
    http://duckduckgo.com/?q=marie+curie...1&kl=fr-fr

    La "mini-fiche encyclopédique" est présente. L'utilisation des données de wikipedia n'est PAS UNE NOUVEAUTE!
    Je ne défends pas Google et j'aime bien DuckDuckGo, mais crois-moi, la mini-fiche qu'affiche DDG n'a rien à voir avec ce que fait Google. DDG n'affiche qu'un texte non-structuré, G. affiche des données structurées. La différence est importante, et cela veut dire que tu vas pouvoir _filtrer_ ta recherche avec ces critères : par exemple chercher une recette de cuisine et filtrer tes résultats par ingrédient, temps de cuisson, ou nombre de calories, ce qui est aujourd'hui possible sur le site Google en anglais.

    Envoyé par Freem

    Regardez, faites la recherche sur 7zip, et cherchez le site officiel, pour voir. Déjà, il n'est pas 1er, et en plus, il n'est pas mis en évidence.
    C'est une question de ranking des résultats, ce qui est une question différente.

    Envoyé par Freem

    Les onglets, je ne les vois pas sur le screen. Si c'est un index thématique, alors, idem, DDG le possède depuis que je le connais.
    Oui, je pense que ca correspond à la même chose.

    Envoyé par Freem

    Quand au "web sémantique", j'y croirais quand je le verrai.
    Le web sémantique est la mise à disposition de données structurées, interreliées sur le web, où chaque concept est identifiée avec une URI. C'est le web comme une grosse base de données. C'est ce qui permet à Google ou à n'importe qui d'utiliser ces données structurées et de proposer ces fiches d'entité ou ces filtres de recherche par critère. Ce que tu vois sur Google, c'est une application du web de données.
  • snake264
    Expert éminent sénior
    Envoyé par Malikemal
    Néanmoins, le fait que ça soit Google qui l'introduise
    Absolument, mais alors absolument pas, Google est au contraire l'un des derniers moteurs de recherche à l'implémenter.

    Envoyé par Michel
    A quand une google university ?
    Ça fait déjà un petit moment qu'elle existe

    Envoyé par Sapience
    Je crois qu'il faut arrêter avec cet adjectif de "sémantique" qui ne fait paradoxalement qu'ajouter de la confusion à ce domaine. Je préfère en rester à la notion de publication de données structurées (sous-entendu, en RDF), plus claire, et sans fausse promesse. Il n'y a pas de question de "sens", ou de "sémantique" là-dedans. Le sens n'est que dans le cerveau d'un humain qui lit un texte.
    Justement non, le mot sémantique est extrêmement important dans ce domaine, les données structurées c'est excellent (c'est pas moi qui dirait le contraire) mais si tu retires la possibilité de faire du raisonnement (donc le terme sémantique) tu te prive des 3/4 des possibilités que tu peux faire avec ces données structurées C'est la différence entre Web de données et Web sémantique

    Envoyé par Freem
    Il suffit de regarder ceci pour comprendre:
    http://duckduckgo.com/?q=marie+curie...1&kl=fr-fr
    Qu'y-a-t-il de plus que sur Google ou les autres ?

    Envoyé par Freem
    Regardez, faites la recherche sur 7zip, et cherchez le site officiel, pour voir. Déjà, il n'est pas 1er, et en plus, il n'est pas mis en évidence.
    Comme l'a si bien dit Sapience, ceci est un problème de ranking, aucun rapport, Google doit lutter contre du "sur-référencement" ou du "Google bombing" ce que les autres moteurs de recherche n'ont pas à s'occuper (ou beaucoup moins) donc forcément que les résultats changent d'un moteur de recherche à l'autre, Google (et certainement Bing je pense) a beaucoup plus de choses à gérer que les plus petit moteurs comme DDG, Exalead ou celui d'Orange.

    Envoyé par Freem
    Ici, il est mis en évidence, ce qui prouve que la sémantique de DDG est plus poussée je suppose.
    Rien à voir avec de la sémantique.

    Envoyé par Freem
    Quand au "web sémantique", j'y croirais quand je le verrai. Les américains sont forts pour breveter des trucs qu'ils se savent pas faire après tout...
    Pourquoi les américains ? C'est européens... Et ça fait 18 ans qu'on en parle.

    Envoyé par Freem
    Tout ce que je vois, c'est un google qui tente de rattraper son retard, en tout cas. Alors quand leur rattrapage de retard est présenté comme de l'invention, ça me fait bondir.
    Google a du retard là-dessus c'est vrai, mais as-tu une idée du nombre de données qu'ils doivent gérer ? Faire de la sémantique sur une telle quantité de données est absolument gigantesque alors le fait qu'ils aient du retard se comprend. Par exemple le moteur d'Orange fait de la sémantique depuis déjà un peu plus de deux ans et le fait vraiment très bien, il te permet en plus de poser des questions (sur certains domaines seulements) en langue naturelle.

    Envoyé par Freem
    Au sujet du problème de la suppression du besoin de réfléchir induite par ces fonctionnalités, je trouve qu'au contraire, il est plus simple d'éveiller la curiosité quand on a des explications au sujet de ce que sont les différentes options.
    Bien sûr, ça empêche de voir certains trucs qui ne sont pas sur wikipedia (il ne faut pas se leurrer non plus) mais ça permet tout de même de filer un bon coup de main. J'ai été à plusieurs reprises intrigué ou amusé de voir les significations alternatives d'un truc sur lequel j'effectuai des recherches.
    Là dessus je suis d'accord avec toi.
  • snake264
    Expert éminent sénior
    Envoyé par April Fool
    Le Web de données, c'est pour moi juste l'ensemble de données qu'on peut trouver via le Web, en utilisant HTTP
    Intéressant, qu'entends-tu par "l'ensemble des données" ?

    Envoyé par April Fool
    Le Web sémantique, c'est l'ensemble des technologies qui permettent de les exploiter
    Ca c'est la définition que l'on donne à ceux qui découvre totalement le domaine pour ne pas les embrouiller dès le départ. Ensuite on affine un peu plus les choses pour dire que ce n'est pas vraiment ça.

    Envoyé par April Fool
    Mais il n'y a pas moyen pour une machine de comprendre que le sens de "foaf:Person" c'est bien l'ensemble des personnes.
    foaf:Person représente une seule et unique personne et pas un ensemble.

    Envoyé par April Fool
    La seule chose qu'on sait et que les machines comprennent, c'est que toute instance de foaf:Person est une instance de foaf:Agent
    Alors si je suis ton raisonnement ça voudrait dire qu'un "ordinateur" n'arriverait pas à voir la différence entre "foaf:Organization" et foaf:Person puisque tout deux sont des sous-classes de "foaf:Agent" ? Si c'est ça c'est absolument faux

    Envoyé par April Fool
    Une ontologie OWL ne donne pas le sens des choses
    Tu sais que les ontologies on été développés pour faire du raisonnement sur les données, et donc donner un sens à ces données ? D'ailleurs les ontologies sont même employées en NLP pour le côté sémantique (désambiguiser pour être plus précis) des phrases. Donc encore une fois c'est faux Mais à mon avis c'est plutôt parce que tu dois confondre vocabulaire et ontologie Car en effet avec un vocabulaire il est presque impossible (on a seulement des hiérarchie entre les classes ou les propriétés, donc difficilement) de faire du raisonnement.
  • CesarR
    Membre habitué
    C'est un bon debat mais un peu sterile. Snake reste sur ses positions, ce qu'on peut comprendre, mais les arguments du style "les gens/experts du domaine utilisent/disent ca", n'a pas vraiment de sens. Ils [les experts] ne sont meme pas d'accord entre eux ...

    De plus, ca apporte quoi d'avoir UNE definition exacte? Le plus important c'est que les ontologies soient la solution a ton probleme.

    Ensuite, Snake, je n'ai pas compris ta reponse a la definiton donnee par Metafire, car celle qu'il te donne est a 99% celle de Tom Gruber. Gruber a dit en 1993 En 1997, et grace aux travaux de Gruber, on arrive a la definition suivante
    "An ontology is a formal, explicit specification of a shared conceptualization"
    par Studer, Benjamins et Fensel. C'est mot pour mot la definition de Metafire.

    Donc d'apres toi, quelle est la difference entre la definition que TU proposes (qui est donc TON interpretation de celle de Gruber) et celle proposee par Metafire, identique a celle de Studer, Benjamins et Fensel.

    Concernant FOAF on peut lire dans la documentation
    "This document presents FOAF as a Semantic Web vocabulary or Ontology."
    Donc la, pour savoir ce qu'il en est, bon courage
  • Xinu2010
    Membre averti
    Ils utilisent déjà les données de gmail pour les suggestions de pub, les suggestions sur google+, etc... On n'est donc plus à ça près

    Cela dit ça a l'air pratique et puissant.