Abstract Wikipedia, le projet expérimental de l'encyclopédie en ligne, utilise un langage de description

Pour générer du contenu dans d'autres langues

Le 4 juillet 2020 à 17:00, par Stéphane le calme

1.1KPARTAGES

Abstract Wikipedia, le projet expérimental de l’encyclopédie en ligne, utilise un langage de description
pour générer du contenu dans d’autres langues

Wikipédia est disponible dans plus de 300 langues. Cependant, la portée de l'encyclopédie en ligne gratuite varie considérablement selon la langue. De plus, si un article dans une langue vient à être complété par de nouvelles informations, cela peut prendre un certain temps avant que ces modifications soient apportées dans d'autres langues, si cela venait même à se produire. La Fondation Wikimedia voudrait désormais s'attaquer à ce problème avec le projet Abstract Wikipedia .

À l'aide d'un langage de description, Abstract Wikipedia devrait être capable de capturer des informations indépendamment de la langue. Le résultat devrait ensuite être facilement traduit dans les différentes langues de Wikipédia. Derrière cette idée figure Denny Vrandečić, qui a posé les fondations d’Abstract Wikipédia il y a sept ans avec la base de connaissances Wikidata .

La patronne de Wikimedia, Katherine Maher, a expliqué dans un billet que :

« Abstract Wikipedia propose une nouvelle façon de générer un contenu encyclopédique de base de manière multilingue, permettant à plus de contributeurs et à plus de lecteurs de partager plus de connaissances dans plus de langues. Il s'agit d'une approche qui vise à faciliter la coopération multilingue sur nos projets, à accroître la durabilité de notre mouvement en élargissant l'accès à la participation, à améliorer l'expérience utilisateur pour les lecteurs de toutes les langues et à innover dans la connaissance gratuite en reliant certaines des forces de notre mouvement pour créer quelque chose de nouveau.

« Il s'agit de notre premier nouveau projet en plus de sept ans. Abstract Wikipedia a été soumis en tant que proposition de projet par Denny Vrandečić en mai 2020 après des années de préparation et de recherche, conduisant à un plan détaillé et à des discussions animées dans les communautés Wikimedia. Nous savons que l'énergie et la créativité de la communauté se heurtent souvent à des barrières linguistiques, et les informations disponibles dans une langue peuvent ne pas arriver dans d'autres Wikipédias. Abstract Wikipédia a l'intention de ressembler à un Wikipédia, mais de s'appuyer sur les puissants modèles conceptuels indépendants de la langue de Wikidata, dans le but de permettre aux bénévoles de créer et de maintenir des articles Wikipédia dans notre monde Wikimedia polyglotte.

« Le projet permettra aux volontaires de rassembler les bases d'un article en utilisant des mots et des entités de Wikidata. Parce que Wikidata utilise des modèles conceptuels censés être universels dans toutes les langues, il devrait être possible d'utiliser et d'étendre ces blocs de connaissances pour créer des modèles d'articles qui ont également une valeur universelle. À l'aide de code, les volontaires pourront traduire ces ‘articles’ abstraits dans leur propre langue. En cas de succès, cela pourrait éventuellement permettre à tout le monde de lire n'importe quel sujet dans Wikidata dans sa propre langue.

« Comme vous pouvez l'imaginer, ce travail nécessitera beaucoup de développement logiciel et beaucoup de coopération entre Wikimédiens. Afin de rendre cet effort possible, Denny rejoindra la Fondation en tant que membre du personnel en juillet et dirigera cette initiative. »

Abstract Wikipédia n'est pas destiné à remplacer l'encyclopédie en ligne existante

Le projet a été proposé pour la première fois dans un article de 22 pages par Denny Vrandečić, fondateur de Wikidata, plus tôt cette année. Il avait lancé une nouvelle idée qui permettrait aux contributeurs de créer du contenu en utilisant une notation abstraite qui pourrait ensuite être traduite dans différentes langues naturelles, équilibrant le contenu de manière plus égale, quelle que soit la langue que vous parlez.

Il a suggéré un projet qui pourrait être utilisé par n'importe qui dans le monde pour entrer des informations sous forme de notation abstraite, puis un outil appelé Wikilambda hébergerait une collection de fonctions qui pourraient transformer la notation en texte en langage naturel. Selon lui, le projet ne nécessiterait pas une percée majeure dans les connaissances actuelles sur la génération du langage naturel ou la représentation des connaissances lexicales.

Vrandečić ne voit pas son projet comme un remplacement du modèle Wikipedia existant, dans lequel les auteurs écrivent les textes. Selon Vrandečić dans sa proposition publiée en avril, leur qualité ne pourrait jamais être égalée par la qualité des textes traduits automatiquement. « Précisons que cette proposition ne nécessite pas le remplacement des Wikipédias actuelles. Il est conçu comme une offre aux communautés pour combler les lacunes qui existent actuellement », indiquait-il sur la plateforme.

Et de continuer en disant « Il serait présomptueux de supposer qu'un texte généré par Wikilambda atteindra jamais l'éclat et la subtilité qui ont fait briller bon nombre de nos articles Wikipédia actuels. Et bien qu'il existe également plusieurs avantages pour de nombreuses parties de Wikipédia en anglais (par exemple pour les modèles globaux ou le contenu qui est en fait plus riche dans une langue locale), je serais surpris si la communauté de Wikipédia en anglais commençait à adopter plutôt largement ce que Wikilambda propose. Mais il semble qu'il soit difficile de surestimer l'effet que cette proposition pourrait avoir sur les petites communautés, et éventuellement sur l'ensemble de notre mouvement afin de nous rapprocher un peu plus de notre vision d'un monde dans lequel chacun peut partager la somme de toutes les connaissances. »

Maintenant que ce projet a été approuvé, il permettra aux volontaires de rassembler les bases d'un article en utilisant des mots et des entités de Wikidata. Les volontaires pourront traduire ces « articles » abstraits dans leur propre langue.

Abstract Wikipédia a l'intention de ressembler à un Wikipédia, mais de s'appuyer sur les puissants modèles conceptuels indépendants de la langue de Wikidata. L'annonce officielle mentionne qu'il s'agit d'un projet expérimental et peut offrir à certaines communautés de grands avantages tandis que d'autres communautés peuvent moins s'engager.

Abstract Wikipedia

Comment cela fonctionne ?

Dans un billet, Vrandečić donne l’illustration suivante :

« Imaginez un instant que nous commencions à résumer le contenu d'un texte. Au lieu de dire "afin de lui refuser l'avantage du titulaire, le conseil d'administration vote en janvier 2018 pour la remplacer par Mark Farrell comme maire intérimaire jusqu'aux élections spéciales", imaginons que nous disions quelque chose de plus abstrait comme elect(elector: Board of Supervisors, electee: Mark Farrell, position: Mayor of San Francisco, reason: deny(advantage of incumbency, London Breed)) et plus encore, tous ces identificateurs seraient indépendants de la langue, de sorte que cette chose ressemblerait en fait davantage à Q40231 (Q3658756, Q6767574, Q1343202 (Q6015536, Q6669880)). À première vue, cela ressemble beaucoup à une déclaration dans Wikidata, mais simplement en mettant cela dans une série d'autres déclarations abstraites, et en ayant un tissu de connexion entre ces déclarations nues, nous nous rapprochons beaucoup plus de ce dont a besoin un texte.

« Mais évidemment, nous ne montrerions pas ce contenu abstrait aux lecteurs. Nous devons encore traduire le contenu abstrait en langage naturel. Nous devons donc savoir que le constructeur elect mentionné ci-dessus prend les trois paramètres de l'exemple et que nous devons créer un modèle tel que {elector} elected {electee} to {position} in order to {reason} Et puisque la création de tels traducteurs doit être faite pour chaque langue prise en charge, nous devons avoir un endroit pour créer de tels traducteurs afin qu'une communauté puisse le faire.

« Pour cela, je propose un nouveau projet Wikimedia, appelé au préalable Wikilambda (et je suis nul avec les noms, donc je ne m'attends pas à ce que le projet s'appelle réellement ainsi). Wikilambda serait un nouveau projet pour créer, maintenir, gérer, cataloguer et évaluer une nouvelle forme d'actifs de connaissances: les fonctions ».

Ce sont donc ces fonctions qui vont prendre le contenu abstrait comme Q40231(Q3658756, Q6767574, Q1343202(Q6015536, Q6669880)) et retourner du texte traduit en une autre langue.

Sources : Annonce Abstract Wikipedia, Denny

Et vous ?

Que pensez-vous de ce projet ?

Vous semble-t-il réalisable ?

Si oui, dans quelle mesure ? Si non, pourquoi ?

Vous avez lu gratuitement 19 385 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :