« Les communautés de logiciels Open Source ont démontré la puissance de la collaboration ouverte en construisant ensemble certains des principaux logiciels du monde. Il y a également des communautés qui cherchent à construire ensemble des ensembles de données qui peuvent être partagés et développés dans un modèle très similaire au logiciel. Par exemple, les systèmes d'apprentissage automatique et d'IA nécessitent de grandes quantités de données d'apprentissage. Les gouvernements cherchent des moyens d'établir un partage public-privé des données.
« Le défi est que les systèmes de propriété intellectuelle dans le monde traitent les données différemment des logiciels. Nos licences communes OSI approuvées ne fonctionnent pas bien une fois appliquées aux données.
« Nos communautés voulaient développer des accords de licence de données qui pourraient permettre le partage de données similaires à ce que nous avons avec les logiciels open source. Le résultat est une collaboration à grande échelle sur deux licences de partage de données dans un cadre légal que nous appelons le CDLA (Community Data License Agreement).
« Il existe deux licences CDLA initiales. La licence CDLA-Sharing a été conçue pour incarner les principes du copyleft dans une licence de données. En général, si une personne partage ses données, l'accord de partage de CDLA met en place des conditions garantissant que les destinataires en aval peuvent utiliser et modifier ces données, et sont également tenus de partager leurs modifications aux données. L'accord CDLA-Permissif est similaire aux licences open source permissives dans la mesure où l'éditeur de données permet à quiconque d'utiliser, de modifier et de faire ce qu'il veut avec les données sans obligation de partager leurs modifications ou modifications.
« Ces deux licences établissent le cadre du partage collaboratif des données que nous avons vues fonctionner dans les communautés de logiciels open source. Le document de contexte devrait être utile pour comprendre le cadre d'application du CDLA. Nous encourageons les communautés et les organisations qui souhaitent partager des données à examiner les accords de licence de données de la communauté et voir si elles correspondent à vos besoins et à vos cas d'utilisation. »
En clair, l'accord prévoit deux principaux ensembles de licences, conçus pour aider les contributeurs de données et les consommateurs à travailler avec un ensemble de directives uniformes.
La licence Partage (Sharing) encourage les contributions de données à la communauté. La licence Permissive ne nécessite aucun partage supplémentaire de données.
Parmi les implications commerciales et créatives des licences, il faut noter que :
- les producteurs de données peuvent être plus spécifiques en ce qui concerne ce que les destinataires peuvent faire avec les données. Les producteurs de données peuvent choisir entre les licences Partage et Permissive, selon le modèle qui correspond le mieux à leurs besoins. Chaque type de licence leur donne une plus grande clarté des conditions de l'accord et offre une meilleure protection notamment en ce qui concerne la responsabilité ou alors les garanties ;
- les licences permettent aux communautés de partager des données sur un pied d'égalité pour équilibrer les besoins des utilisateurs et des producteurs de données. Les communautés de données peuvent ajouter leurs propres règles et exigences pour la conservation des données, notamment en ce qui concerne les informations personnellement identifiables ;
- un utilisateur de données cherchant des informations qui seront utilisées pour la formation d’un système d'intelligence artificielle ou pour un autre usage aura accès à des données partagées sous un modèle de licence connu dont les termes sont clairement définis.
Les accords sont agnostiques en ce qui concerne la confidentialité des données, et il appartiendra aux éditeurs et conservateurs de données de créer leur propre structure de gouvernance, en tenant compte des lois applicables.
L'accord arrive à un moment où des technologies comme l'apprentissage automatique et l'intelligence artificielle sont capables d'analyser des ensembles de données d'une manière qui n'était pas possible auparavant. Les accords de licence fournissent un cadre permettant de rendre les référentiels de données suffisamment uniformes pour permettre une analyse précise et réplicable.
D’ailleurs, comme le souligne Paul Tech, analyste principal chez Tirias Research, « Les questions critiques pour l'apprentissage en profondeur sont la vérification et la transparence - et est-ce que l’apprentissage est reproductible ? »
« La nouvelle Community Data License Agreement de la fondation Linux reflète l'importance croissante de l'information comme ressource pour l'analyse de Big Data, l'apprentissage automatique et l'intelligence artificielle », a déclaré Charles King, analyste principal chez Pund-IT. « Essentiellement, les données fournissent le combustible nécessaire aux processus, y compris les systèmes ‘“d'enseignement” pour exécuter avec précision des fonctions complexes et analyser les événements en cours. »
Source : annonce Linux Foundation
Et vous ?
Que pensez-vous de cette initiative ?