LinkedIn a annoncé que sa boîte à outils FeatureFu est désormais disponible en open source. FeatureFu a été conçue pour permettre des extractions créatives et agiles de paramètres (feature engineering) pour la plupart des tâches d’apprentissage automatique comme la modélisation statistique (discrimination – paramètre de sortie de type catégoriel -, clustering, prédiction – paramètre de sortie de type quantitatif -) et des moteurs de décisions.
C’est par la voix de Bing Zhao, Senior Software Engineer chez LinkedIn, que le réseau social professionnel va apporter une illustration. Dans un billet, il va donner des détails sur la conception et l’implémentation d’Expr dans FeatureFu, fournir des exemples sur la façon dont l’extraction des paramètres devient de plus en plus puissante avec cette boîte à outils, mais aussi montrer que sera observée une réduction considérable de la frontière séparant la modélisation de l’extraction de paramètres.
LinkedIn avance que la plupart des systèmes à grande échelle de recommandation (comme ses propres outils pour suggérer les connexions sur son site) sont gérés par différentes équipes (deux au minimum : l’une va s’occuper de la modélisation hors ligne tandis que l’autre s’occupera des parties du système dont les fonctions sont en ligne) ou utilisent des bases de code différentes.
« Ce type de système est fragile et vulnérable aux problèmes de parité en ligne / hors-ligne parce que les fonctionnalités générées peuvent être différentes en raison des divergences subtiles dans l’implémentation et dans les dépendances. En outre, un petit changement dans une génération de fonction nécessite une quantité importante de travail », a estimé Zhao.
Pour unifier le processus d’extraction de données et contourner les problèmes d’incohérences cités en sus, « nous utilisons Expr, une bibliothèque légère Java, qui peut être utilisée pour transformer et concevoir des fonctionnalités sur une pool existante de fonctionnalité avec une grande flexibilité. Une fois déployé dans un framework de génération de fonctionnalité en ligne, il élimine toute nécessité de modifier le code dans les modèles livrés pour un large éventail de fonctionnalités dérivées. Par exemple, sur la page d’accueil disposant de flux dans le contexte d’un réseau social professionnel, il peut nous arriver de vouloir saisir les préférences des membres par rapport à différents types de flux (comme des articles issus de quelqu’un d’influent, un changement d’emploi récent d’une connexion, etc.) en comptant le nombre de ‘j’aime’ dans l’historique et le nombre de commentaires laissés par le membre dans chaque type de flux », indique Zhao.
Bien sûr, les chiffres bruts doivent être associés à un ratio j’aime-par-commentaire avant de pouvoir être utilisé comme fonctionnalité comme (1 + j’aime) / (10 + commentaires). Zhao explique que, normalement, la formule doit être codée dans une fonctionnalité en ligne et que toute modification dans la formule implique une modification / un déploiement du code, ce qui requiert une charge opérationnelle importante. « Avec Expr et FeatureFu, nous n’aurons besoin que d’écrire la formule comme une expression symbolique ‘(/ (+ 1 j’aime) (+ 10 commentaires))’ et de l’inclure dans le fichier de configuration du modèle. Toute modification future dans la formule ne nécessitera que le changement de configuration de l’expression symbolique elle-même : ‘(- (log2 (+ 10 commentaires)) (log2 (+ 1 j’aime)))’, qui est beaucoup plus flexible et agile ».
Pourquoi LinkedIn a décidé de proposer cette boîte à outils en open source ? Zhao a avancé que « lorsque nous avons besoin d’un logiciel en entreprise, nous vérifions d’abord qu’il n’existe pas de projets logiciels préexistants en open source. Si ce n’est pas le cas, alors nous en créons un nous-mêmes. Tant que le logiciel n’est pas un facteur de différenciation pour nos affaires, alors nous le mettons souvent en open source afin qu’il puisse profiter au plus grand nombre ».
Zhao a également émis l’espoir que FeatureFu soit largement adoptée : « FeatureFu pourrait devenir une technique commune à plusieurs systèmes d’apprentissage automatique. Il permet aux extractions de paramètres de devenir plus agile, ce qui est l’une des clés de la réussite pour les applications de machine learning. Alors nous voulons partager le fruit de notre travail avec l’industrie ».
Source : blog LinkedIn
Et vous ?
Qu'en pensez-vous ?
forum EDI et Outils pour Java
LinkedIn rend open source sa boîte à outils FeatureFu
Pour faciliter la conception de modèles d'apprentissage automatique
LinkedIn rend open source sa boîte à outils FeatureFu
Pour faciliter la conception de modèles d'apprentissage automatique
Le , par Stéphane le calme
Une erreur dans cette actualité ? Signalez-nous-la !