À l’instar d’IBM avec Watson, les géants de l’IT investissent dans le développement de leurs propres technologies d’intelligence artificielle pour permettre aux développeurs de lancer une nouvelle génération d’applications innovantes. Au début de ce mois, c’était la firme de Mountain View qui annonçait le lancement de Cloud Vision. Il s’agit d’une API qui vient compléter sa plateforme de cloud en permettant aux développeurs d’exploiter le machine learning et la reconnaissance d’images dans leurs applications. À présent, c’est Microsoft qui vient de publier de nouvelles API de machine learning dans le cadre son projet Oxford.
Le projet Oxford fait partie des chantiers de Microsoft dans le domaine de l’intelligence artificielle (IA). Il s’inscrit dans la vision de la société d'offrir « plus d’expériences en informatique personnelle et une productivité accrue grâce à des systèmes de plus en plus capables de voir, entendre, parler, comprendre et même commencer à raisonner », explique la société dans un billet de blog. Dans le cadre de ce projet, Microsoft dispose déjà de quelques API en préversion pour la vision, la parole et la langue. L’objectif étant de permettre aux développeurs à travers différentes plateformes d’ajouter facilement de l’intelligence à des applications sans avoir à être des experts d’IA.
Le mois dernier, le projet Oxford avait déjà livré en préversion un ensemble d’API pour la détection d’émotions dans les images. Aujourd’hui, deux nouvelles familles d’API ont été également publiées en préversion publique. Il s’agit d’API pour les vidéos et d’autres API qui permettent de reconnaître les utilisateurs à partir de leur voix. Les API pour les vidéos permettent d’analyser et de comprendre les vidéos, mais elles permettent également d’en modifier automatiquement le contenu. Ces API exploitent en effet des algorithmes de traitement de vidéo de Microsoft qui permettent de détecter et suivre les visages dans les vidéos. Ils peuvent détecter également quand les mouvements ont lieu dans les vidéos avec un fond fixe, puis lisser et stabiliser les vidéos.
Outre ces API qui sont disponibles aujourd’hui en préversion publique, Microsoft a également rendu disponible son Custom Recognition Intelligence Service (CRIS), mais seulement sur invitation. Il s’agit d’un outil qui permet de « personnaliser la langue et les modèles acoustiques pour une meilleure reconnaissance vocale adaptée à votre application ». Autrement dit, le CRIS offre un moyen de personnaliser le système de reconnaissance vocale de Microsoft pour l’adapter à un vocabulaire particulier, à un environnement ou à une population d’utilisateurs particulière. Grâce à ce service, les développeurs pourront par exemple adapter la reconnaissance vocale pour de meilleurs résultats dans les environnements hostiles, comme un espace public bruyant. Entre autres exemples, ce service de personnalisation pourrait encore être utilisé pour aider une application à mieux comprendre les gens qui ont naturellement des difficultés avec la reconnaissance vocale. Il peut s’agir de locuteurs non natifs ou de personnes avec un handicap.
Blog Machine Learning de Microsoft
Et vous ?
Qu’en pensez-vous ?
Voir aussi
Google lance l’API Cloud Vision pour permettre aux développeurs d'intégrer la reconnaissance d'images dans leurs applications
Microsoft lance de nouvelles API de machine learning
Pour permettre aux développeurs d'ajouter de l'intelligence à leurs applications
Microsoft lance de nouvelles API de machine learning
Pour permettre aux développeurs d'ajouter de l'intelligence à leurs applications
Le , par Michael Guilloux
Une erreur dans cette actualité ? Signalez-nous-la !