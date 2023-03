Amazon Alexa : un rêve, le temps d’une histoire

La nouvelle orientation prise par l’équipe d’Alexa pouvait se résumer par : « Si vous avez quelque chose que vous pouvez faire et qui pourrait être directement monétisé, vous devriez le faire », tel est le récent diktat des dirigeants d'Amazon, selon un employé actuel de l'équipe Alexa. Plus de 70 000 employés ont été licenciés par les géants de la technologie au cours des 12 derniers mois. Sous le mandat du nouveau directeur général Andy Jassy, ce changement d'orientation a entraîné des licenciements importants dans l'équipe Alexa d'Amazon à la fin de l'année dernière, les dirigeants examinant de près la contribution directe du produit aux résultats de l'entreprise.Ce resserrement de la ceinture s'est inscrit dans le cadre de réductions plus larges qui ont vu le géant du commerce électronique supprimer 18 000 emplois dans l'ensemble du groupe, sous la pression de l'amélioration des bénéfices dans un contexte de ralentissement mondial de la technologie. Selon la dernière annonce de la société mère de Window, Microsoft, l'organisation est en train de licencier 10 000 travailleurs, ce qui signifie qu'un total de cinq pour cent de ses employés sera congédié d'ici le 31 mars 2023. Le président-directeur général de Microsoft, Satya Nadella, a publié un mémo indiquant que l'entreprise compte se renforcer grâce à cette mesure.Alphabet, une autre société célèbre pour être la maison mère de Google, faisait de son mieux pour protéger ses travailleurs de cette situation, mais la crise s'aggravant, Alphabet a libéré plus de 15 % de son personnel de Verily. En fin d’année dernière, Amazon a annoncé des suppressions d'emplois qui seraient l'une des plus importantes de l'histoire de l'entreprise. Le licenciement d’environ 10 000 personnes dans les divisionsettoucherait le département, la division de vente au détail ainsi que les ressources humaines.Ces derniers mois, Amazon a également fermé ou réduit une poignée d'initiatives, notamment, son service fournissant des soins de santé primaires et urgents qui n'a pas réussi à trouver suffisamment de clients ; Scout, le robot de livraison à domicile de la taille d'une glacière, qui employait 400 personnes, selon Bloomberg ; et Fabric.com, une filiale qui a vendu des fournitures de couture pendant trois décennies. D'avril à septembre, Amazon aurait réduit ses effectifs de près de 80 000 personnes, réduisant principalement son personnel horaire en raison d'une forte attrition.John Blackledge, analyste chez Cowen & Company qui a couvert Amazon pendant une décennie, a déclaré que ses calculs montraient que l'activité principale de commerce électronique d'Amazon avait perdu des milliards cette année. « Ils doivent tout revoir », a-t-il déclaré. « Ce n'est tout simplement pas durable ». Les divisions appareils et Alexa ont longtemps été considérées en interne comme risquant de provoquer des réductions du personnel.Alexa et les appareils associés sont devenus une priorité absolue pour l'entreprise alors qu'Amazon s'est précipité pour créer le premier assistant vocal, qui, selon les dirigeants, pourrait succéder aux téléphones mobiles en tant que prochaine interface client essentielle.Jeff Bezos a dessiné pour la première fois l'appareil qui allait devenir l'Amazon Echo sur le tableau blanc d'une salle de conférence au début de 2011. Il voulait qu'il coûte 20 dollars et qu'il soit entièrement contrôlé par la voix. Son cerveau serait hébergé dans le cloud, exploitant les offres de services Web de l'entreprise et permettant à Amazon de l'améliorer constamment sans obliger les propriétaires à mettre à niveau leur matériel.La toute première représentation d'un appareil équipé d'Alexa montrait un haut-parleur, un microphone et un bouton de sourdine. L'appareil ne serait pas en mesure de comprendre les commandes dès sa sortie de l'emballage, aussi le croquis identifiait-il la configuration de l'appareil à un réseau sans fil comme un défi nécessitant une réflexion plus approfondie.Greg Hart, qui était le conseiller technique de Bezos à l'époque, était l'autre personne présente à la réunion, et il écoutait attentivement. Bezos a dit qu'il voulait que Hart dirige le groupe qui transformerait cette idée quelque peu farfelue d'ordinateur vocal en un produit réel. Hart a pris une photo du dessin avec son téléphone.« Jeff, je n'ai aucune expérience en matière de matériel, et la plus grande équipe de logiciels que j'ai dirigée ne compte qu'une quarantaine de personnes », se souvient-il avoir dit. « Vous vous en sortirez très bien », a répondu Bezos. Hart l'a remercié pour ce vote de confiance et a dit : « OK, eh bien, souviens-toi de cela quand nous nous planterons en cours de route. »Pendant les trois années suivantes, Bezos restera intimement impliqué dans le projet. Il a autorisé l'investissement de centaines de millions de dollars avant même la sortie du premier Echo, a pris des décisions détaillées sur le produit et a rencontré l'équipe aussi souvent que tous les deux jours. En utilisant le superlatif allemand, les employés l'appelaient l'über chef de produit. Mais c'est Hart qui dirigeait l'effort, juste en face du bureau de Bezos, dans un bâtiment qui abritait l'équipe travaillant sur le Kindle.Au cours des mois suivants, Hart a embauché un petit groupe de personnes de l'intérieur et de l'extérieur de l'entreprise. Comme son patron, était obsédé par le secret. Il envoyait de vagues courriels aux candidats potentiels avec objet « Rejoignez ma mission » et posait des questions d'entretien telles que « Comment concevriez-vous un Kindle pour les sans fil ? ». Il refusait de préciser sur quel produit les candidats travailleraient.Une personne interrogée se souvient avoir deviné qu'il s'agissait du smartphone d'Amazon dont la rumeur courait et raconte que Hart lui a répondu : « Il y a une autre équipe qui construit un téléphone. Mais celui-ci est bien plus intéressant ». L'équipe initiale d'Alexa a travaillé avec un sentiment d'urgence fébrile. De façon irréaliste, Bezos voulait sortir l'appareil dans six à douze mois. Il avait une bonne raison de se dépêcher. Le 4 octobre 2011, alors que l'équipe Alexa se mettait en place, Apple a introduit l'assistant virtuel Siri dans l'iPhone 4S.Il s'agissait du dernier projet passionné du cofondateur Steve Jobs, décédé d'un cancer le lendemain. Hart et son équipe se sont sentis validés par la nouvelle qu'une Apple renaissante travaillait également sur un assistant personnel à commande vocale, mais ils ont été découragés par le fait que Siri était le premier à être commercialisé et qu'il a d'abord suscité des critiques négatives.L'équipe d'Amazon a tenté de se rassurer en affirmant que son produit était unique, puisqu'il serait indépendant des smartphones. Ils tentaient également de réaliser un exploit beaucoup plus complexe sur le plan technique. Les utilisateurs de Siri prononçaient des commandes directement dans des microphones. Amazon essayait de créer un service capable de comprendre la langue parlée à travers une pièce bruyante, en utilisant une technologie relativement immature appelée reconnaissance vocale en champ lointain.Pour accélérer le développement, Hart et son équipe se sont mis à la recherche de startups à acquérir. Il s'agissait d'un défi non négligeable, car Nuance, le géant de la parole basé à Boston, dont Apple avait acquis la technologie sous licence pour Siri (et qui a récemment été racheté par Microsoft), s'était développé au fil des ans en absorbant les meilleures entreprises américaines dans le domaine de la parole.Les responsables d'Alexa ont tenté de déterminer quelles étaient les start-ups les plus prometteuses en demandant à leurs cibles potentielles d'activer vocalement le catalogue de livres numériques Kindle, puis en étudiant leurs méthodes et leurs résultats. Cette recherche a conduit à plusieurs acquisitions rapides au cours des deux années suivantes, dont la startup polonaise Ivona.Ivona a été fondée en 2001 par Lukasz Osowski, un étudiant en informatique de l'Université de technologie de Gdańsk. Osowski avait l'idée que la synthèse vocale, ou TTS, pourrait lire des textes numériques à haute voix de façon naturelle et aider les malvoyants en Pologne. Avec un camarade de classe plus jeune, Michal Kaszczuk, il a pris des enregistrements de la voix d'un acteur et a sélectionné des fragments de mots, appelés diphones, puis les a mélangés ou « concaténés » dans différentes combinaisons afin d'approcher des mots et des phrases à consonance naturelle que l'acteur n'aurait peut-être jamais prononcés.Les fondateurs d'Ivona ont eu un premier aperçu de la puissance de leur technologie lorsqu'ils ont payé un acteur polonais populaire, Jacek Labijak, pour enregistrer des heures de discours afin de créer une base de données de sons. Le produit résultant, qu'ils ont appelé Spiker, est rapidement devenu la voix d'ordinateur la plus vendue en Pologne.Au cours des années suivantes, il a été largement utilisé dans les métros, les ascenseurs et pour des campagnes de robocall. Labijak a ensuite commencé à s'entendre partout et a régulièrement reçu des appels téléphoniques avec sa propre voix l'incitant, par exemple, à voter pour un candidat lors d'une prochaine élection. Des farceurs ont manipulé le logiciel pour lui faire dire des choses inappropriées et ont mis les clips en ligne.Les fondateurs d'Ivona ont ensuite dû renégocier le contrat de l'acteur après qu'il eut tenté, en colère, de retirer sa voix du logiciel. (Aujourd'hui, "Jacek" reste l'une des voix polonaises proposées par le service vocal pour ordinateur Amazon Polly d'AWS).L'achat, pour environ 30 millions de dollars, a été réalisé en 2012 mais gardé secret pendant un an. L'équipe d'Ivona et le nombre croissant d'ingénieurs du langage qu'Amazon allait embaucher pour son nouveau centre de R&D de Gdańsk ont été chargés de façonner la voix d'Alexa. Le programme était microgéré par Bezos lui-même et soumis aux curiosités et caprices habituels du PDG.Au départ, Bezos a dit qu'il voulait que des dizaines de voix distinctes émanent de l'appareil, chacune étant associée à un objectif ou à une tâche différente, comme écouter de la musique ou réserver un vol. Lorsque cela s'est avéré irréalisable, l'équipe a examiné des listes de caractéristiques qu'elle souhaitait trouver dans une seule personnalité, comme la fiabilité, l'empathie et la chaleur, et a déterminé que ces caractéristiques étaient plus souvent associées à une voix féminine.Pour développer cette voix et s'assurer qu'elle n'avait aucune trace d'accent régional, l'équipe en Pologne a travaillé avec un studio de voix off basé dans la région d'Atlanta, GM Voices, la même entité qui avait aidé à transformer les enregistrements d'une actrice nommée Susan Bennett en Siri, l'agent d'Apple. Pour créer des personnalités synthétiques pour ses clients, GM Voices donne aux acteurs vocaux des centaines d'heures de texte à lire, qu'il s'agisse de livres entiers ou d'articles aléatoires, un processus abrutissant qui peut durer des mois.Convaincus que la sélection de la bonne voix pour Alexa était cruciale, Hart et ses collègues ont passé des mois à examiner les enregistrements des différents candidats que GM Voices a produits pour le projet, et ils ont présenté les meilleurs choix à Bezos. L'équipe d'Amazon a classé les meilleurs, a demandé des échantillons supplémentaires et a finalement fait un choix. Bezos l'a approuvé.Amazon n'a jamais révélé le nom de l'artiste vocal derrière Alexa. Pour certains, il s'agirait de l'actrice et chanteuse Nina Rolle, basée à Boulder, dans le Colorado.Au début de 2013, Amazon a commencé à déplacer un prototype de l'Echo original dans les maisons de centaines d'employés, qui ont été invités à signer des accords de confidentialité et à remplir des enquêtes sur leurs expériences avec le produit.« Nous avons tous pensé que cela pourrait être la fin du projet, ou du moins la fin de quelques-uns d'entre nous chez Amazon ».En 2019, l’intérêt des utilisateurs pour Alexa s’est grandement fait ressentir au point même d’aller au-delà des espérances de la société. Grâce au vice-président directeur des produits et services chez Amazon, Dave Limp, on a pu apprendre que la société a vendu plus de 100 millions d'appareils intégrant Alexa.Les appareils expérimentaux étaient, de l'avis général, lents et stupides. Peut-être que la critique la plus déchirante est venue de Bezos lui-même. Le PDG testait apparemment un appareil dans sa maison de Seattle et, dans un accès de frustration face à son manque de compréhension, il a dit à Alexa d'aller « se tirer une balle dans la tête ». L'un des ingénieurs qui a entendu ce commentaire en examinant les interactions avec l'appareil de test a déclaré : « Nous avons tous pensé que cela pourrait être la fin du projet, ou du moins la fin de quelques-uns d'entre nous chez Amazon. »Grâce à l'acquisition d'une société d'intelligence artificielle de Cambridge, en Angleterre, appelée Evi, Alexa maîtrisait déjà le bavardage culturellement courant appelé discours phatique. Si un utilisateur dit à l'appareil : « Alexa, bonjour, comment allez-vous ? » Alexa pouvait établir la bonne connexion et répondre. Il pourrait également répondre à des questions factuelles, comme celles qui consistent à nommer les planètes du système solaire.Ces qualités, résultat d'une technique de programmation appelée « graphe de connaissances », donnaient l'impression qu'Alexa était intelligente. Mais l'était-elle vraiment ? Les partisans d'une autre méthode de compréhension du langage naturel, appelée apprentissage profond, estimaient que la méthode d'Evi était trop régimentée pour donner à Alexa le type d'intelligence authentique qui satisferait le rêve de Bezos d'un assistant polyvalent capable de parler aux utilisateurs et de répondre à n'importe quelle question.Dans la méthode d'apprentissage profond, les machines ont été alimentées par de grandes quantités de données sur la façon dont les gens conversent et sur les réponses qui s'avèrent satisfaisantes, puis elles ont été programmées pour s'entraîner à offrir les meilleures réponses. En d'autres termes, plus Alexa est utilisée, plus elle devient intelligente.Le principal promoteur de cette approche était un ingénieur d'origine indienne nommé Rohit Prasad. Prasad et ses collègues devaient résoudre le paradoxe auquel sont confrontées toutes les entreprises développant de l'IA : s'ils lancent un système muet, les clients ne l'utiliseront pas, et ne généreront donc pas suffisamment de données pour améliorer le service.Or, les entreprises ont besoin de ces données pour former le système et le rendre plus intelligent. Google et Apple ont résolu ce paradoxe en partie en obtenant une licence pour la technologie de Nuance, en utilisant ses résultats pour former leurs propres modèles vocaux, puis en coupant les liens avec la société.Pendant des années, Google a également collecté des données vocales à partir d'une ligne d'assistance téléphonique gratuite, le 800-Goog-411. Amazon ne disposait d'aucun service de ce type qu'elle pouvait exploiter, et Hart était opposé à l'octroi de licences pour des technologies extérieures, estimant que cela limiterait la flexibilité de l'entreprise à long terme.Mais les maigres données de formation issues des tests bêta effectués au domicile des employés se résumaient à la parole de quelques centaines de cols blancs, généralement prononcée de l'autre côté d'une pièce bruyante, le matin et le soir lorsqu'ils n'étaient pas au bureau. Les données étaient mauvaises, et il n'y en avait pas assez.Hart, Prasad et leur équipe ont créé des graphiques qui prévoyaient comment Alexa s'améliorerait au fur et à mesure de la collecte des données. Les calculs suggéraient qu'il leur faudrait doubler l'ampleur de leurs efforts de collecte de données pour atteindre chaque augmentation successive de 3 % de la précision d'Alexa. Au printemps de cette année-là, quelques semaines seulement après l'arrivée de Prasad au sein de l'entreprise, l'équipe a présenté à Bezos un rapport de six pages exposant ces faits, et a proposé de doubler la taille de l'équipe de science de la parole et de reporter son lancement. La réunion ne s'est pas bien passée.« Vous vous y prenez de la mauvaise façon », a dit Bezos après avoir lu le retard, selon quelqu'un qui était présent. « Dites-moi d'abord ce qui serait un produit magique, puis dites-moi comment y parvenir ». Bezos s'est levé et a dit : « Vous n'êtes pas sérieux à propos de la fabrication de ce produit », et aurait brusquement mis fin à la réunion.Après que Jeff Bezos les ait abandonnés, les cadres d'Alexa travaillant sur le prototype se sont retirés, la fierté blessée, dans une salle de conférence voisine et ont reconsidéré leur solution au paradoxe des données.Le monde de la technologie se tourne fébrilement vers l'IA générative comme étant la « prochaine grande innovation », ce moment a amené beaucoup de gens à poser des questions difficiles sur la « prochaine grande innovation » précédente - les assistants vocaux tant vantés d'Amazon, Google, Apple, Microsoft et d'autres. L'intelligence artificielle ou IA est la technologie à l'origine de la quatrième révolution industrielle qui a apporté de grands changements dans le monde entier. Elle est généralement définie comme l'étude des systèmes intelligents capables d'exécuter des tâches et des activités nécessitant une intelligence de niveau humain.La révolution de l'IA a fondamentalement changé la façon dont les gens collectent et traitent les données, et a transformé les opérations commerciales dans différents secteurs. En général, les systèmes d'IA reposent sur trois aspects majeurs : la connaissance du domaine, la génération de données et l'apprentissage automatique. La connaissance du domaine désigne la compréhension et l'expertise du scénario de la vie réelle sur le pourquoi et le comment de l'élaboration d'une tâche.L'aspect des données fait référence au processus de préparation des bases de données nécessaires pour alimenter les algorithmes d'apprentissage. Enfin, l'apprentissage automatique détecte les modèles à partir des données d'apprentissage, prédit et exécute des tâches sans être programmé manuellement ou explicitement.L'intelligence artificielle générative décrit des outils (tels que ChatGPT) qui peuvent être utilisés pour créer du nouveau contenu, notamment de l'audio, du code, des images, du texte, des simulations et des vidéos. Les récentes percées dans ce domaine ont le potentiel de changer radicalement la façon dont nous abordons la création de contenu.C'est la raison pour laquelle ChatGPT - GPT signifie generative pretrained transformer - fait l'objet d'une telle attention en ce moment. Il s'agit d'un chatbot gratuit qui peut générer une réponse à presque toutes les questions qui lui sont posées. Développé par OpenAI et mis à la disposition du grand public à des fins de test en novembre 2022, il est déjà considéré comme le meilleur chatbot d'IA jamais créé. Et il est populaire : plus d'un million de personnes se sont inscrites pour l'utiliser en cinq jours seulement.Des fans enthousiastes ont publié des exemples de codes informatiques, d'essais de niveau universitaire , de poèmes et même de blagues à moitié correctes produits par le chatbot. D'autres, parmi le large éventail de personnes qui gagnent leur vie en créant du contenu, des rédacteurs publicitaires aux professeurs titulaires, ont peur pour leur emploi. La capacité de ChatGPT à comprendre des instructions complexes fait que les assistants vocaux existants semblent comparativement stupides, a déclaré Adam Cheyer, le co-créateur de Siri, l'assistant vocal acquis par Apple en 2010 et introduit dans l'iPhone un an plus tard.DALL-E et DALL-E 2 sont des modèles d'apprentissage profond développés par OpenAI pour générer des images numériques à partir de descriptions en langage naturel, appelées "prompts". DALL-E a été révélé par OpenAI dans un billet de blog en janvier 2021, et utilise une version de GPT-3 modifiée pour générer des images. En avril 2022, OpenAI a annoncé DALL-E 2, un successeur conçu pour générer des images plus réalistes à des résolutions plus élevées qui « peuvent combiner des concepts, des attributs et des styles ».OpenAI n'a pas publié le code source de ces deux modèles. Le 20 juillet 2022, DALL-E 2 est entré en phase bêta avec des invitations envoyées à un million de personnes inscrites sur une liste d'attente ; les utilisateurs peuvent générer un certain nombre d'images gratuitement chaque mois et peuvent en acheter davantage. L'accès était auparavant limité à des utilisateurs présélectionnés pour un aperçu de recherche en raison de préoccupations concernant l'éthique et la sécurité. Le 28 septembre 2022, DALL-E 2 a été ouvert à tous et l'obligation d'inscription sur une liste d'attente a été supprimée.En juillet 2022, Hugging Face, une société qui héberge des projets d'intelligence artificielle open source, a vu le trafic vers un outil de génération d'images d'IA appelémonté en flèche. Cela fait plus d'un an qu'un développeur indépendant a créé cette application. Elle utilise une seule ligne de texte pour générer neuf images en réponse à n'importe quel texte tapé. DALL-E Mini a été inspiré par l'outil de création d'images d'IA plus puissant, DALL-E . Le groupe de recherche en intelligence artificielle OpenAI a créé une nouvelle version de DALL-E, son programme de génération de texte en image. DALL-E 2 est une version à plus haute résolution et à plus faible latence du système original, qui produit des images représentant les descriptions écrites par les utilisateurs. Il comprend également de nouvelles fonctionnalités, comme l'édition d'une image existante.Nommé d'après l'artiste surréaliste Salvador Dali et le personnage robot de Pixar, Wall-E, le prédécesseur du modèle, DALL-E, a été lancé en 2021. Ce logiciel est capable de créer des images dans différents styles artistiques lorsqu'il est guidé par des entrées de texte : il génère des images à partir de ce que vous lui décrivez. Vous demandez un cœur anatomiquement réaliste, ou un dessin animé d'un bébé radis chinois en tutu promenant un chien, et il fera de son mieux pour créer une image qui y correspond.Bien que Amazon déclare être pleinement engagé envers Alexa et « aussi optimiste que jamais », pour de nombreux utilisateurs, Alexa est juste considérée comme un « radio-réveil glorifié », a noté l'analyste technologique indépendant Benedict Evans. « Le fait est qu'Alexa continue de se développer. L'engagement a augmenté de plus de 30 % au niveau mondial en 2022, et plus de 50 % des clients d'Alexa l'utilisent désormais pour faire des achats », a déclaré Amazon.À bien des égards, Alexa peut être considéré comme un succès extraordinaire pour Amazon. Il est de loin le leader aux États-Unis avec une part de marché estimée à 66 %, selon Insider Intelligence.Les fabricants tiers ont créé plus de 140 000 produits compatibles avec Alexa, et son système d'exploitation contrôle plus de 300 millions d'appareils intelligents, comme des ampoules ou des caméras, selon Amazon. Le groupe de recherche IDC estime que plus de la moitié des propriétaires d'Alexa interagissent avec l'appareil au moins une fois par jour, un meilleur taux de réussite que Siri d'Apple et Google Assistant.L'ambiance actuelle contraste fortement avec l'époque où l'enthousiasme pour Alexa d'Amazon coulait à flots de la part de Bezos, qui a directement participé à l'orientation des tests et du développement d'Alexa, allant même jusqu'à concevoir personnellement l'apparence et le langage des documents marketing. « Notre objectif n'était pas de rendre le programme Alexa rentable, a déclaré l'ancien responsable marketing d'Amazon. C'était de vendre des appareils - et nous vendions des tonnes d'appareils. »N'ayant pas profité du boom des smartphones, Amazon espérait qu'Alexa ouvrirait un vaste écosystème de nouvelles applications, idéalement lucratives, commandées par la voix. Amazon a nommé ces applications "compétences" et a ouvert Alexa aux développeurs tiers. La société a déclaré en novembre qu'il y avait désormais plus de 130 000 compétences dans la boutique d'Amazon. Google a fait de même avec son assistant, qu'il a appelé « actions conversationnelles ».