À quand la voix pour commander un ordinateur ?

Bret Taylor et Clay Bavor © Sierra

Le temps des interfaces informatiques visuelles est-il venu ?Une start-up américaine fondée par d’anciens cadresde Salesforce et de Google en est convaincue.

De Blade Runner à Knight Rider en passant par Star Trek : The Next Generation: voici près d’un demi-siècle que la science-fiction nous prépare à l’idée d’ordinateurs parlants. Et désormais, les entrepreneurs américains Bret Taylor et Clay Bavor ambitionnent de passer du rêve à la réalité. Du moins au niveau des relations client numériques, dans lequel s’est spécialisé leur nouvelle start-up Sierra avec l’IA conversationnelle, une sorte d’intelligence artificielle qui imite les conversations humaines afin de dialoguer avec l’utilisateur, le but étant de proposer l’interfaçage du futur. Ainsi, les interfaces écran telles que les sites Web et applis devraient rapidement l’adopter, estime le duo.

« À l’avenir, l’agent IA d’une entreprise – en fait la version IA de cette entreprise – deviendra aussi important que le site Web, estimait Taylor dans la revue technologique Wired. Il bouleversera en profondeur la manière dont les entreprises existent au niveau numérique. Pour l’instant, une appli d’entreprise est une petite icône vers laquelle l’utilisateur pointe. Mais à quel point l’artefact numérique le plus important d’une entreprise ne deviendra-t-il pas l’IA ? »

Converser

Bavor et Taylor ont du répondant. Bavor a travaillé durant 18 ans chez Google dont il a dirigé le département RV et le département R&D ces dernières années. De son côté, Taylor a quitté son poste de co-CEO de Salesforce pour cofonder Sierra. Désormais, leur entreprise peut déjà se prévaloir de grands noms tels que Sonos et WeightWatchers. Et leur technologie n’a rien à voir avec celle de Siri ou d’Alexa que nous avons déjà toutes et tous testée… et abandonnée sans scrupule. Les deux fondateurs de Sierra estiment que l’IA conversationnelle est un progrès comparable à celui de l’interface utilisateur graphique ou au smartphone, et qu’elle aura un impact au moins tout aussi important sur nos vies. Ils font référence à cet égard à ChatGPT qui, fin 2022, comptait pas moins de 100 millions d’utilisateurs en seulement deux mois de temps, un nombre d’utilisateurs que TikTok a mis 9 mois à obtenir et Instagram deux ans et demi.

© Getty Images/iStockphoto


L’IA conversationnelle se trouve au croisement des mégadonnées (big data), de l’apprentissage machine et du traitement naturel du langage, trois composants du développement de l’intelligence artificielle qui ont enregistré des progrès fulgurants ces dernières années. Dans le cas de Sierra, des ‘agents’ sont ajoutés, à savoir des instances d’IA qui fonctionnent de manière autonome déjà largement déployés dans les recherches universitaires en matière d’IA (pour entraîner l’intelligence artificielle sur des jeux vidéo notamment), mais sans se traduire jusqu’ici dans de véritables applications commerciales.

Tous ces éléments combinés permettent désormais à la nouvelle génération d’agents conversationnels de mener de ‘véritables’ conversations avec l’utilisateur, lesquelles peuvent ensuite être poursuivies lors de contacts ultérieurs. « Deux étapes majeurs de l’IA conversationnelle ont été franchies, estime le professeur Steven Latré, qui dirige les recherches en matière d’IA à l’institut technologique imec. La première étape, qui remonte à l’époque de Lernout&Hauspie, consistait à comprendre ce que l’utilisateur demandait précisément. Ce pas a désormais été franchi. Mais le second devrait l’être sous peu : des systèmes d’IA qui apportent des réponses pertinentes. Des systèmes qui, sur la base des données dont ils disposent, proposent une réponse plus affinée et la communiquent à l’utilisateur. Sur le plan technologique, nous en sommes arrivés à un point où ces systèmes sont finalement devenus suffisamment intelligents. »

UI > AI

Mais est-ce vraiment ce que nous voulons, à savoir ne faire que dialoguer ou chatter avec un ordinateur ? Frederik De Bosschere, lead strategist au studio numérique In the Pocket, considère que les agents conversationnels – aussi géniaux soient-ils – ne supplanteront pas de sitôt les interfaces visuelles ou tactiles. « Notre optimisme collectif face à l’IA est souvent attisé par les images de science-fiction sur l’intelligence artificielle. La première vague d’agents conversationnels, autour de 2016, est retombée comme un soufflé parce que l’on a trop rapidement cru que ces applications de traitement en langage naturel pourraient capter les intentions de l’homme alors qu’elles sont restées au stade du menu à choix multiple virtuel. Il en a été de même avec les enceintes intelligentes de Google et d’Amazon que tout le monde a commencé à installer chez soi pour y allumer et éteindre les lumières. À présent que les ‘large language models’ arrivent, le succès pourrait être au rendez-vous dans la mesure où on se rapproche des intentions de l’être humain. Reste qu’il faut en tant qu’entreprise qui cherche à la technologie pour communiquer avec ses clients disposer d’un dorsal capable de supporter la solution. La bonne vieille IU a en outre été à plusieurs reprises considérée comme définitivement morte, mais il serait cette fois à nouveau prématuré de signer son acte de décès. L’argument principal en faveur de l’interface utilisateur classique est que l’utilisateur est guidé, alors que si l’on utilise exclusivement la voix, cet utilisateur se retrouve totalement seul. »

Lire le menu des pizzas

Se pose par ailleurs la question de savoir si nous sommes, en tant qu’utilisateurs, suffisamment exigeants vis-à-vis de l’intelligence artificielle. Le magazine américain The Atlantic a en effet levé récemment un lièvre à cet égard, précisant que l’on considère le fait de commander un voyage par l’IA représente le nec plus ultra de ce que peut proposer un agent conversationnel en intelligence artificielle. Voilà qui donne du grain à moudre aux Microsoft, Google, Meta et autres géants du marché. Alors que le véritable test consistera à voir comment se comportera l’IA face à toutes les questions des consommateurs – quel que soit leur niveau de complexité – en offrant le même service que les interfaces développées voici 20 à 30 ans déjà.

« Notre optimisme collectif face à l’IA est souvent attisé par les images de science-fiction sur l’intelligence artificielle. »

« La réservation d’un vol est à mes yeux une tâche pour laquelle l’utilisateur désire un seul type de guidance, alors que la communication par le texte ou la voix n’est pas précisément le point fort de l’IA générative, explique De Bosschere. Mais quid lors de la passation d’une commande chez Domino’s Pizza lorsque le système devra énumérer d’abord les 33 variations possibles de pizza. Une bonne UX peut guider lors de l’interaction numérique avec le client et apparaît comme particulièrement robuste. Du coup, la communication par texte avec un ordinateur ‘humain’ se révèle être véritablement cruciale, alors même que nous devrons admettre qu’il faudra composer avec la réalité selon laquelle l’AI et l’IU seront complémentaires. Certes, il faut concéder qu’un agent conversationnel doté de technologie LLM est capable de proposer à un client ou un visiteur des réponses très spécifiques à des questions très pointues. Or l’on s’attend à ce que l’IA prenne le dessus et supplante finalement l’UI. C’est un peu comme dire : ‘Nous avons un bon marteau, enfoncez partout des clous.’ Ce n’est évidemment pas comme cela que les choses fonctionnent. »

Ajouter de l’intuition

Pourtant, cette tâche complémentaire n’est pas aujourd’hui convenablement assumée par la génération actuelle d’agents conversationnels. Le support téléphonique par ordinateur ou les agents conversationnels modernes présentés dans le coin inférieur droit d’un écran de site Web sont en général un cauchemar. Si leur qualité s’améliore et avec l’appui de l’IA conversationnelle, ceux-ci pourront peut-être fonctionner de manière adéquate aux côtés de l’IA classique. « J’estime que l’IA conversationnelle fera surtout la différence si l’intuition est ajoutée aux interfaces utilisateur existantes, fait remarquer Latré. Adobe notamment y parvient parfaitement avec son agent d’IA dans PhotoShop : il s’agit d’un progiciel extrêmement complexe et offrant de très nombreuses fonctions, mais qui nécessite des recherches pour effectuer une tâche relativement simple comme changer l’arrière-plan d’une photo. Lorsqu’une telle fonction peut être exécutée via un message-guide, l’approche est particulièrement salvatrice. »

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici

Contenu partenaire