Le retour vers un monde axé sur la voix ?

Craig Walker Director of Cloud Services at ALE

Director of Cloud Services at ALE 02-10-2017, 13:56 Mise à jour le: 17-08-2022, 08:22 Source: None 6 min. de lecture

Après le succès des assistants personnels et des haut-parleurs intelligents sur le marché à la consommation, il ne faudra plus attendre longtemps, avant que des systèmes de reconnaissance vocale soient appliqués partout dans les entreprises. “Mais ce passage ne se fera pas comme sur des roulettes”, écrit Craig Walker. Et d’aborder les défis à relever en matière de sécurité, de confidentialité et de standardisation.

L’engouement pour les assistants personnels tels que Siri, Cortana et Google Assistant et l’exploitation de l’IA et des données analytiques par les nouvelles start-ups pour le développement de nouveaux compagnons personnels démontrent la progression de la voix dans les relations technologiques. Comme cela a déjà été le cas sur le marché de la consommation, ces systèmes à activation vocale finiront à coup sûr par s’imposer dans l’environnement des entreprises, surtout si l’on considère les avantages potentiels énormes qu’ils représentent en termes de simplification et d’automatisation des activités. Craig Walker, Head of Cloud Services Europe North chez ALE, explique que même si des personnalités comme “HAL” de “2001 : l’Odyssée de l’espace” sont encore loin, les technologies capables d’améliorer le fonctionnement des entreprises existent déjà.

Lumières, caméra, action !

Imaginez qu’un médecin puisse tout simplement demander “Système : mets à jour le dossier de Marie Dupont en y insérant la note suivante : “Douleurs abdominales de la patiente : envoyer une ordonnance avec 200 mg de “SuperAntiGaz” à la pharmacie, signée Dr Feelbetter”.” Ou que dans une salle de conférence, une simple commande vocale puisse résoudre le casse-tête des télécommandes pour allumer le projecteur et l’écran : “Système : allume le projecteur, allume l’écran et tamise les lumières.”

Les défis

Alors, où en sommes-nous sur la voie du vocal ? VoiceLabs, une société spécialisée dans les données analytiques vocales, a publié une analyse sur les différentes étapes requises pour l’adoption d’une approche axée sur la voix dans le monde de la consommation. Mais pour passer d’une simple utilisation par les consommateurs aux environnements professionnels plus axés sur la voix, il y a plusieurs questions à régler.

La sécurité sera un facteur déterminant pour laisser les systèmes professionnels se fier aux commandes vocales. Pourra-t-on confier à n’importe qui le contrôle vocal d’équipements ou de systèmes essentiels ? La réponse à cette question est évidemment négative. La confidentialité est également une préoccupation de taille, et même si l’exemple du médecin ci-dessus paraît simple à première vue, il convient d’y réfléchir dans le contexte des réglementations. Les droits d’un patient sont-ils enfreints si ces commandes vocales révèlent des informations médicales sur le patient à des tiers ?

Accès sécurisé

Les systèmes de reconnaissance vocale passent déjà à l’étape suivante car la technologie permet un accès sécurisé. Les banques font partie des organismes qui introduisent l’authentification vocale dans leurs systèmes bancaires téléphoniques. Même si cette initiative pourrait inquiéter certains clients quant à la sécurité de leur compte, elle suivra à mon avis le cycle d’adoption du commerce électronique : il a fallu commencer par rassurer les consommateurs initialement préoccupés par le risque d’utilisation frauduleuse de leurs cartes bancaires avant d’assister à la croissance fulgurante des achats en ligne.

Les innovations et améliorations constantes dans les systèmes de reconnaissance vocale vont permettre de développer des systèmes suffisamment sécurisés pour être adoptés dans des environnements professionnels dans lesquels seuls les utilisateurs bénéficiant des autorisations appropriées pourront effectuer les actions associées.

Et même s’il ne faudra pas pour autant en conclure que votre micro-onde vous espionne, certains appareils seront toujours allumés, toujours à l’écoute et pourront potentiellement enregistrer. Quelques cas médiatisés de violation de la vie privée, d’espionnage commercial ou de joutes juridiques pourraient paralyser l’adoption de la reconnaissance vocale. On pourrait en conclure qu’il serait judicieux de placer un gros bouton ou une fonction Activé/Désactivé sur les produits axés sur la voix, ce qui permettrait aux utilisateurs de bénéficier de leurs avantages sans risquer de subir les inconvénients d’une surveillance constante. Il faudrait également intégrer un accès logiciel sécurisé dans ces produits afin de prévenir et de détecter les tentatives de piratage.

Des systèmes de reconnaissance vocale encore plus efficaces

Nous avons d’abord assisté à des cas d’utilisation principalement axés sur des systèmes de réponse vocale, qu’il s’agisse des centres d’appels ou des systèmes intégrés dans nos voitures ou sur nos smartphones. Mais vous le savez sans doute d’expérience, ces systèmes sont au mieux marginalement satisfaisants. La reconnaissance et la mise en contexte doivent être affinées par le biais de développements technologiques avant qu’il soit envisageable de les adopter dans un contexte professionnel.

Des programmes de recherche tels que le projet Sphinx de la Carnegie-Mellon University continuent d’améliorer les capacités de la reconnaissance de langage. Selon un rapport de Mary Meeker sur les tendances d’Internet , le système de reconnaissance vocale de Google pouvait en 2016 reconnaître plus de cinq millions de mots avec une exactitude d’environ 90 %, mais cette reconnaissance n’est pas encore assez étendue ou précise. Un taux de 90 % est-il suffisant pour autoriser une interaction avec un équipement de survie hospitalier ou le réseau d’un service public ?

La reconnaissance des mots n’est pas le seul critère à prendre en considération. Reste à savoir ce qu’il faut faire avec ces mots. C’est là que les moteurs cognitifs et l’IA entrent en jeu. Certains travaux des principaux intervenants de ce secteur, comme Microsoft avec son moteur de reconnaissance cognitive en code source ouvert, peuvent être exploités pour comprendre le contexte des mots. La question “Comment aller à la gare ?” peut paraître simple, mais une mise en contexte est pourtant nécessaire. Une bonne connaissance du lieu pourrait indiquer que vous parlez de la gare ferroviaire locale. Si vous êtes assis dans un café du centre-ville, la réponse pourrait être : “Tournez à droite au bout de la rue, puis suivez la route pendant un demi-kilomètre”, mais nous présumons ici qu’il s’agit de la gare ferroviaire et non de la gare routière par exemple, qui se trouve à l’autre bout de la ville, ou encore de la station de métro ou de la gare de tramway.

La recherche d’une définition plus précise

La véritable difficulté consiste à comprendre ce qui se cache derrière les systèmes de reconnaissance vocale, de l’intégration des périphériques IoT au système lui-même, et à vérifier que les commandes sont censées. D’où la nécessité d’exploiter pleinement ces moteurs cognitifs pour en faire des systèmes de vérification et de validation. Prenons l’exemple d’un technicien qui demanderait par erreur : “Éteins le système de refroidissement du réacteur 4”, déjà éteint, au lieu du réacteur 3, ou d’un médecin qui utiliserait le système pour prescrire une dose nocive de médicament en disant par erreur 400 grammes au lieu de 400 milligrammes. Ces exemples sont peut-être tirés par les cheveux, mais il conviendra d’adopter une approche globale des actions automatisées pour prévenir l’erreur humaine et d’élargir la portée des renseignements pour comprendre les actions liées aux requêtes vocales. Ainsi, “Éteins le système de refroidissement du réacteur 4” était peut-être une commande correcte, mais on comprend pourquoi il serait nécessaire pour le système de maîtriser l’ensemble des procédures opérationnelles pour pouvoir mettre ces actions en application.

Une plateforme API pour de véritables solutions vocales intégrées

D’un point de vue stratégique, il serait intéressant d’exploiter les innovations du monde traditionnel de la communication vocale pour développer de véritables environnements contrôlés par la voix. Nous assistons à l’explosion de la CPaaS (Communication Platform as-a-Service) dans l’entreprise. La CPaaS exploite les API pour transformer les applications d’aujourd’hui en solutions vocales intégrées. Certains des principaux fournisseurs de communication vocale se lancent actuellement sur ce marché, en proposant des infrastructures CPaaS intégrant un ensemble standardisé d’API pour permettre aux entreprises d’intégrer les communications dans leurs processus commerciaux.

Alors que l’intégration représente traditionnellement pour nous l’incorporation de services vocaux et vidéo dans des applications existantes (imaginez une application bancaire qui vous permettrait de passer d’une application en ligne à un appel vocal avec votre conseiller bancaire), ces infrastructures joueront à mon avis un rôle crucial dans cet environnement “axé sur la voix” en exploitant la riche infrastructure API des CPaaS pour communiquer avec les applications et les objets.

Derrière les conditions requises pour la mise en place d’une infrastructure de communication, le mode de communication des CPaaS ou autres plateformes avec les périphériques doit absolument être standardisé avant qu’il soit possible d’assister à un développement rapide des technologies vocales. Aujourd’hui, tous les systèmes consommateur à commande vocale ont leur propre interface et leurs propres intégrations API, ce qui risque d’aboutir à l’obsolescence des produits, situation déjà rencontrée il y a quelques dizaines d’années lors de l’historique bataille “Beta / VHS”. Un consommateur ne veut pas investir dans la toute dernière “machine à café intelligente” pour découvrir ensuite que la plateforme de contrôle n’est plus produite. La logique est la même dans le monde professionnel : une entreprise veut s’assurer que ses investissements dans les nouvelles technologies ne seront pas obsolètes avant d’avoir pu en tirer un retour.

Le meilleur est à venir

La bonne nouvelle est que diverses technologies sont développées pour contribuer à réduire ce risque d’obsolescence. Des cadres tels que IoTivity sont en cours de perfectionnement pour construire une plateforme standardisée. On constate déjà les bénéfices des nouvelles applications vocales destinées aux consommateurs en termes de valeur ajoutée, d’avantages et d’expansion rapide. À moyen terme, le monde professionnel les adoptera pour certains cas d’utilisation simples. À plus long terme, avec l’amélioration des performances de la reconnaissance vocale, de la sécurité vocale et de la simplification/standardisation de la connectivité des périphériques, les activités axées sur la voix se multiplieront sur le marché des consommateurs comme dans le monde de l’entreprise, ce qui permettra en définitive de réduire la complexité et d’améliorer la productivité.

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici