Google: ‘ L’analytique de données reste trop complexe’
Google est le plus important réseau d’annonces publicitaires au monde ainsi que le deuxième fournisseur cloud. Mais l’entreprise voit plus loin. A l’occasion de Google Next, l’événement cloud des acteurs technologiques, elle a dévoilé sa stratégie en apprentissage machine.
“Voici 20 ans, Google avait une vision fantastique : organiser et rendre accessible toute l’information disponible dans le monde. Et nous l’offrons désormais à des milliards de personnes, a déclaré Diane Greene, CEO de Google Cloud, dans son discours inaugural à Londres, devant un public de 8.000 personnes. Avec Google Cloud, nous entendons désormais offrir à des millions d’entreprises la technologie qui nous a permis d’organiser et de rendre accessibles leurs propres données. ”
La même démarche donc, mais au niveau des entreprises. Pour preuve, Google avait invité sur le podium des clients comme Airbus, Carrefour et SEP, chacun utilisant des plates-formes cloud différentes du géant technologique, depuis les services d’apprentissage machine jusqu’à la G Suite.
Analyse de données sans ‘data scientists’
D’emblée, l’intérêt porté à l’intelligence artificielle (IA) saute aux yeux, Google ambitionnant en effet de n’être plus un fournisseur de services cloud, mais de rendre l’IA et l’apprentissage machine accessibles à l’ensemble des entreprises, même celles qui ne disposent pas de ‘data scientists’. ” 80 % des données sont non structurées, fait remarquer Rajen Sheth, director of product management. Il s’agit de courriels, vidéos, etc. Grâce à l’apprentissage profond et à l’apprentissage machine, il est désormais possible de les exploiter. Mais c’est difficile vu la pénurie de scientifiques des données. ” Du coup, Google propose sa solution Cloud IA, une plate-forme open source qui propose des services totalement gérés pour créer des modèles d’apprentissage machine. ” Nous offrons des blocs de construction que l’on peut intégrer dans ses propres applications, poursuit Sheth. Il s’agit par exemple de blocs pour la reconnaissance d’images, la traduction, la conversion texte-voix, etc. ”
” L’analytique de données reste trop complexe, ajoute Sudhir Hasbe, director Product Management (Analytics) pour Google Cloud. Les plates-formes traditionnelles considèrent que l’utilisateur doit tout faire lui-même, depuis le contrôle jusqu’au ‘performance tuning’, etc., ce qui laisse peu de temps pour l’analyse proprement dite. C’est pourquoi nous voulons prendre toutes ces opérations et les assurer pour le client. Nous avons prévu toutes sortes d’outils pour la collecte de données, la recherche, la préparation, le pré-traitement, etc. ” Grâce à des modèles, les services doivent permettre une analyse complète des données. Et ensuite ? D’autres outils sont disponibles. ” Nous offrons aussi un portefeuille complet en apprentissage machine, ce qui permet de former facilement un modèle “, dixit Hasbe.
Apprentissage machine pour les nuls
L’une des grandes promesses de Cloud AutoML, l’offre de Google en apprentissage machine, est de ne pas obliger l’utilisateur à disposer d’expertise pointue pour utiliser la solution. ” Une simple interface permet de choisir des modèles d’apprentissage machine et de les adapter aux besoins spécifiques de l’entreprise “, affirme Sheth.
La preuve en est apportée par Sophie Maxwell, conservation technology lead à la Zoological Society London, un institut de conservation lié au London Zoo. Celle-ci évoque un instrument typique utilisé par nombre de chercheurs spécialisés en animaux : le piège photographique. Des caméras sont dispersées sur une zone précise, chacune étant équipée d’un capteur de prise de vue qui détecte les mouvements. L’objectif est d’observer des animaux rares et de les recenser dans la zone concernée. ” Mais les données récoltées dans ce type de projet sont très variées, explique Maxwell. On y retrouve des images floues, mais aussi des photos d’animaux qui ne sont nullement menacés ou qui ne sont pas pertinents dans le cadre de la recherche. Et avec 400.000 images par cycle d’observation, le travail pour les scientifiques est particulièrement fastidieux. ”
La solution réside, sans surprise, dans l’apprentissage machine. Un logiciel simplifié comme Google ML a permis d’entraîner un modèle sur un jeu ‘labelisé’ d’informations, afin que l’algorithme apprenne à reconnaître certaines espèces d’animaux rares. Ensuite, le système est testé sur un jeu de photos non labelisées provenant de caméras installées à Bornéo. Le projet s’est révélé suffisamment réussi pour trouver un prolongement. ” Au final, nous voulons construire une plate-forme qui permettra aux zoologues de partager leurs modèles pour des niches spécifiques, ajoute Sophie Maxwell, ce qui leur permettra par exemple de rechercher une espèce spécifique dans une région déterminée. ”
Pour les programmeurs
Les mêmes propos de Rajen Sheth sont revenus à plusieurs reprises durant la conférence. ” Dans le monde, il y a nettement plus de développeurs que de scientifiques des données ou d’experts en apprentissage machine. ” Du coup, Google approche ces développeurs via différents canaux. Ainsi, BigQuery ML permet aux développeurs SQL de développer l’apprentissage machine directement dans l’entrepôt de données, avec simplement quelques lignes de code, tandis que Kubeblow permet de faire tourner des analyses au-dessus de Kubernetes.
Mais il s’agit là de l’aspect technique. Google offre l’infrastructure et la programmation sous forme d’une interface plus simple, mais ne résout pas forcément les problèmes que rencontre d’ores et déjà l’apprentissage machine, et notamment les bases de données qui ne sont pas bien équilibrées ou qui sont incomplètes. Google parviendra-t-elle à expliquer à un zoologue le concept ‘garbage in, garbage out’ ?
Manifestement oui. Pour ce faire, Google entend manifestement d’abord miser sur la documentation. ” Nous expliquons aux utilisateurs comment ils doivent coder correctement, explique Sheth. Si vous commencez avec des bases de données incomplètes, vous obtiendrez des algorithmes tronqués. Nous essayons aussi de développer des outils susceptibles d’être maîtrisés par les utilisateurs, ou tout au moins qu’ils comprennent la manière de les utiliser. ” S’il ne tenait donc qu’à Google, chacun deviendrait demain un peu ‘data scientist’.
Google veut bâtir un réseau de partenaires en Europe
Google recrute massivement sur le Vieux Continent, confie Sebastien Marrotte, VP EMEA. Surtout des ingénieurs clients pour assister la clientèle. Google entend en effet étoffer sa base de clients en offrant davantage de services et, chose remarquable, par un réseau de partenaires. ” L’idéal serait que 100 % de notre activité soit géré par des partenaires, précise Marrotte. Nous recherchons désormais la meilleure combinaison d’expertise technologique et métier. Pour ce faire, il faut des partenaires provenant de différents secteurs et qui connaissent parfaitement ces métiers. ”
Voilà qui prouve que Google mise clairement sur son rôle de prestataire de services, car la technologie seule ne résoudra pas tout. ” Lorsque je rencontre le CIO de Carrefour pour lui demander ses préoccupations majeures, celui-ci ne parle pas technologie. Son entreprise est mise sous pression par Amazon et par les ‘hard discounters’. Il veut des solutions, il veut une stratégie. Nous n’allons donc pas lui dire que nous avons la meilleure technologie, mais que nous pouvons déployer une stratégie, en associant des idées et des partenaires, pour redynamiser son entreprise. ”
La compagnie aérienne numérique
” Je viens du secteur de la musique. J’ai quitté Time Warner voici 17 ans parce qu’ils ne voulaient pas déployer la musique numérique. Et j’ai acheté une compagnie aérienne pour 25 cents. ” Ainsi s’exprime Tony Fernandes, group CEO d’AirAsia. L’homme qui, empathique, sert la main à tout qui vient l’écouter, se retrouve désormais à la tête de l’une des plus grandes compagnies aériennes d’Asie du Sud-Est. Son entreprise transporte 90 millions de passagers par an et est passée de 2 à 200 appareils pour un effectif qui a grimpé de 200 à 20.000 collaborateurs. Grâce à sa stratégie numérique, prétend Fernandes. ” Nous avons été la première compagnie aérienne asiatique à vendre des billets en ligne. Lorsque nous avons fondé AirAsia, personne n’utilisait l’Internet et tout passait par les agences de voyage. A l’époque, il n’y avait pas autant de cartes de crédit en Asie. Mais nous avons vu venir la vague et avons compris que cette technologie était un moyen de prendre notre sort en mains. ”
Vous ne serez pas surpris d’apprendre qu’AirAsia utilise Google pour la numérisation de ses opérations. ” J’estimais qu’en tant que compagnie aérienne, nous ne devions pas investir dans ce type de technologie. De toute façon, nous aurions été incapables de suivre. Lorsque le cloud est apparu, j’ai été l’un des premiers à l’utiliser. Je n’ai aucun problème à voir mes données être hébergées chez un tiers. C’était leur coeur de métier. Si Google néglige la sécurité, c’est sa mort. D’ailleurs, si j’oublie la sécurité de mes avions, c’est également la fin de mon entreprise. ”
L’entreprise utilise notamment la G Suite, de même que Hangouts et Meetings pour permettre aux différents employés de collaborer dans toute l’Asie. Et la prochaine étape ? L’apprentissage machine et l’IA. ” Nous disposons d’une gigantesque montagne de données que nous avons accumulées au fil des 17 dernières années, poursuit Fernandes. Nous n’avons rien jeté. Désormais, avec Google Cloud ML, nous pouvons les exploiter. Nous planchons notamment sur des prévisions. Nous disposons de nombreux capteurs installés sur nos avions et pouvons désormais prévoir quand les entretiens doivent être planifiés. Une fois que l’on commence avec des prévisions, on peut commencer à s’intéresser aux modèles et aux éventuels retards. Nous espérons même qu’à l’avenir, nous pourrons prévoir qu’une tempête va se déclencher et avertir nos passagers de ne pas se rendre à l’aéroport. ”
L’apprentissage machine et les hiéroglyphes
Si un thème fort ressort de Google Next, c’est que l’apprentissage machine peut vraiment être appliqué dans n’importe quel domaine. Qu’il s’agisse d’identifier des singes rares ou… d’aider à traduire des hiéroglyphes. Tel est d’ailleurs l’objectif visé par la Hieroglyphics Initiative lancée par l’agence numérique Psycle et l’éditeur de jeux Ubisoft pour transposer l’Egypte antique au 21e siècle.
Le projet vise à traduire les hiéroglyphes, un processus en cours depuis un siècle environ. En pratique, un chercheur se rend en Egypte pour prendre des photos des monuments et ensuite retracer à la main les signes d’écriture. ” Dans l’Egyptologie, nous avons du matériel source qui n’est pas directement exploitable “, explique Alex Fry, directeur de Psycle Interactive à Data News. Ces signes doivent alors être convertis en matériel utilisable, des facsimilés. Il s’agit d’un processus chronophage, ce qui signifie que les traductions et les glyphes ne sont pas très répandus.
Tel est le problème que la traduction automatisée entend résoudre. Psycle voulait concevoir un outil pour reconnaître chaque glyphe individuellement, avant de l’analyser sous forme de mots, pour en faire ensuite une traduction. Mais pour ce faire, il fallait d’abord disposer d’un ensemble de facsimilés pour former le modèle d’apprentissage machine. ” Pour ce faire, il faut cependant disposer de très nombreuses images qui soient correctement labelisées, explique Alex Fry. Nous avons dès lors pris des glyphes stylisés qui ont été intégrés dans un outil de dessin, après quoi Ubisoft a demandé à ses joueurs de les dessiner. ” Des joueurs qui étaient bien sûr fans d’Assassin’s Creed Origins, un jeu qui se déroule dans l’Egypte ancienne. Dès qu’Ubisoft a lancé ce projet, quelque 80.000 glyphes ont été dessinés en une seule nuit. ” Nous avons ensuite tout vérifié manuellement. Et finalement, seul un très petit pourcentage se révélait être des blagues. La plupart des images que nous avons reçues étaient correctes. ”
Grâce à la disponibilité de ce jeu de données, le modèle d’apprentissage machine a ensuite été créé. Et l’outil sera déployé plus tard dans l’année comme ‘opensource framework’. ” Pour les universitaires, il s’agit là d’un bel outil de support “, estime Pierre Miazga, directeur du marketing d’Ubisoft. La plate-forme doit surtout servir à convertir rapidement des images et à bâtir une vaste banque de données associant glyphes, facsimilés et traductions. ” Les Egyptologues ont certes trouvé le code des hiéroglyphes depuis un certain temps déjà, note encore Pierre Miazga. Mais certains éléments de grammaire n’ont pas encore été résolus. Pour répondre à de telles questions, il faut analyser de nombreuses données afin de dégager des tendances. Jusqu’à présent, il a fallu trop de temps. ”
Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici