En mai dernier, face à la vague des unes consacrées au coronavirus, l'information vous aura peut-être échappé: l'agence de presse PA Media - active au Royaume-Uni et en Irlande - procédait au licenciement de 27 journalistes et rédacteurs. Raison invoquée? Un seul et même client de l'agence n'avait plus besoin de collaborateurs journalistiques. "Microsoft sacks journalists to replace them with robots", écrivait The Guardian. Plus besoin donc de journalistes qui remplissent les colonnes du site Web de MSN et le navigateur Edge: l'intelligence artificielle se chargera désormais de filtrer, sélectionner et retravailler les articles. Surpris? Pas vraiment lorsque l'on sait que des concurrents comme Yahoo ou l'agence de presse AP utilisent depuis des années déjà le logiciel Wordsmith d'Automated Insights, une 'self-service natural language generation platform'. Entendez: un robot de génération d'articles. Plus près de chez nous également, des expériences sont menées pour créer du 'contenu automatique', notamment sur des résumés de résultats de football. Il suffit d'alimenter le système avec les données essentielles, comme le score, les joueurs ayant reçu une carte rouge ou encore les remplacements et le logiciel fournit un résumé du match. S'agit-il de journalisme de qualité? Certainement pas. Mais la solution permet de fournir rapidement au lecteur l'info qu'il attend.
...

En mai dernier, face à la vague des unes consacrées au coronavirus, l'information vous aura peut-être échappé: l'agence de presse PA Media - active au Royaume-Uni et en Irlande - procédait au licenciement de 27 journalistes et rédacteurs. Raison invoquée? Un seul et même client de l'agence n'avait plus besoin de collaborateurs journalistiques. "Microsoft sacks journalists to replace them with robots", écrivait The Guardian. Plus besoin donc de journalistes qui remplissent les colonnes du site Web de MSN et le navigateur Edge: l'intelligence artificielle se chargera désormais de filtrer, sélectionner et retravailler les articles. Surpris? Pas vraiment lorsque l'on sait que des concurrents comme Yahoo ou l'agence de presse AP utilisent depuis des années déjà le logiciel Wordsmith d'Automated Insights, une 'self-service natural language generation platform'. Entendez: un robot de génération d'articles. Plus près de chez nous également, des expériences sont menées pour créer du 'contenu automatique', notamment sur des résumés de résultats de football. Il suffit d'alimenter le système avec les données essentielles, comme le score, les joueurs ayant reçu une carte rouge ou encore les remplacements et le logiciel fournit un résumé du match. S'agit-il de journalisme de qualité? Certainement pas. Mais la solution permet de fournir rapidement au lecteur l'info qu'il attend. Toutes ces évolutions ont incité la rédaction à se pencher sur la question. Sur le site générique willrobotstakemyjob.com, vous pouvez vérifier si votre propre emploi est menacé par une machine ou un logiciel. Selon la fonction introduite - journaliste, éditeur, reporter, correspondant, écrivain - vous obtenez un pourcentage qui varie globalement de 5 à 10. Soit un taux de risque de recevoir son C4 et d'être remplacé par un robot qui génère du texte sous forme lisible sans devoir prendre un café. Le résultat est basé sur une étude certes désormais quelque peu ancienne de 2013 de Carl Benedikt Frey et Michael A. Osborne intitulée 'The Future of Employment: How susceptible are jobs to computerisation? ' Entre-temps, nombre d'autres études ont été publiées sur les menaces qui planent sur nos emplois. Avec toutefois un fil rouge constant: il faut s'attendre à relativement court terme à une automatisation sans cesse plus poussée. Ce constat nous a amené à réfléchir: la technologie est-elle déjà suffisamment avancée pour automatiser, voire remplacer, nos emplois? Les outils d'intelligence artificielle peuvent-ils rédiger des articles destinés à Data News? La solution réalise-t-elle ses propres recherches? Peut-elle travailler dans notre langue maternelle sans devoir procéder à une traduction? Et si oui, de quoi a-t-on vraiment besoin et par où commencer? Dans notre cas: en prenant son téléphone et en appelant des spécialistes du 'natural language processing' ou LNP. Allô, ML6? "Pourquoi ne pas essayer?", lance Nicolas Deruytter sous forme de défi. En qualité de directeur général de cette start-up gantoise, il s'est vu décerner par les lecteurs et le jury de Data News le titre d'Artificial Intelligence Innovator of the Year 2020. "Il s'agit pour nous également d'une expérience intéressante", ajoute-t-il d'emblée. En anglais, c'est relativement facile, mais générer un article en néerlandais constituera un défi." Avance rapide de quelques mois à la page 12 de ce magazine: voici le résultat de notre expérience. Jugez ensuite surtout la qualité du texte généré et si votre serviteur doit tirer sa révérence. Mais ne jugez pas avant d'avoir compris le fonctionnement de l'expérience. En voici les étapes. "Fondamentalement, il s'agit d'entraîner des algorithmes, tout comme une caméra de selfies par exemple peut être formée à reconnaître des visages. Pour ce qui est de textes, il faut partir d'une 'feuille blanche', d'une boîte vide", explique Thomas Dehaene, 'machine learning engineer' chez ML6. Thomas Dehaene: "En fait, c'est plus simple qu'on pourrait le penser. Nous prenons de très gros jeux de données de millions de phrases par exemple. Chaque mot est ensuite présenté au modèle en lui demandant de prédire quel sera le mot suivant. Par exemple, la phrase pourra être 'Kristof est le rédacteur en chef de Data News. Data News est un...' On demande au modèle de compléter. Au tout début, il n'y parviendra pas et va simplement répondre 'banane', ou 'maison' ou 'café'. L'objectif est de corriger le modèle et de lui indiquer 'une revue IT spécialisée'. On indique donc un signal d'erreur qui est ensuite envoyé au modèle. Du coup, le système va essayer de prendre une autre direction, de telle sorte qu'à chaque fois, il sera un peu plus près de la bonne réponse. Cela dit, il faudra s'y reprendre à des millions de fois littéralement pour que le système aille finalement dans la bonne direction. Mais pour pouvoir dire qu'un modèle fournit des textes de qualité, cohérents et logiques, le signal d'erreur doit être extrêmement faible."Dehaene: "C'est plutôt mathématique. La précision sur le fond est impossible dans un tel modèle. Obtenir une précision sur le fond dépend des données qui sont intégrées. De même au niveau grammatical, c'est purement en fonction des données qui alimentent le système. En fait, c'est surtout la distance mathématique qu'il faut corriger pour en arriver à des résultats cohérents et de qualité." Dehaene: "Ce modèle est en fait une sorte de boîte de construction. Des instituts de recherches comme des universités, mais aussi des Facebook et Google ou OpenAI notamment se concentrent surtout sur la création de modèles de qualité. Quant à savoir comment ceux-ci sont structurés et construits, il faut préciser que les exemples récents les plus performants sont appelés modèles Transformer. Il s'agit d'une sorte d'architecture de base avec des modèles linguistiques qui semblent très bien fonctionner. Le monde du NLP ronronnait lorsque l'on a assisté en 2018 à un coup d'accélération. OpenAI a en effet présenté sa propre variante avec une sorte de modèle de base baptisé GTP ou Generative Pre-Training. Mais au-delà du modèle, il faut évidemment des données. Pour notre expérience, nous allons utiliser GPT-2. "Dehaene: "OpenAI est un labo de recherche en intelligence artificielle fondé comme organisation sans but lucratif. GPT est un modèle, une sorte de construction à étages, un peu comme une maison et ses différentes pièces. Ce modèle était relativement modeste, tant en taille qu'en performances. GPT-2 et GPT-3 sont des prolongements de ce modèle. Précisons qu'OpenAI est américaine et que, selon la bonne vieille tradition US, 'bigger' est toujours 'better'. GPT-2 et GPT-3 comptent nettement plus de couches. C'est ainsi que si GPT-1 était une sorte de bungalow, GPT-2 est un immeuble à appartements et GPT-3 un gratte-ciel. Les modèles sont donc toujours plus grands et ingèrent donc toujours plus de données. Ce n'est pas vraiment révolutionnaire, mais cela fonctionne en tout cas, preuve que 'bigger' est effectivement 'better'. "Matthias Feys (CTO de ML6): "Dans NLP, tout était autrefois scindé en tâches distinctes qui étaient exécutées et suivies séparément. On avait l'analyse des sentiments, la classification des textes, les extractions de caractéristiques, etc. L'idée de GPT-2 est en revanche de tout consolider et, au lieu d'annoter manuellement des textes et de les doter d'étiquettes, le processus est simplement 'unsupervised'. Du coup, il a été possible pour la première fois de travailler sur des textes gigantesques. GPT-2 a représenté une fantastique amélioration par rapport aux modèles Transformer. Ce type de modèle peut opérer largement 'out of the box', comme traduire des termes du français en allemand. Ou résumer un long article en un titre. Ou répondre à une question en se basant sur des données historiques. Et GPT-3 est fondamentalement un énorme pas en avant supplémentaire. Au départ, GPT-3 ne devait pas être lancé en raison du trop grand risque de fausses nouvelles." Dehaene: "Il s'agit là d'une question très pertinente car voilà qui apporte des nuances dans les possibilités. C'est ainsi que GPT-2 est entraîné sur 8 millions de documents, soit 3 milliards de mots, alors que GPT-3 est entraîné sur 500 milliards de mots. Et toutes ces données viennent simplement de l'Internet. On y trouve des tas de documents et de textes, dont des récits et articles très cohérents de médias réputés, mais aussi des aspects moins reluisants du Net. Où l'on partage du contenu parfois douteux de Reddit ou de fora que le citoyen moyen préférerait ne pas connaître ou qui sont moins prudents dans le partage de certaines opinions."Dehaene: "En fait, nous n'en sommes pas certains à 100%. Les documents relatifs à GPT sont ouverts, mais jusqu'à un certain niveau. Lorsque l'on examine ces documents, on s'aperçoit qu'en fin de compte, une sorte de recette miracle y est ajoutée. 'Nous avons filtré les données pour en assurer le niveau qualitatif', explique-t-on notamment. Mais personne ne sait exactement ce qui a été fait pour améliorer le résultat. Ce que nous savons en revanche des personnes qui ont eu accès aux données source, c'est qu'il y a en fait de nombreux biais et des aspects peu clairs. Songez par exemple à des commentaires de personnes sur ces fora, notamment sur leurs voisins. Dans de nombreux cas, il s'agit d'associations respectables - auxquelles on peut s'adresser pour discuter -, mais il y a également des commentaires tout bonnement racistes sur, par exemple, des voisins juifs."Dehaene: "Essentiellement, en effet. Le monde NLP regarde son propre nombril et il s'agit d'une problématique souvent évoquée comme faiblesse. C'est d'ailleurs aussi notre avis. On parle des centaines de langues, mais tout tourne autour de l'anglais."Nous allons donc utiliser un modèle GPT. Et donc comme indiqué ci-dessus un article en anglais. Cependant, nous souhaitons un modèle NL. On pourrait faire une traduction, mais tel n'est pas le but recherché. Dehaene: "Nous avons étudié différentes pistes. GPT-2 fonctionne bien en anglais et on pourrait donc envisager de l'utiliser, mais alors en néerlandais. En d'autres termes, nous utilisons le même modèle dès le départ; nous prenons un jeu de données comparable en termes de taille et nous travaillons comme le fait OpenAI. Bref, des formations extrêmement longues sur des données gigantesques. En fait, cela revient à environ 50.000 a. Or chez ML6, nous ne sommes pas un géant technologique et nous ne disposons donc pas d'un tel montant. Heureusement, nous avons pu collaborer avec le Vlaams Supercomputer Centrum (VSC). Encore que, 50.000 a, c'est pour un passage [un entraînement complet du modèle, NDLR]. Pour obtenir des résultats acceptables, il faut plusieurs passages. Donc un multiple de 50.000 a. A titre d'information, si nous avons travaillé en GPT-3, on parlerait de pas moins de 4,6 millions a par passage. Sachant qu'un seul passage n'est pas suffisant. Pourquoi un tel coût? Beaucoup plus de mots, beaucoup plus de données et donc beaucoup plus de calculs qu'il faut bien payer. "Feys: "Vous avez une question à laquelle vous voulez trouver une réponse: c'est l'apprentissage machine qui vous apporte cette réponse. Si tout était aussi simple, nous n'aurions plus de boulot (rire). Outre la paramétrisation, il faut adapter des hyperparamètres. Et procéder à plusieurs passages. Dans le cas de ce programme, par exemple, la paramétrisation permet de ne pas s'arrêter après 2 jours par exemple. Les hyperparamètres vont par ailleurs adapter le résultat final, ce qui est également très important. Mais en l'occurrence aussi, chaque adaptation exige une nouvelle formation ou un nouveau passage." Dehaene: "C'est pourquoi nous avons décidé de procéder autrement pour cette expérience. Nous avons en effet essayé d'utiliser le modèle GPT-2 actuel. Il s'agit d'un modèle qui a vu le jour en mettant en oeuvre une puissance de calcul nettement plus importante que celle dont on dispose en interne, un élément qu'il est important de souligner. Nous allons affiner le modèle en anglais pour le néerlandais. Nous utilisons donc le modèle anglais performant, ajoutons des jeux de données en néerlandais afin que le modèle qui possède déjà des notions de sémantique, de syntaxe, de conjugaison, de construction de phrases puisse utiliser le 'dialecte néerlandais' comme entrée au lieu du 'dialecte anglais'. Et cette expérience semble avoir relativement bien fonctionné. Le grand avantage est le coût moindre. C'est ainsi qu'un seul passage revient à une centaine d'euros. De plus, il ne faut que quelques jours d'entraînement avec une puissance de calcul relativement modeste. Si nous avons obtenu un résultat relativement bon, c'est selon moi en raison du fait que le néerlandais et l'anglais sont assez similaires en termes de construction. Si nous avions utilisé l'hindi ou le mandarin chinois comme entrée, le résultat aurait sans doute été nettement moins bon.." Dehaene: "Absolument. Il s'agit d'une pierre d'achoppement qui est souvent sous-estimée dans l'effet de mode. Car on considère généralement que si le GPT-3 existe, l'intelligence artificielle est disponible pour tout un chacun et que Skynet est une réalité. Or tel n'est pas le cas. GPT-3 a beau être sophistiqué, il s'agit simplement d'un modèle capable, sur la base de chiffres, de présenter des mots, mais qui ne réfléchit pas ou pas de manière consciente. Il se contente de reproduire. C'est en somme la fameuse expérience 'Chinese room' de John Searle. [Cette expérience visait à démontrer que si un ordinateur se comportait exactement comme un homme, nous ne pourrions pas en déduire que cet ordinateur pense comme un homme, NDLR]. Réfléchir en toute autonomie n'est pas encore pour demain."Entre-temps, nous générons les premiers textes selon un modèle 'autocomplete'. Les résultats sont honnêtes, mais force est d'admettre que nous nous attendions à mieux. Dehaene: "Nous sommes partis d'un petit modèle anglais en y ajoutant des données en néerlandais au niveau de l'entrée. Nous avons intégré le tout dans une interface de données limitée. Ensuite, nous avons pris un modèle anglais plus important en y injectant à chaque fois plus de données en néerlandais et en augmentant les temps d'entraînement. Si nous voulons encore améliorer le modèle, nous devons continuer à travailler sur ces 3 axes: modèle plus grand, davantage de données et un entraînement plus long. L'intensité de travail dépend du cas pratique choisi. Nous estimons que ce que nous avons obtenu peut certainement encore être amélioré dans de futurs projets en néerlandais. En fait, on peut aller aussi long que nécessaire ou souhaité, aussi longtemps que le budget ne constitue pas un frein." Dehaene: "Les données qui servent à l'entraînement sont appelées jeu de données Oscar. Vous avez dit Oscar? N'oubliez pas que le monde NLP s'inspire largement des Muppets où Oscar est le personnage vert qui vit dans une poubelle. Bref, un clin d'oeil à cette émission. Oscar est aussi un corpus public de sites Web indexés. Il y a donc de fortes chances que de nombreux articles de Data News s'y trouvent déjà. Si vous stockez d'emblée les articles de Data News dans ces données, l'amélioration ne sera qu'un feu de paille. Car que représentent quelques centaines ou milliers d'articles face à un jeu de données de millions de documents? Cela dit, il est également possible de partir du modèle de base néerlandais que nous avons construit et que nous allons ajuster. Par exemple la création d'articles pour Data News, la génération d'articles juridiques ou la conception de recettes. Avec de meilleurs résultats. Il est toujours possible d'affiner les modèles et de les orienter dans ces voies concrètes. C'est aussi tout l'intérêt de l'IA et du ML pour une entreprise comme la nôtre. Nous offrons une approche générique que nous adaptons selon nos clients et leurs projets."Dehaene: "Oui, c'est exact. Et quelque part dommage. La tendance actuelle est toujours 'bigger is better', même si dans la NLP, d'aucuns considèrent désormais qu'une telle approche ne va pas forcément déboucher sur une intelligence artificielle de très bonne qualité. La solution ne restera pas toujours comme telle [voir encadré OpenAI, NDLR]. Mais provisoirement, en l'état actuel, c'est le rythme qu'il faut suivre pour continuer à améliorer nos résultats."Force est donc de constater que sans investissements complémentaires, le résultat final ne pourra être sensiblement amélioré. Certes, quelques centaines d'euros permettent de couvrir les frais de conception d'un outil 'autocomplete' basé sur le modèle anglais avec des données entraînées et un résultat en néerlandais. Reste à savoir si la qualité est comparable à celle de l'article d'un journaliste. Feys: "Si vous optez pour un modèle blanc et que vous l'entraînez intensivement, vous risquez de vous retrouver avec des multiples de 50.000 a. Certes, le résultat sera incontestablement meilleur. Mais si l'on y ajoute les coûts de développement pour optimiser réellement le résultat, vous devrez ajouter un facteur 10. "Dehaene: "Si vous voyez donc la quantité d'adaptations à effectuer, je peux vous dire sans crainte de me tromper que votre métier de journaliste n'est pas encore en danger." Feys: (rit) "Il peut s'agir d'une application pratique. Mais pour Data News ou Le Vif par exemple, le jeu n'en vaut pas la chandelle. Proposer du contenu bien structuré et des articles parfaitement corrects sur le plan factuel: un modèle d'IA n'est pas encore en mesure de vous remplacer. Mais faire un résumé automatique d'un match de sport, basé strictement sur les données de jeu enregistrées, voilà qui serait possible car il s'agit plutôt de l'automatisation d'un processus. Si vous pouvez faire quelque chose en 2 secondes sans trop y réfléchir, voilà qui peut en général être traité par l'apprentissage machine. Mais quant à savoir si l'IA et la ML peuvent apporter une touche créative et résoudre le syndrome de la page blanche, la question est posée. Certes, une pression sur un bouton peut générer de nouvelles associations ou jeter des ponts. Créer une sorte de 'sparring partner' ou de copilote qui vous assistera dans la rédaction de l'article. Un peu comme l'IA ne sera pas le médecin du futur, mais l'aidera dans son travail." Deevid De Meyer (fondateur de Brainjar, spécialisée en IA et en apprentissage profond): "Il est faux et fantaisiste d'affirmer que les choses ne changeront pas et que l'IA sera tout au plus un assistant intelligent et ne contribuera pas à la disparition de l'emploi. Surtout compte tenu de la rapidité d'évolution de ces dernières années: qui sait ce que GPT-4 nous réserve? Peut-être que d'ici là, le modèle GPT-3 nous permettra de créer automatiquement une première ébauche basée sur l'enregistrement d'une interview? Mais même dans le scénario de l'assistant intelligent, notre emploi n'est pas forcément assuré. Supposons qu'un magazine classique soit réalisé avec 5 journalistes fixes. Si chaque journaliste parvient à écrire plus rapidement son article grâce à un tel assistant intelligent, a-t-on encore besoin d'autant de journalistes? Non. A mon sens, il est illusoire de continuer à affirmer que l'IA ne fera pas disparaître des emplois."