Quand le traitement de la vidéo devient aussi facile que celui du texte

© Fried et al.
Pieter Van Nuffel Journalist DataNews

La technologie ‘deepfake’ (hyper-trucage), par laquelle l’intelligence artificielle est utilisée pour créer de fausses vidéos, a encore évolué. Désormais, un clavier suffit pour mettre des paroles dans la bouche de quelqu’un.

Il était depuis assez longtemps déjà possible de générer de fausses vidéos au moyen de l’intelligence artificielle. Après le lancement d’un petit outil gratuit permettant d’échanger des visages dans des films, les premières vidéos ‘deepfake’ ont commencé à circuler sur le web. Ce genre de vidéo était notamment utilisé pour mettre des paroles dans la bouche de célébrités, en faisant prononcer le texte par quelqu’un d’autre.

Des chercheurs de la Stanford University, du Max Planck Institute, de la Princeton University et d’Adobe Research sont à présent parvenus à faire de même, mais sur base de texte. Les scientifiques ont procédé à la démonstration de la façon dont ils font prononcer par quelqu’un la fameuse réplique entendue dans Apocalypse Now: “I love the smell of napalm in the morning (‘j’aime l’odeur du napalm au petit matin’), après quoi ils traitent le texte. “I love the smell of french toast in the morning”, dit la même personne dans la vidéo traitée.

L’affichage de ce contenu a été bloqué pour respecter vos choix en matière de cookies. Cliquez ici pour régler vos préférences en matière de cookies et afficher le contenu.
Vous pouvez modifier vos choix à tout moment en cliquant sur « Paramètres des cookies » en bas du site.

Dans la vidéo originale, l’algorithme recherche des sons comparables (phonèmes) et les regroupe, jusqu’à ce qu’ils forment le texte que vous voulez faire prononcer par quelqu’un. En même temps, l’algorithme recherche aussi les mouvements correspondants de la bouche. En y appliquant plusieurs réseaux neuraux, tout est parfaitement amalgamé jusqu’à constituer une vidéo impeccable. De cette manière, il est possible de remplacer, supprimer ou ajouter toutes sortes de paroles dans une vidéo. La technologie permet également de faire dire à quelqu’un quelque chose dans une autre langue.

Si seules quelques paroles sont remplacées, il est malaisé d’encore distinguer la vidéo traitée de l’originale. Cela nécessite cependant quarante minutes de contenu vidéo original. Créer une vidéo réaliste, dans laquelle des phrases complètes sont remplacées, n’est pas encore possible maintenant. Les chercheurs appellent leur travail une “première étape importante” vers “un traitement entièrement basé sur du texte et une synthèse du contenu audiovisuel global”.

La technique pourrait être utilisée à l’avenir pour le finissage de films. Si un acteur commet un lapsus ou s’il y a une modification dans le script, il faut de nouveau enregistrer ou passer à un traitement manuel par la suite. Cela prend beaucoup de temps, alors qu’avec cette technique, les petites erreurs peuvent être corrigées très facilement.

De plus, cette technologie facilite encore la réalisation de vidéos factices dans le but de répandre de fausses informations. Les chercheurs déclarent sur un blog être préoccupés par ce type d’abus. En rendant publics leurs résultats, ils veulent amplifier la conscientisation des techniques de traitement vidéo, afin que les visionneurs deviennent plus critiques. Ils signalent en outre que la communauté AI se doit de développer des techniques en vue d’identifier les vidéos manipulées.

Le rapport, intitulé ‘Text-based Editing of Talking-head Video‘, sera publié ce mois-ci dans la revue scientifique ACM Transactions on Graphics. Les résultats seront présentés le mois prochain lors de la conférence SIGGRAPH à Los Angeles.

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici

Contenu partenaire