Microsoft peut désormais créer un deepfake d’une photo et d’un fichier audio

Els Bellens

22-04-2024, 11:37 Mise à jour le: 22-04-2024, 11:38 Source: DataNews < 1 min. de lecture

Microsoft Research Asia a présenté son modèle d’IA VASA-1 qui permet de créer une vidéo animée d’une personne sur base d’une simple photo et d’un fragment d’audio.

Le modèle est proposé comme un moyen de créer des avatars réalistes, tels que des messages vidéo. ‘Cela ouvre la porte à des rendez-vous en temps réel avec des avatars réalistes qui émulent les comportements conversationnels humains’, selon le rapport de recherche qui l’accompagne. Il pourrait évidemment aussi être utilisé pour faire dire ce que vous voulez à n’importe qui.

La structure VASA recourt à l’apprentissage automatique pour analyser une image statique, puis en créer des images vidéo réalistes. Le modèle d’IA ne clone pas les voix, mais procède à de l’animation en fonction du contenu audio existant. Dans le cadre d’un scénario possible, vous pourriez ainsi enregistrer un message audio, puis l’animer de manière réaliste pour un avatar. Le modèle d’IA y ajouterait des gestes de la tête, des tics et d’autres comportements réalistes.

Deepfakes

En soi, la réalisation de deepfakes (hyper-trucages) n’est pas nouveau. La plupart des technologies existantes reposent toutefois sur plusieurs photos ou des fichiers vidéo plus longs. Utiliser une simple photo pour y ajouter ensuite des émotions et d’autres comportements est par contre assez inédit. Le modèle VASA-1 semble également se distinguer dans la synchronisation des lèvres et l’affichage de tics (génériques) et de mouvements de la tête. Pour sa formation, Microsoft Research s’est basé sur l’ensemble de données VoxCeleb2, une série d’un million de clips vidéo environ de plus de six mille célébrités, extraits de diverses vidéos YouTube.

Le code du modèle ne sera pas publié pour le moment, en partie parce que VASA-1 pourrait être abusé. Surtout en combinaison avec une voix clonée, des personnes mal intentionnées pourraient l’utiliser pour trafiquer des réunions vidéo et ainsi tenter d’extorquer de l’argent, par exemple. Le danger de la désinformation n’est jamais loin non plus.

Lire plus de: