L’AI de Microsoft capable d’imiter une voix au bout de trois secondes d’audition

© Getty Images

Microsoft est parvenue à recréer synthétiquement une voix au bout de seulement trois secondes d’audition de la voix d’origine. L’outil est à présent développé plus avant.

Après la retouche de photos et les vidéos ‘deepfake’, voici que le son de la voix n’est désormais plus à l’abri de la manipulation. Microsoft présente en effet son modèle AI text-to-speech VALL-E. Sur la base de brefs échantillons de la voix de quelqu’un, le système parvient à lui faire dire n’importe quoi sur le même ton.

Microsoft qualifie son outil de modèle ‘neural codec language’. Alors que la génération vocale classique se faisait en manipulant des ondes sonores, VALL-E génère de subtils ‘audio codec codes’ du texte et de l’acoustique. Il s’agit là de la décomposition et de la synthétisation en petites parties de la manière dont quelqu’un s’exprime.

Ce projet capitalise sur EnCodec, qui avait été annoncé en octobre de l’année dernière par Facebook. Microsoft y voit des applications d’édition audio. Lorsque vous devez par exemple adapter un élément dans un enregistrement ou faire dire à une personne quelque chose qui n’a pas été littéralement exprimé.

Mais les chercheurs impliqués dans le projet sont aussi conscients d’abus potentiels. Voilà pourquoi l’outil ne peut actuellement (encore) pas encore être testé avec votre propre voix. Vous pouvez certes essayer une démo sur Github, où vous trouverez aussi le rapport sur le projet de recherche.

Contenu partenaire