D’importants acteurs technologiques utilisent YouTube pour la formation en IA

Pieterjan Van Leemputten

17-07-2024, 12:36 Mise à jour le: 17-07-2024, 12:37 Source: Data News 3 min. de lecture

Des acteurs comme Anthropic, Apple, Nvidia, Salesforce et Bloomberg ont utilisé plus de 170.000 vidéos YouTube pour former leur propre IA. Cela s’est produit sans l’autorisation de YouTube ou des auteurs des vidéos.

Cela concerne spécifiquement le sous-titrage des vidéos. Celles-ci aident les systèmes d’IA à s’améliorer pour générer à la fois des vidéos et du texte, ou pour transcrire ou résumer automatiquement des vidéos. Il est dans ce cas utile que la collection de vidéos contienne différents accents, termes dialectaux ou de l’argot soigneusement intégrés aux sous-titres.

Concrètement, il est question de 173.536 vidéos, en langue anglaise pour autant qu’on le sache, réparties sur 48.000 canaux. La liste comprend des YouTubers populaires tels que MrBeast et Marques Brownlee, mais aussi des conférences TED, des cours du MIT et de Harvard, des fragments d’actualités de la BBC ou des talk-shows tels que The Late Show et Last Week Tonight.

Données récupérées

La découverte a été faite par Proof News, qui a collaboré avec Wired pour ses recherches. Cela a débouché sur une organisation à but non lucratif appelée EleuterhAI, qui possède un ensemble de données dénommé ‘the Pile’. Elle inclut des données de YouTube, mais aussi de Wikipédia, du Parlement européen, voire des courriels de la défunte société énergétique Enron qui ont été rendus publics lors de la procédure de faillite.

Données collectées

Cet ensemble de données (accessible au public) a été utilisé par diverses entreprises technologiques, mais également par la société de médias Bloomberg. Il n’a pas été facile de le savoir, mais Proof News affirme avoir pu déterminer qu’il s’agissait de ‘the Pile’ grâce à de vagues descriptifs des entreprises impliquées sur l’origine de leurs données de formation (comme par exemple ‘un ensemble de données de 800 Go’).

Les sous-titres de YouTube étaient en principe rendus anonymes, mais Proof News a quand même pu relier les numéros d’identification anonymisés des vidéos ou de leurs canaux et ainsi déterminer avec certitude quelles vidéos avaient été utilisées pour constituer l’ensemble de données. Proof News a également créé un outil permettant de vérifier si une vidéo avait été utilisée dans l’ensemble de données.

Pas selon les règles

Anthropic, connue pour le chatbot Claude, et Salesforce ont confirmé à Proof News avoir utilisé l’ensemble de données en question. Nvidia affirme de son côté n’avoir aucun commentaire à faire. D’autres comme Apple, Nvidia et Bloomberg n’ont même pas pris la peine de répondre aux questions.

Collecter des sous-titres pour former l’IA est contraire aux règles de YouTube. Un porte-parole de Google a déclaré à Proof News que son entreprise prenait des mesures à cet égard depuis des années déjà, même s’il n’est pas entré dans les détails sur l’utilisation spécifique des sous-titres pour la formation à l’IA.

C’est aussi un problème éthique. Parce que les créateurs ou les dépositaires de vidéos n’en ont jamais été informés, et encore moins donné leur autorisation à utiliser leur travail pour la formation en IA. A titre de comparaison, Meta a récemment voulu utiliser les données publiques de Facebook et Instagram pour l’IA. En Europe, elle a dû cesser, parce qu’elle faisait l’objet de questions de la part des autorités chargées de la protection de la vie privée. Cela se produit actuellement aux Etats-Unis, ce qui suscite aussi la critique, mais les utilisateurs en ont bel et bien été informés.

L’attitude de certaines grandes entreprises technologiques peut être considérée à tout le moins comme flexible. Il y a moins d’un mois, Mustafa Suleyman, le directeur de Microsoft AI, annonçait que le contenu librement accessible sur internet pouvait être utilisé pour la formation de l’IA.

C’est clairement faux. Ce n’est pas parce qu’un texte, une vidéo ou un fragment audio peuvent être librement visualisés/écoutés qu’ils sont également libres de droit d’auteur ou qu’ils peuvent être utilisés à des fins commerciales, surtout sans autorisation.

L’IA face à l’homme

Cette découverte est singulière, mais pas totalement surprenante. Les grands modèles d’IA doivent être formés sur d’énormes quantités de données, et il a été démontré à plusieurs reprises que les acteurs de l’IA s’appuient sur des données accessibles au public sur internet. Certains acteurs comme OpenAI ont également signé des accords avec des sociétés de médias pour pouvoir utiliser leurs données, mais pas – et de loin – avec chaque entreprise ou individu dont ils utilisent du texte, des vidéos ou de l’audio pour la formation.

Cela crée un cadre social très agité. Les entreprises qui utilisent à présent ces données pour former leurs systèmes, réalisent des milliards de chiffre d’affaires, enregistrent d’importants bénéfices ou une forte valeur boursière grâce à leurs capacités d’IA, alors qu’elles ne paient pas pour (toutes) les données de formation.

Mais l’IA s’améliore et se renforce également chaque trimestre qui passe, ce qui signifie qu’une grande partie du travail des esprits créatifs peut être prise en charge par l’IA. Créer des images fixes ou animées avec l’IA s’avère beaucoup moins cher et plus rapide que d’embaucher un dessinateur, un photographe ou une équipe vidéo. Beaucoup craignent de perdre des revenus, parce que leur travail est (en partie) remplacé par l’IA, qui à son tour a été formée à partir d’œuvres antérieures de ces esprits créatifs.

Lire plus de: