Nvidia forme l’IA avec YouTube et Netflix
Nvidia prépare son propre modèle d’IA pour lequel elle extrait des vidéos de Netflix et surtout de YouTube. L’entreprise n’y voit aucun inconvénient, tout le contraire des acteurs qui se voient ainsi emprunter du contenu de manière non sollicitée.
Des documents internes de Nvidia que 404 Media a pu consulter, montrent que Nvidia récupère des vidéos de Netflix, YouTube et d’autres sources encore pour les utiliser en vue de former ses modèles d’IA. Il s’agit là d’un système de fondation vidéo inédit portant le nom de travail interne Cosmos.
Cela ne s’est pas fait par hasard ou de manière limitée. 404 Media a pu consulter des courriels, documents internes et messages de chat de Nvidia et découvrir ainsi comment Nvidia a recours à un téléchargeur de vidéos YouTube open source. Des dizaines de machines virtuelles sont utilisées dans AWS, dont l’adresse IP est constamment renouvelée pour éviter le blocage. La méthode a été approuvée au plus haut niveau de l’entreprise, selon les messages consultés.
Nvidia emprunterait du contenu à la fois de Netflix et de YouTube, mais surtout de cette dernière. Nvidia collecterait chaque jour ainsi l’équivalent de quatre-vingts années d’images vidéo sur YouTube. Du point de vue technique, le ‘scraping’ consiste par exemple à réaliser un enregistrement d’écran pour en copier l’image. Même si cela fait également référence au téléchargement de vidéos avec des outils externes.
Est-ce autorisé?
404 Media a posé la question à Nvidia qui ne nie pas les faits. Bien qu’elle réponde simplement que cela se fait ‘en totale conformité avec la lettre et l’esprit de la loi sur le droit d’auteur’.
Les acteurs dont les vidéos sont utilisées, ont une toute autre opinion sur le sujet. Netflix affirme n’avoir conclu aucun accord avec Nvidia en la matière et que ses conditions d’utilisation n’autorisent pas le scraping.
Google renvoie à un commentaire antérieur du CEO de YouTube, Neal Mohan, à propos de Sora, le générateur vidéo d’OpenAI, qui avait à l’époque déclaré que si ce système utilisait un jour des vidéos YouTube à des fins de formation, cela constituerait une violation flagrante des conditions d’utilisation de YouTube.
Pas nouveau, mais à grande échelle
Il n’est pas étonnant que des acteurs d’IA utilisent pleinement les données de plates-formes de contenus populaires et de grande envergure. Cela est apparu à plusieurs reprises ces derniers mois. On a ainsi récemment vu qu’Anthropic, Apple, Nvidia, Salesforce et Bloomberg, entre autres, utilisaient un ensemble de données regroupant plus de 173.000 vidéos. Même si les messages de 404 Media semblent indiquer que cela s’est fait de manière beaucoup plus structurelle chez Nvidia.
La question est de savoir comment les différents acteurs vont réagir. Si une entreprise d’IA lance demain un outil performant conçu à partir des données d’un tiers, cela ouvrira la porte à des poursuites judiciaires, à des réclamations en dommages et intérêt, et probablement à de longues négociations pour savoir qui obtiendra quelle part du gâteau. Certains diront que le contenu public est libre d’utilisation, alors que d’autres insisteront sur le fait que ce n’est pas le cas et que les données doivent être payantes.
Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici