La fondation BREIN met hors ligne un vaste ensemble de données sur l’IA en langue néerlandaise

Green Colored Scissors Cut Curved Green Rope on Beige Background Directly Above View. © Getty Images

La fondation BREIN, l’organisation néerlandaise de lutte contre le piratage, a veillé à ce qu’un vaste ensemble de données en langue néerlandaise soit mis hors ligne. Les données ont été utilisées pour former des modèles d’intelligence artificielle (IA).

Suite à un renseignement, la fondation a découvert que l’ensemble des données était constitué de copies illégales de dizaines de milliers de livres, de millions de lignes d’articles de presse provenant de sites web tels que nu.nl et de sous-titres d’innombrables films et séries télévisées issus de sources illégales.

L’auteur de ce gisement de données a signé une déclaration, par laquelle il promet de ne plus enfreindre les règles et a fourni des informations sur la personne qui a reçu l’ensemble des données. BREIN examine actuellement quels modèles d’IA ont utilisé cet ensemble de données et prendra ensuite contact avec les parties concernées.

La fondation, qui protège les auteurs, artistes, éditeurs, producteurs et distributeurs des offres illégales, milite contre l’utilisation illégale de l’IA. Le directeur de BREIN, Bastiaan van Ramshorst, affirme avoir recherché dans l’ensemble de données le texte littéral suivant: ‘Rien dans cette publication ne peut être reproduit’. Selon lui, cela a donné plus de 10.000 résultats. ‘A chaque fois, il s’agissait de livres copiés illégalement. Les articles de presse ont également été copiés à partir de sites web soumis à des restrictions de droits d’auteur. Cela montre clairement que les droits d’auteur n’ont pas été respectés, ce que nous appelons aussi un flagrant délit’, déclare Van Ramshorst.

Le vaste ensemble de données a été compressé afin qu’il soit facile à utiliser par les modèles informatiques d’IA. Même si le gisement de données n’est pas directement adapté aux consommateurs sous forme de livre électronique ou de site web d’information, cela n’est pas autorisé. La copie et donc l’extraction de données à partir de sources illégales ne sont jamais tolérées. Selon BREIN, l’autorisation des titulaires des droits d’auteur est également requise pour l’extraction de données de sources juridiques avec une réserve de droit d’auteur. L’extraction de données implique l’examen et l’analyse de grandes quantités d’informations pour découvrir des modèles et des tendances.

Contenu partenaire