Une base de données pour la reconnaissance faciale semble avoir été simplement rapatriée de Flickr

Els Bellens

13-03-2019, 13:38 Mise à jour le: 17-08-2022, 08:20 Source: DataNews 3 min. de lecture

Ce type d’intelligence artificielle est formée aux visages de personnes qui n’ont jamais donné leur autorisation pour ce faire, selon des groupes de défense du respect de la vie privée, qui ciblent ici la base de données Diversity in Faces d’IBM. Celle-ci semble en effet consister en des photos téléchargées du service de photos Flickr.

En janvier, IBM débloquait une collection d’un million de photos de visages. L’objectif de cette base de données était d’améliorer la diversité lors de l’apprentissage d’algorithmes appelés à se livrer à de la reconnaissance faciale artificielle. La base de données se compose cependant de photos rapatriées de Flickr et ce, à l’insu des photographes et des ‘modèles’.

Le gisement de données Diversity in Faces repose, selon IBM, sur une collection de 100 millions de photos sous licence Creative Commons que Yahoo (l’ex-propriétaire de Flickr) libéra en 2014 à l’attention de chercheurs.

La base de données ne relie pas les photos à des noms, et IBM d’insister dans un communiqué posté sur son blog lors de sa sortie qu’elle a tenu compte du respect de la vie privée des personnes sur les photos. Une partie du problème semble dès lors être due à la réputation même d’IBM, qui vend notamment sa technologie de surveillance à des services de police. Il serait ainsi possible entre autres de procéder à de la recherche ‘ethnique’.

Assez ironiquement, le gisement de données a été lancé en réaction à une enquête préalable, d’où il était apparu que la reconnaissance faciale d’IBM ne donnait guère de résultats satisfaisants au niveau des personnes à couleur de peau sombre. Avec sa nouvelle base de données, IBM entend à présent corriger ce qu’on appelle en jargon les ‘bias’, à savoir les préjugés de l’intelligence artificielle.

On craint cependant à présent que la technologie, qui a été mise au point avec cette base de données, puisse à l’avenir être utilisée pour élaborer une surveillance automatique à la chinoise. Une crainte, qui est surtout très sensible auprès des minorités, qui ont souvent déjà le sentiment d’être davantage prises comme cible par les services de sécurité.

‘Creative Commons’

La base de données d’IBM fait donc l’objet de pas mal de critiques, mais elle est loin d’être la seule. Si la reconnaissance faciale a enregistré ces dernières années du progrès au niveau de sa précision, cela est dû en grande partie aux vastes collections de photos qui circulent sur le net et qui sont utilisées par le personnel académique. Nombre de bases de données sont constituées en effectuant des recherches sur internet, plutôt qu’en demandant ou en payant quelqu’un pour une photo.

Dans ce sens, Flickr est une source intéressante. Le service de photos a offert des années durant un téraoctet d’espace de stockage gratuit aux photographes et dispose actuellement de plus de 400 millions de photos sous licence ‘Creative Commons’. Ce type de licence facilite le partage d’images et autres et impose moins de restrictions que le droit d’auteur plus traditionnel. En général, une licence Creative Commons permet d’utiliser le travail d’autrui, souvent à la condition que cela ne soit pas destiné à des fins commerciales.

Les photos qui ont été utilisées dans la base de données Faces in Diversity, tombent sous le coup de ce type licence Creative Commons. Sur le plan juridique, il n’y a donc probablement pas de quoi fouetter un chat, même si bon nombre des ‘modèles’ n’ont jamais imaginé aboutir un jour dans une base de données de reconnaissance faciale. Les visages dans la base de données ont ainsi par exemple été tagués au niveau du sexe et de l’âge.

L’un des problèmes que pose cette affaire, c’est évidemment que des droits d’auteur ne sont pas vraiment prévus sur une utilisation dans des bases de données d’apprentissage machine. “Nos outils ont été conçus pour résoudre le copyright, ce qu’ils font bien”, précise Ryan Merkley, en charge de l’organisation Creative Commons, au site d’infos Cent. “Mais le copyright n’est pas un bon outil pour ce qui est du respect de la vie privée, de l’éthique de recherche, voire de l’AI de surveillance.”

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici