Microsoft est l'une des firmes qui fait le plus entendre sa voix dans le débat sur la reconnaissance faciale et sur la façon dont les entreprises technologiques peuvent trouver un juste équilibre entre l'éthique et le profit. L'entreprise a appelé à une réglementation en la matière et a récemment encore annoncé avoir rejeté une demande de la police californienne en vue d'installer la reconnaissance faciale dans les voitures et les caméras portables.

Ce qui Microsoft n'a pas encore introduit dans ce débat, c'est sa propre base de données publique permettant de former les logiciels de reconnaissance faciale. C'est l'artiste-chercheur Adam Harvey qui a attiré l'attention sur son existence. Avec son projet Megapixels, il examine les implications de ce genre de gisement de données sur le respect de la vie privée. Le principal gisement de données publiquement disponible au monde est MS-Celeb. Cette base de données, qui a été mise en ligne il y a trois ans par Microsoft, contient quelque dix millions de photos de quasiment cent mille personnes - surtout des célébrités.

Et ce, même si le terme 'celebrity' dans MS-Celeb dépasse la signification que lui donne Hollywood, comme le fait observer Harvey. La base de données inclurait non seulement des photos d'acteurs américains et britanniques, mais aussi de fonctionnaires, journalistes, personnalités académiques, artistes, voire d'activistes qui se montrent critiques à l'égard de la surveillance. Toutes ces photos ont été déposées sous ce qu'on appelle une 'creative commons licence' permettant leur utilisation à des fins académiques. Les personnes concernées n'ont cependant pas été informées du fait que leurs photos allaient être utilisées pour mettre au point du software de reconnaissance faciale.

Le Financial Times est allé fouiner dans des rapports scientifiques sur l'AI pour savoir quelles entreprises commerciales utilisent MS-Celeb. Le journal mentionne notamment IBM, Panasonic, Alibaba, Nvidia, Hitachi, Sensetime et Megvii. Les deux dernières entreprises fournissent de l'équipement à des fonctionnaires à Xinjiang, une région du nord-ouest de la Chine, où la reconnaissance vocale est utilisée pour organiser une répression automatisée contre les musulmans ouïghours qui habitent là.

Quelques jours après que le Financial Times ait publié un article à ce propos - en avril -, Microsoft a mis discrètement offline la base de données publique. "Le site web était destiné à des fins scientifiques", réagit à présent l'entreprise dans le journal. MS-Celeb a été mise hors ligne, "parce qu'elle était gérée par un collaborateur qui ne travaille plus chez Microsoft." Deux autres gisements de données qu'Harvey était en train d'examiner, l'un de la Duke University et l'autre de la Stanford University, ont également été supprimés.

Le fait que Microsoft mette à présent offline le site web connexe, ne signifie pas que le gisement de données n'existe plus, fait observer Harvey. "On ne peut pas faire disparaître ainsi un gisement de données. Dès qu'on le place en ligne et que des gens se mettent à le télécharger, le gisement de données continue d'exister sur des disques durs dans le monde entier", déclare-t-il dans le Financial Times. Sur son site web, il montre que des parties de MS-Celeb peuvent encore être téléchargées via GitHub.