L’anonymat dans l’analyse de big data est une illusion

. © istock

Les Big Data dont sont supprimées les données personnelles, semblent garantir le respect de la vie privée. Mais il n’est que peu nécessaire de lier des données personnelles à une personne, comme le démontre une étude.

Une équipe de chercheurs du Massachusetts Institute of Technology (MIT) de Cambridge a réussi à pousser tellement loin une banque qu’ils ont pu mettre la main sur des données de transactions avec cartes de crédit. La banque non nommément citée a en effet fourni aux chercheurs un historique de 3 mois de données de transactions d’1,1 million de clients dans 10.000 magasins, restaurants, etc. Le numéro de la carte de crédit et les données d’adresse du titulaire de celle-ci avaient été supprimés, alors que les noms avaient été remplacés par un code insignifiant.

Le risque pour la confidentialité dans ce genre de données se dissimule dans le modèle d’achat des individus qui est unique. L’on n’a besoin que de très peu de renseignements au sujet d’une personne pour l’associer aux données anonymes de la banque de données. La connaissance de l’endroit où la personne se trouvait à quatre moments correspondant aux données présentes dans le réservoir de la base de données, suffit dans 90 pour cent des cas pour identifier le titulaire de la carte de crédit dans la base de données. Si l’on connaît en outre le montant dépensé à l’occasion, l’on peut identifier quasiment tout le monde dans la base de données avec seulement trois fragments d’information. L’on peut cependant compliquer l’analyse en agrégeant dans le réservoir des données les achats par jour ou par semaine. Il n’est alors pas impossible d’identifier les personnes, mais cela nécessite davantage d’informations externes.

Prudence de mise

Les chercheurs savent suffisamment bien qu’il n’est pas question de plaider en faveur d’une interdiction de l’analyse Big Data. Mais l’étude montre bien qu’il faut être extrêmement prudent avec les Big Data, selon le responsable de la recherche Yves-Alexandre de Montjoye. Alors que des informations personnelles sensibles sont impliquées, le partage public d’ensembles bruts de données n’est pas la voie à suivre dans le futur. Ces ensembles de données ne doivent être libérés pour analyse que si l’accès aux enregistrements individuels et l’analyse de corrélation avec des données externes sont bloqués, selon lui.

De Montjoye et son équipe ont publié les résultats de leur recherche dans Science.

Source: Automatiseringgids.

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici

Contenu partenaire