Quatre transactions avec votre carte de crédit peuvent révéler votre identité
Source : Trends, Arnaud Martin, 19/03/15
C’est ce qu’a découvert un chercheur Belge du MIT. Selon Yves-Alexandre de Montjoye, il serait judicieux de repenser la façon dont les bases de données transactionnelles sont utilisées.
L’étude menée par le Massachussetts Institute of Technology (MIT) et publiée dans la prestigieuse revue Science révèle des résultats plutôt inquiétants. Sur base de quatre transactions réalisées par carte de crédit, il est possible d’identifier n’importe qui dans une base de données apparemment anonyme. Par anonyme, on entend une base de données ” brutes “, de laquelle on a retiré toutes les informations privées concernant les titulaires de cartes de crédit (nom, prénom, adresse, numéro de compte, etc.) permettant de les identifier.
Comment est-ce possible ? ” C’est assez simple en fait, explique Yves-Alexandre de Montjoye, le chercheur à la base de l’étude. Un schéma de quatre transactions différentes est 90% du temps unique. Ce qui fait qu’on parvient presque à chaque fois à retrouver la personne. Le fait de retirer les noms et prénoms des gens, leur adresse ou encore leur numéro de compte des bases de données n’est donc pas suffisant pour leur garantir leur anonymat. ”
Métadonnées
Un fait d’autant plus inquiétant que le nombre de bases de données ne cesse d’augmenter (carte bancaire, de fidélité, téléphone..). L’ensemble de la population se retrouve en fait consignée dans un nombre assez restreint de bases de données. ” Par exemple, un pays va rassembler tous ses utilisateurs de téléphones portables dans seulement trois ou quatre bases de données (qui correspondent au nombre d’opérateurs) “, pointe le chercheur d’origine liégeoise.
Une fois le profil repéré parmi toutes les métadonnées, il est possible de mettre un nom sur la personne, en croisant les données anonymes récoltées avec d’autres bases de données, publiques cette fois, où les noms et prénoms sont indiqués. ” On peut par exemple utiliser une plateforme comme Foursquare, où les gens laissent des commentaires sur des restaurants et des bars, ou même Facebook”, explique Yves Alexandre de Montjoye.
Pour effectuer ses recherches, l’équipe de chercheurs a mené son étude sur une base de données de 1.1 millions de personnes, récoltées sur trois mois. ” Elle nous a été fournie grâce à un partenariat avec une banque pour cette étude “, précise le chercheur belge.
Identifiable même avec des données peu précises
Retrouver quelqu’un est encore plus facile si le montant approximatif de la transaction est connu. Le taux de réidentification atteint alors les 94% et seules trois transactions sont nécessaires.
L’étude va encore plus loin. Selon les chercheurs, l’identification reste encore largement possible même si les informations sont moins précises. ” Avec cinq ou six transactions, on parvient à obtenir des résultats équivalents avec des données moins précises, comme simplement une zone d’achat ou un délai de quelques jours plutôt qu’une date précise “, assure Yves-Alexandre de Montjoye.
Les résultats ont également pu permettre d’observer que les femmes sont environ 20% plus facilement identifiables que les hommes. Les hauts revenus sont, eux, 75% plus souvent retrouvés. “On ne l’explique pas. Il faudrait d’autres études pour comprendre pourquoi ces différences existent “, précise le chercheur.
L’anonymat parfait ? Impossible
Pour le scientifique, l’étude montre qu’il est probablement nécessaire de repenser la législation qui entoure la collecte et l’usage des données. Yves-Alexandre de Montjoye estime aussi qu’il est nécessaire de clairement expliquer non seulement les risques mais aussi le potentiel que représentent les bases de données. ” D’un côté, on prouve qu’un anonymat parfait est quasiment impossible à obtenir dans les bases de données transactionnelles. D’un autre côté, ces bases de données peuvent s’avérer très utiles : elles sont par exemple utilisées pour combler les lacunes de certains pays d’Afrique en matière de recensement de la population, ou encore pour améliorer la lutte contre le virus Ebola”.
Pour le chercheur, il existe toutefois des solutions pour utiliser ces bases de données tout en respectant la vie privée des gens. L’idée est de ne jamais travailler avec les données ” brutes ” (comme c’est souvent le cas aujourd’hui) mais plutôt de permettre à des entreprises d’utiliser des données ” filtrées ” par une interface de questions-réponses appelée SafeAnswers. Les entreprises qui voudraient l’utiliser auraient alors à leur disposition uniquement les ” réponses ” utiles à leurs demandes.
” Ce schéma de questions-réponses permet de transformer un problème de protection de la vie privée en un problème de sécurité de base de données, en limitant, par exemple, le nombre de questions que peut poser une entreprise “, conclut le chercheur.
Retrouvez notre dossier complet sur La fin de la vie privée dans le magazine Trends-Tendances de cette semaine.
Arnaud Martin
Source : Trends, Arnaud Martin, 19/03/15
Voir aussi : Unique in the shopping mall : On the reidentifiability of credit card metadata
Annexe (source) :
Il ne s’agit pas d’un premier effort de recherche pour identifier les faiblesses des méthodes standard de désidentification des informations sensibles sur les personnes.
Dans une étude réalisée en 2008, deux informaticiens, Arvind Narayananan et Vitaly Shmatikov, ont signalé qu’ils avaient été en mesure de réidentifier certains utilisateurs de Netflix dans une base de données de dossiers de clients anonymes que l’entreprise avait mis à la disposition des chercheurs en concurrence pour améliorer le moteur de recommandation de l’entreprise.
Dans une étude réalisée en 2013, Latanya Sweeney, informaticienne à Harvard, a démontré que les chercheurs étaient en mesure de réidentifier les patients par leur nom dans un ensemble de données d’hospitalisation soi-disant anonymes rendues publiques par l’État de Washington.
Et l’automne dernier, un journaliste de Gawker a été en mesure de réidentifier Kourtney Kardashian, Ashlee Simpson et d’autres célébrités dans une base de données “anonymisée” des dossiers des déplacements en taxi rendue publique par la Taxi and Limousine Commission de New York.
Si les entreprises ou les institutions doivent continuer à rendre ces types d’ensembles de données largement disponibles, elles doivent attester quantitativement des risques de réidentification, ont écrit les chercheurs dans l’étude dans Science.
“L’absence de noms, d’adresses personnelles, de numéros de téléphone ou d’autres identificateurs évidents d’un ensemble de données “, écrivent-ils, ” ne rend pas anonyme ni sécurisée la divulgation au public et à des tiers “.
Unique in the shopping mall: On the reidentifiability of credit card metadata, by Yves-Alexandre de Montjoye
Source : Science mag, Yves-Alexandre de Montjoye, 30-01-2015
via » Quatre transactions avec votre carte de crédit peuvent révéler votre identité