A propos du caractère anonyme des données des terminaux mobiles

La prolifération des échanges de données entre téléphones portables munis de capteurs peut permettre de développer des applications utiles socialement. Il est par exemple possible d’utiliser les propriétés de ces flux en planification urbaine, en épidémiologie, et pour la recherche, d’une façon générale. Avant d’être données aux chercheurs, les données sont dépouillées de leurs renseignements d’identification. Mais l’expérience montre qu’il est difficile de protéger l’identité d’un utilisateur de téléphone cellulaire dans un ensemble de données venant de centaines de millions d’utilisateurs.

Le Groupe de recherche Hidalgo du MIT s’est spécialisé dans l’application des outils de la physique statistique à un large éventail de sujets, allant des réseaux de communication à la génétique ou à l’économie. Dans ce cas, il a pu utiliser ces outils pour mettre en évidence une relation mathématique simple entre la résolution des données spatio-temporelles et la probabilité d’identifier un élément au sein d’un ensemble de données.

Dans l’ensemble de données analysées par les chercheurs, l’emplacement d’un téléphone portable a été déduite de celle de la tour de téléphonie cellulaire auquel il était connecté, et le moment de la connexion a été déterminé à une heure près. Chaque portable a un numéro unique d’identification généré de manière aléatoire, de telle sorte que son mouvement peut être tracé dans le temps. Mais il n’y avait aucune information reliant ce nombre au propriétaire du téléphone.

Les chercheurs ont analysé les données échangées par 1,5 millions d’utilisateurs de téléphones portables pendant une période de 15 mois. Ils ont constaté qu’il suffit de seulement quatre points de référence, avec des résolutions spatiale et temporelle relativement faibles, pour identifier 95 % d’entre eux. Dans le pire des cas, onze mesures auraient été nécessaires. Les chercheurs estiment que des relations similaires pourraient s’étendre à la navigation web.

En d’autres termes, pour extraire les informations de localisation complètes relatives à une personne à partir d’un ensemble de données « anonymes » échangées par plus d’un million de personnes, il suffit de placer celle-ci à proximité d’un émetteur, pendant une heure, quatre fois par an. Quelques messages en provenance de Twitter peuvent être suffisants pour permettre de l’identifier.

Selon la théorie, la probabilité d’identifier quelqu’un tend vers zéro si la résolution des mesures diminue, mais en réalité, beaucoup moins qu’on ne l’imagine. Des imprécisions de temps de l’ordre de 15 heures, ou de sites définis avec une précision de l’ordre de 15 cellules adjacentes, permettent néanmoins l’identification de la moitié des personnes de l’échantillon.

Bien que les résultats de cette étude puissent sembler décourageants, les chercheurs espèrent que leurs travaux pourraient aider les régulateurs dans la définition des garanties de confidentialité qui doivent être observées en matière de données de localisation agrégées.

Pour en savoir plus

www.innovationtoronto.com/

© 2015 Strategies Telecoms & Multimedia | Contact |  -