Les fournisseurs de données destinées aux gestionnaires d’actifs se sont multipliés ces dernières années. Alors que les gérants de fonds systématiques ou quantitatifs constituaient précédemment le cœur de leur clientèle, une grande partie du secteur s’y intéresse désormais de plus près. Ces fournisseurs proposent un large éventail d’ensembles de données, qu’il s’agisse de cargaisons et flux de matières premières dans le monde ou de prévisions de rendements agricoles calculées sur la base d’images satellite. D’autres vendeurs proposent des données contenant des renseignements personnels sensibles, comme par exemple des dossiers de cartes de crédit ou des données de localisation.
Les données sensibles de cette nature peuvent intéresser les gestionnaires d’actifs, car leur analyse est susceptible de révéler des tendances et des comportements de consommation. Mais ce sont les grandes tendances en tant que telles, et non les renseignements spécifiques concernant les personnes, qui peuvent apporter des informations utiles pour investir. Dans les domaines autres que la finance, il existe des cas dans lesquels l’utilisation de données sensibles peut être légitime car susceptible de contribuer au bien public. La planification urbaine peut ainsi bénéficier de l’analyse de données permettant d’identifier les déplacements des personnes. Il ne faut toutefois pas sous-estimer le risque d’une utilisation à mauvais escient. C’est la raison pour laquelle Winton a pour politique de ne pas acheter des données qui pourraient permettre d’identifier des personnes physiques sans leur autorisation.
Une solution serait de développer une méthode permettant de protéger la confidentialité des données personnelles sans affecter les schémas et tendances sous-jacents des ensembles de données concernés. C’est pourquoi Winton a lancé une étude de protection différentielle des données personnelles avec des chercheurs de l’Université de Californie à Berkeley.
Les méthodes traditionnelles de protection de la confidentialité des données
Les entreprises sont généralement conscientes de leur obligation morale et réglementaire de protéger la confidentialité des personnes dans le cadre de l’utilisation d’ensembles de données et la plupart s’efforcent de bonne foi de le faire. Une méthode courante consiste à supprimer les données à caractère personnel (DCP, ou PII en anglais pour personally identifiable information) des ensembles de données concernées. Le tableau ci-dessous présente un exemple simplifié : les noms sont supprimés, les codes postaux en partie camouflés et les âges regroupés par tranche.
| NOM | CODE POSTAL (domicile) | age | code postal (travail) | salaire |
|---|---|---|---|---|
| XXXXXX | 94*** | 20-29 | 94*** | 123k |
| XXXXXX | 34*** | 40-49 | 34*** | 143k |
| XXXXXX | 91*** | 20-29 | 92*** | 73k |
| XXXXXX | 12*** | 30-39 | 12*** | 151k |
Il s’agit toutefois d’une approche naïve, car dans ce cas, même après suppression des renseignements manifestement sensibles, il peut encore être possible d’identifier certaines personnes. En effet, un nombre limité de renseignements de base, comme par exemple le code postal, le sexe, l’âge ou le modèle de voiture, permettent souvent de ramener l’identification à un groupe restreint de personnes.
Même lorsque les données ne contiennent pas suffisamment d’informations pour révéler l’identité d’une personne, il peut suffire de les combiner à d’autres ensembles de données pour faire apparaître des renseignements sensibles. Ce n’est pas une préoccupation purement théorique. En 2014, des responsables municipaux de la ville de New York ont publié des données anonymisées sur les courses en taxi dans la ville. En croisant ces données publiques avec des photos de célébrités prises alors qu’elles prenaient un taxi et publiées sur des sites people, il était possible d’associer leur identité à des courses enregistrées dans la base de données et de révéler des informations détaillées sur les destinations demandées et les tarifs payés par plusieurs célébrités.
Parmi les autres informations pas si anonymes que cela publiées par le passé, on trouve des dossiers médicaux, des préférences cinématographiques ou les requêtes faites sur des moteurs de recherche par des particuliers. Bien qu’il existe des méthodes un peu plus sophistiquées d’anonymisation des données, comme par exemple la k-anonymisation, toutes les méthodes traditionnelles ont montré qu’elles pouvaient être vulnérables face à des tentatives de violation de la confidentialité des données.
La protection différentielle des données
La protection différentielle part du principe que l’ajout des données personnelles d’un individu dans une base de données ne devrait pas modifier de manière significative le résultat des requêtes ou analyses effectuées sur cette base de données. Cela correspond globalement à l’idée que les gens se font de la notion de confidentialité, à savoir que leurs données ne puissent pas être isolées au sein d’un grand nombre de données.
Le mécanisme de protection différentielle de la confidentialité consiste à brouiller délibérément les données en y ajoutant des informations supplémentaires, en d’autres termes, des erreurs volontaires, appelées « noise » en anglais, de façon à ce que même s’il était possible de récupérer les informations concernant une personne en particulier, il ne serait pas possible de savoir si ces informations sont pertinentes ou non.
Une caractéristique essentielle de cette méthode est que même si des informations erronées sont introduites dans les données, elles s’annulent globalement entre elles lorsque les données sont agglomérées. Prenons un exemple dans lequel l’information souhaitée est le nombre de personnes ayant visité un parc. La protection différentielle pourrait produire un comptage approximatif à des fins de planification urbaine. En revanche, les données se rattachant à un visiteur précis ne seraient pas suffisamment fiables pour signaler sa présence dans le parc.
La protection différentielle des données repose sur un cadre mathématique solide qui utilise les probabilités et les statistiques. Lorsque l’analyse des données est un simple comptage, le mode de brouillage utilisé repose sur une loi de distribution appelée loi de Laplace. Cette loi a une variable proportionnelle à l’écart type de la dispersion qui permet de doser le niveau de « brouillage ».
Pour un budget donné de confidentialité, qui détermine le nombre de fois qu’une base de données peut être interrogée sans divulguer d’information, il existe une formule mathématique précise pour déterminer la variable correspondante de la loi de Laplace. Cette méthode fournit par conséquent un mécanisme mathématiquement viable de contrôle de l’équilibre entre confidentialité et utilité des données. Le fondement mathématique solide de la protection différentielle se distingue par conséquent de certaines méthodes heuristiques utilisées jusqu’à présent.
Pour approfondir le sujet, l’équipe de San Francisco de Winton a contacté un groupe de chercheurs de UC Berkeley avec une idée de projet de recherche. Celui-ci consiste à appliquer une protection différentielle à l’analyse de requêtes en reformulant certaines catégories d’entre elles. Les requêtes sont formulées dans le langage SQL, qui est la norme du secteur pour l’analyse des bases de données. La réécriture des requêtes prévoit l’ajout de brouillage (« noise ») pour que les résultats obtenus en retour ne révèlent pas de données à caractère personnel.
Données de localisation
Pour valider le principe, nous avons choisi d’étudier certaines données de localisation fournies par un prestataire extérieur. Même dans le cadre d’un projet de recherche, nous ne souhaitions pas stocker ces données sensibles sur l’infrastructure de Winton. L’un des avantages de la protection différentielle est qu’un stockage de cette nature n’est pas nécessaire. Les chercheurs de Winton ont pu programmer des requêtes SQL concernant les grandes tendances observables dans les données, et ces requêtes ont pu ensuite être modifiées dans le cadre de la protection différentielle en utilisant la technologie fournie par les chercheurs de Berkeley.
La version modifiée des requêtes avec protection différentielle était ensuite exécutée sur une base de données hébergée par le fournisseur des données et les résultats sans données personnelles étaient ensuite renvoyés à Winton. Ce processus est plus facile à expliquer au moyen d’un exemple. Imaginons qu’un gérant d’actifs s’intéresse à la performance relative de deux grandes enseignes concurrentes aux États-Unis : Home Depot et Lowe’s. Sur la base des données de localisation d’un grand nombre de personnes, on peut compter combien d’entre elles se rendent dans les magasins de ces deux entreprises. En examinant ces données dans le temps pour différentes régions, il est théoriquement possible d’identifier des tendances et des comportements qui pourraient servir à produire des prévisions de vente et de chiffre d’affaires quasiment en temps réel. Si nous observons une baisse du nombre de clients chez Lowe’s, il serait possible d’établir un lien avec les fermetures récentes de magasins de sa filiale Orchard.
La première étape consiste simplement à compter le nombre total de visites mensuelles des magasins pour chaque état américain. La protection différentielle introduit ensuite des erreurs au moyen d’un brouillage volontairement ajouté. Cependant, pour des chiffres de cette taille, le volume de brouillage est suffisamment limité pour préserver les grandes tendances des données. Pour les états avec les chiffres les plus bas, les taux d’erreur résultant de la protection différentielle sont susceptibles de figurer parmi les plus élevés. Ils devraient toutefois rester suffisamment bas pour que les éventuelles conclusions de l’analyse restent valables.
Dans le cas d’une requête pouvant porter atteinte à la vie privée, par exemple lorsqu’un analyste essaie d’examiner des données par code postal, les taux d’erreurs sont susceptibles de bondir en raison du faible nombre de données brutes. Ces taux d’erreurs élevés protègent les informations potentiellement sensibles. Il convient de noter que dans un système utilisant la protection différentielle, les utilisateurs ne recevraient jamais les taux d’erreur effectifs, seulement du « brouillage » inutilisable.
Étapes suivantes
Winton n’a pas l’intention à court terme d’utiliser des données de localisation dans ses algorithmes d’investissement, mais la protection différentielle apporte une technologie qui permet de traiter des renseignements personnels sensibles en toute sécurité. Elle montre également que quelle que soit les entreprises, il existe des méthodes permettant d’analyser des données sans en compromettre la confidentialité.
Il est également intéressant de noter que des startups comme Oasis Labs, fondée par des chercheurs de Berkeley, sont en train de créer des plateformes informatiques sur le cloud qui donnent la priorité à la confidentialité. Ces plateformes pourraient permettre aux sociétés d’investissement de faire fonctionner des algorithmes d’investissement sur des données provenant de fournisseurs extérieurs, sans que le fournisseur des données puisse voir l’algorithme ou que le gérant d’actifs puisse voir les données.
Le développement et la validation d’algorithmes fonctionnant sur des données non accessibles prendront du temps. Ils offriraient toutefois la possibilité d’analyser des bases de données sensibles sans risque de violation de la confidentialité. Les recherches effectuées par Winton et Berkeley montrent que la protection différentielle constitue un domaine prometteur pour de futurs travaux.
Depuis mars 2018 : CEO et co-fondateur de The Music Fund (spin-off de Winton)
Janvier 2016 – novembre 2018 : directeur data science chez Winton
Novembre 2011 – janvier 2016 : CTO et co-fondateur de Knack.it
Juillet 2007 – juin 2013 : professeur à l’Université de Californie Santa Cruz
Juin 2009 – Octobre 2011 : directeur de l’ingénierie (Streaming Insights Group) chez Netflix
Formation
PhD, computer science, de l’Université de Toronto (recherche sur les modèles cognitifs pour l’animation par ordinateur)