Accueil > Industrie > Données synthétiques : comment valider la robustesse et la confidentialité des avatars ? Données synthétiques : comment valider la robustesse et la confidentialité des avatars ? Depuis un an, le CHU de Brest, le laboratoire Roche et la start-up Octopize mènent une expérimentation pour valider la robustesse de leurs données synthétiques : les avatars. Objectif : s’assurer de la qualité d’un jeu de données avant d’établir un partenariat et de la reproductibilité des analyses sur des données synthétiques. Le tout dans un cadre sécurisé permettant le partage sans risque de ré-identification des patients à l’origine des données. Par Sandrine Cochard. Publié le 10 février 2023 à 8h26 - Mis à jour le 09 janvier 2024 à 15h58 Ressources Le partage des données est au cœur des enjeux de la médecine de demain, et avec lui, son corollaire : la qualité des données partagées. Un sujet aigu dans les collaborations entre les producteurs de données -les établissements de santé- et les acteurs privés – industriels ou start-ups. Comment s’assurer de la qualité d’un jeu de données avant d’établir un partenariat ? Et la reproductibilité des analyses sur des données synthétiques, le tout en respectant la confidentialité des données des patients ? C’est tout l’enjeu du projet mené depuis un an par le CHU de Brest, le laboratoire Roche et la start-up Octopize. Le besoin initial Adrien Bussard, coordinateur du W.INN, le centre d’innovation du CHU de Brest Les trois acteurs se sont rencontrés en avril 2021, dans le cadre de l’appel à projets de la Coalition Next, alors qu’ils ont, chacun de leur côté, identifié un besoin-clé dans leur activité : la nécessité d’améliorer le partage des données de santé. “Nous avions noté des difficultés à partager les données pour différents projets, de recherche ou d’innovation. Cela nous prenait beaucoup de temps pour un ROI assez faible. Nous avons même dû annuler un projet RHU car ce point était trop compliqué à mettre en place”, explique Adrien Bussard, coordinateur du W.INN, le centre d’innovation du CHU de Brest (l’un des dix Tiers lieux d’expérimentation reconnus par l’État dans le cadre du plan de relance France 2030). Les objectifs Tania Aydenian, Innovation Senior Lead chez Roche Pharma France Pour le CHU de Brest, ce projet mené avec Octopize et Roche doit permettre de “valoriser facilement et rapidement des données dans des buts de recherche et d’innovation”. De son côté, le laboratoire Roche cherche à trouver un moyen de “générer de la confiance dans une optique de partage de données”, souligne Tania Aydenian, Innovation Senior Lead chez Roche Pharma France, qui rappelle que le laboratoire a inscrit depuis plusieurs années l’enjeu du partage de données dans sa stratégie. Concrètement, ce projet vise trois objectifs : s’assurer de la qualité d’un jeu de données avant d’établir un partenariat s’assurer de la reproductibilité des analyses sur des données synthétiques impulser une dynamique de long terme autour du partage de la donnée grâce au respect de la confidentialité des patients “L’enjeu au final, c’est comment on simplifie l’accès à une donnée de manière sécurisée en veillant à la conservation de la vie privée, tout en permettant aussi d’avoir une granularité suffisante pour qu’elle soit exploitable”, résume Tania Aydenian. Le projet doit ainsi permettre de valider la performance et la robustesse de la technologie d’Octopize, dans une optique ROIste. Technologie La solution d’Octopize repose sur “l’avatarisation” des données : elle génère des données de synthèse anonymes à partir de données personnelles, sans risquer la réidentification. “Les avatars permettent de conserver la qualité statistique des données tout en assurant la confidentialité des individus. Ils offrent ainsi la possibilité de faire progresser la science dans le respect des individus”, affirme Olivier Breillacq, fondateur et dirigeant d’Octopize. Méthodologie Le CHU de Brest a fourni à Octopize un jeu de données cliniques pseudonymisées de 705 patients atteints du syndrome de Sjögren (avec 119 variables de tous types: continues, catégorielles, booléennes, dates), avec la présence de relations entre certaines variables. “Nous avons sélectionné un jeu de données cohérent par rapport à ce que l’on pouvait prouver, mais aussi cohérent par rapport à ce que Roche pouvait chercher”, explique Adrien Bussard. Le CHU réalise également le design de toute l’étude et ses jalons, en associant en interne les personnes à même de valider l’outil d’Octopize : les chercheurs (notamment le vice-président Recherche du CHU de Brest, le Pr Alain Saraux), le DPO, le département d’information médicale, le RSSI et la DSI, pour évacuer tout risque de verrou technologique ou réglementaire. En tout, 7 personnes sont investies sur le projet, dont deux chargées de travailler directement sur les jeux de données avatarisées. À partir de ce jeu de données cliniques du CHU de Brest, Octopize a généré 6 jeux de données anonymisés de cette cohorte, pour étudier la variabilité des résultats d’une anonymisation à l’autre et vérifier la stabilité de la méthode. “La promesse de la méthode, c’est de dire que lorsqu’on l’applique plusieurs fois, on a jamais le même résultat mais on conserve la même information”, explique Olivier Breillacq. Olivier Breillacq, fondateur et dirigeant d’Octopize Octopize a également généré un jeu anonymisé incomplet (sur un tiers des patients) dont les corrélations ont été brisées. Objectif : permettre à Roche d’évaluer la qualité de cet échantillon de données (nombre de données manquantes, encodage des données, range de valeurs…) dans sa structure, sans avoir à utiliser l’ensemble des données pour réaliser directement les analyses. “Habituellement, on découvre les données à la signature du partenariat. La promesse de cette méthode est de pouvoir, avant que le partenariat ne soit signé, évaluer la qualité et la structure du jeu de données reçu. Donc se faire une idée sans avoir engagé du temps et de l’énergie, des ressources et des investissements”, souligne Olivier Breillacq. “C’est un gage d’efficience et de diminution de risque en amont d”une quelconque collaboration sur un jeu de données. C’est donner à voir les données avant d’engager des ressources. C’est aussi un gage d’accélération, le temps mis pour avoir ce type de résultat est fortement réduit”, abonde Tania Aydenian. Une double garantie en somme : d’un côté, Roche s’assure avant acquisition que les données ont de l’intérêt et de l’autre, le CHU de Brest a la garantie que l’échantillon envoyé n’est pas exploitable en tant que tel. Résultats L’avatarisation des données fournies par le CHU de Brest a pris une semaine. À l’arrivée, Octopize prouve la conformité réglementaire en garantissant l’anonymisation par ses différentes métriques construites sur la base des trois critères définis par le CEPD, à savoir : l’individualisation, la corrélation et l’inférence. “Une des caractéristiques de la méthode est qu’elle permet de conserver la structure initiale d’un jeu de données, explique Olivier Breillacq. Si on a fait des analyses sur les données personnelles et qu’on veut les reproduire sur le jeu de données avatarisées, on est capable de restituer les analyses avec la même finesse, car notre méthode permet de générer de la sécurité sans dégrader la qualité de la donnée. Toutes les analyses faites par le passé sont reproductibles, contrairement aux techniques d’agrégation par exemple.” Le graphique ci-dessous montre que la structure d’origine est conservée dans le jeu de données avatarisé. “Nous sommes capables de reproduire 100% des analyses faites du côté de chez Roche avec des niveaux de comparaison extrêmement proches”, affirme encore Olivier Breillacq. Bilan Les trois acteurs voient dans ce projet une démonstration de valeur pour créer de nouvelles collaborations entre acteurs publics et privés autour du partage de données, avec davantage de confiance. “Pouvoir dire aux industriels que nous sommes capables de leur proposer un jeu de données réduit pour qu’ils évaluent la qualité va faciliter nos négociations avec eux, se réjouit Adrien Bussard. On y voit un intérêt pour économiser du temps humain et accélérer le projet de recherche ou d’innovation derrière.” Hors cadrage en amont, qui a couru sur toute l’année 2021, ce projet tripartite a été réalisé en huit mois. Autre atout selon Adrien Bussard : “Le rythme d’une start-up n’est pas le même que celui d’un CHU. Cette solution permet de nous rapprocher du rythme de nos partenaires.” “Je le vois comme game changer à deux niveaux, explique Tania Aydenian. C’est une optimisation de temps, de ressources, de moyens. En tant qu’industriel, nous sommes amenés à identifier des sources de données externes pour des besoins en RWD et RWE. Typiquement, ce type de technologie permet de qualifier la qualité du jeu de données en amont de phase avant de poursuivre tout investissement. C’est une réelle avancée.” Prochaines étapes La convention tripartite signée entre les trois partenaires prévoit un volet de valorisation qui, pour l’instant, n’est pas financière mais intellectuelle et scientifique, avec la publication d’un article scientifique. Par ailleurs, la start-up va publier un article dans Nature Digital Médecine détaillant sa méthode de l’avatarisation. “Si nous avons d’autres projets de valorisation de données pour un développement industriel, le partage de la valeur sera un peu différent”, reconnaît Adrien Bussard. Tout l’enjeu désormais porte sur l’industrialisation de la technologie d’Octopize. Roche a pour objectif en 2023 de développer différents cas d’usage autour du partage de la donnée, avec la volonté de promouvoir cette solution au sein de ses autres filiales Roche. “Le sujet de la data est au cœur des projets de collaborations. L’idéal serait d’étendre ce type de travaux menés avec Octopize à d’autres établissements de santé, avec d’autres industriels.” De son côté, Olivier Breillacq estime que le projet mené avec Roche et le CHU de Brest “montre le chemin”. “Dans 10 ans, on sera ahuri de voir que l’on pouvait partager des données dans un cadre potentiellement risqué en termes de confidentialité. Notre postulat est de traiter l’origine du problème du partage de la donnée, à savoir garantir la confidentialité, et pas l’exploitation de la donnée, qui est la conséquence. C’est une vraie différenciation en termes d’approche et nous sommes convaincus que les projets de demain se feront sur ce modèle.” Deux autres projets menés par Roche et Octopize : Projet Kador : reproductibilité d’analysesDans le cadre du projet Kador, la solution d’Octopize a été utilisée pour permettre l’exploitation de données pour de seconds usages. L’objectif de ce projet étant de prouver la reproductibilité d’analyses en plus de la privacy. Les données synthétiques anonymes générées par Octopize ont ensuite été comparées aux données originales sur trois niveaux d’analyses. “Ce projet a permis d’augmenter la confiance scientifique sur la robustesse de la technologie Avatar en termes de maintien du signal des données d’origine”, note Octopize. Projet Epidemium : cas d’usage en open dataDans le cadre du projet Epidemium, Octopize a anonymisé des données personnelles afin de favoriser et permettre des projets Open Data en oncologie. Plus précisément, les objectifs de ce projet étaient de permettre la structuration de la recherche autour des facteurs d’exposition aux cancers à partir de bases de données anonymisées et créer une agrégation de jeux de données ouvertes, utiles et pertinentes pour la communauté scientifique. Ainsi, les données avatarisées ont facilité la formation des équipes de Roche à l’utilisation de données de vie réelles sans risquer la vie privée des patients et a favorisé l’émulation de la recherche autour de l’institut fournisseur de données tout en assurant une image éthique à Roche. Sandrine Cochard Données cliniquesDonnées de santéHôpitalInnovationLaboratoiresRecherchestart-upStratégie Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire TENDANCES 2023 : Remettre les émetteurs de données de santé au centre Partage de données : où en sont les industriels pharmaceutiques ? Entretien Romain Bey : “Avoir des compétences en data science est stratégique pour l’AP-HP” Les recommandations du HDI pour la réutilisation des données de santé hospitalières