Accueil > Parcours de soins > Comment accéder à l’entrepôt de données de santé de l’AP-HP Comment accéder à l’entrepôt de données de santé de l’AP-HP Autorisé par la CNIL en janvier 2017, l’entrepôt de données de santé de l’Assistance publique-Hôpitaux de Paris contient aujourd’hui les données de 11,4 millions de patients, occupant 170 téraoctets d’espace disque et une cinquantaine de personnes. mind Health restitue, en deux épisodes, les informations compilées sur cette plateforme big data. Cette semaine, sont détaillés le mode d’emploi de l’accès aux données de l’EDS, les efforts accomplis en matière de structuration et de FAIRification des données, la gestion des biais et l’ambition à terme de l’entrepôt. Par . Publié le 26 octobre 2020 à 15h35 - Mis à jour le 08 janvier 2021 à 17h05 Ressources Dans un précédent article, mind Health dressait le portrait de l’entrepôt de données de santé (EDS) de l’Assistance publique-Hôpitaux de Paris (AP-HP) : les données qu’il contient, la technologie utilisée, les outils développés et mis à disposition, l’organisation de son comité scientifique et éthique et les projets de recherche en cours. Cette semaine, la rédaction détaille comment accéder à cette manne de données ainsi que les enjeux à long terme pour l’EDS. Des informations recueillies notamment lors d’un séminaire de présentation de l’entrepôt le 30 septembre 2020 qui s’adressait aux chercheurs ou à d’éventuels partenaires (lire encadré ci-dessous). L’accès aux données en pratique Peuvent donc accéder aux données de l’EDS les chercheurs de l’AP-HP comme des partenaires externes. Ces derniers doivent dans ce cas s’associer à un professionnel de santé de l’AP-HP qui sera le porteur du projet, souligne le Dr Claire Hassen-Khodja, médecin de santé publique à la direction de la recherche clinique et de l’innovation (DRCI) de l’AP-HP et vice-présidente du comité scientifique et éthique de l’entrepôt. Il existe deux cas de figure, poursuit le Dr Christel Daniel, directrice adjointe du département Web INnovation Données (WIND) de la direction des systèmes d’information (DSI) de l’AP-HP et responsable du pôle Données : “soit vous avez un contact médical au sein du groupe, soit vous n’en avez pas. Si vous avez déjà des partenaires au sein de l’AP-HP et des projets déjà élaborés, la toute première étape consiste à évaluer la faisabilité de votre recherche sur des volets techniques, réglementaires, éthiques et partenarials. Les coordonnateurs de l’EDS au sein des différents groupements hospitaliers et les data scientists au sein de l’unité de recherche clinique de ces groupements hospitaliers vous accompagneront sur cet exercice, depuis sa faisabilité jusqu’à sa réalisation. Si vous n’avez pas de relation au sein de l’AP-HP, vous pouvez toujours au travers du site de l’EDS nous contacter afin que l’on puisse mettre en place ces collaborations”. À noter que lorsque des chercheurs au sein de l’AP-HP sont identifiés pour s’associer au projet de recherche, ce sont eux qui contacteront coordonnateurs et data scientists. “Dès que lors que la faisabilité du projet a été avérée, il faut solliciter un avis du conseil scientifique et éthique qui se réunit tous les mois. Si l’avis est favorable, la direction des systèmes d’information (DSI) construira votre espace de travail”, précise encore le Dr Christel Daniel. Elle ajoute que, dans le cadre de ces collaborations avec des partenaires externes, “il y a une étape en parallèle à réaliser en lien avec le département partenariats de la DRCI : une étape de contractualisation qui permettra de traiter les sujets de propriété intellectuelle et de valorisation des données”. Le processus d’accès aux données de l’EDS de l’AP-HP. Source : eds.aphp.fr Lorsque les espaces de travail sont mis en place, “les habilitations sont données pour toutes les personnes ressources au sein de l’équipe projet et les données sont mises à disposition : des données qui sont déjà dans l’EDS en ce qui concerne les données cliniques, biologiques et les comptes-rendus. En ce qui concerne les données massives telles que les données d’imagerie, qui ne sont pas recopiées systématiquement au sein de l’EDS, un processus est mis en place pour les migrer dans l’espace de travail et pouvoir les exploiter. L’équipe se charge également de mettre à disposition, au-delà des données, éventuellement des solutions spécifiques à la recherche – ce peut être des solutions d’annotation ou d’exploitation des données – et constituent donc l’ensemble ‘données et solutions’ qui vous sera fourni pour la bonne réalisation de votre projet de recherche via le portail Jupyter”. Nous avons ouvert un accès VPN en début d’année pour que nos partenaires puissent travailler dans nos environnements. Stéphane Bréant Chef de projet Informatique et traitement de l’information à des fins de recherche “Les traitements sont réalisés par défaut sur la plateforme”, précise le Dr Claire Hassen-Khodja. “Ce peut être sur place – dans les hôpitaux ou dans nos locaux sur certains projets -, indique Stéphane Bréant, chef de projet Informatique et traitement de l’information à des fins de recherche, à l’origine du projet d’EDS avec Nicolas Paris, data ingénieur. Mais nous avons ouvert un accès VPN, donc à distance, en début d’année pour que nos partenaires parfois loin de Paris puissent aussi travailler dans nos environnements.” Cet accès est bien sûr sécurisé. “La constitution de l’EDS ayant été autorisée par la Commission nationale de l’informatique et des libertés (CNIL) et une déclaration de conformité à la méthodologie de référence en matière de recherche sur les données (MR004) ayant été faite pour toute l’AP-HP, il n’y a pas de formalité supplémentaire à prévoir, reprend le Dr Claire Hassen-Khodja. Sauf si vous souhaitez par exemple apparier les données de l’hôpital avec celles du Système national des données de santé (SNDS), auquel cas il faut effectuer une demande d’autorisation auprès de la CNIL”. Également, “si un projet réalisé sur le portail Jupyter peut associer des partenaires externes, c’est sans export sinon il y a en effet des démarches supplémentaires comme la réalisation d’une analyse d’impact relative à la protection des données éventuellement à réaliser”. Enfin, “nous avons bien sûr une obligation d’information individuelle et collective des patients” au sujet de l’EDS : “il y a une information dans les livrets d’accueil des patients, en bas des comptes-rendus médicaux, par voie d’affichage dans les sites hospitaliers et sur le site internet. Les résultats des projets sont également publiés puisque le site internet est ouvert au public”. La structuration et la FAIRification des données Nicolas Paris gère notamment la FAIRification des données de l’EDS, “donc l’harmonisation, la standardisation, la mise en commun de ces données” afin de les rendre FAIR : “Findable, Accessible, Interoperable and Reusable”. Et ainsi “améliorer les conditions de recherche pour les chercheurs en leur permettant de parcourir des bases aisément. Nous menons ces efforts depuis trois ans”. Pour formater les données, le modèle retenu est le modèle OMOP, pour Observational Medical Outcomes Partnership, un standard de donnée utilisés pour les bases de données de santé afin qu’elles puissent être interopérables. “Aligner des concepts entre eux constitue un processus fastidieux (…) et long parce qu’il existe des millions de codes.” Mais “nous avons un certain avancement (…) et misons sur une stratégie d’alignement des codes en fonction des études”. La FAIRIfication des données des patients de l’AP-HP s’inscrit en effet dans “une vision à long terme de la recherche, en collaboration avec différents centres”. Les étapes consistent ainsi à d’abord “fournir et transformer les données pour en avoir une première version fonctionnelle” puis, “petit à petit, projet par projet, améliorer et aligner les concepts”. Concrètement, le taux de concepts alignés augmentera avec le temps, améliorera la FAIRification du jeu de données, et “nous pourrons le mesurer”. En parallèle, “il s’agit de participer de plus en plus à des études massives avec des millions de patients sur plusieurs continents. Des études comme ça se font régulièrement. (…) Nous pourrions nous en passer mais nous aurions beaucoup moins de recherches qui pourraient aboutir si nous mettions à disposition les données telles qu’on les récupère”. L’identification des biais de données “La première imperfection qui saute aux yeux, c’est un dossier (patient, ndlr) incomplet par exemple, note Nicolas Paris. Il ne s’agit donc pas nécessairement de données fausses mais il est possible, par omission, de mentir sur le patient et ce premier biais peut avoir de fortes répercussions.” Il cite ensuite “tout simplement les doublons : si nous sommons les patients de l’EDS, il y en a 60 millions ! Or, toute la France n’est pas passée à l’AP-HP. Cela vient simplement du fait que nous récupérons plusieurs outils et qu’un patient est 1 à 50 fois doublonné dans chacun de ces outils. Le dédoublonnage constitue aussi un projet de recherche, qui implique nécessairement un taux d’erreurs sur les algorithmes”. Autre exemple : “le choix de la cohorte qui serait ratée ou non adaptée, et cela arrive souvent. Ou alors des données qui ne sont pas encore présentes et qui manquent pour conclure ; ça, ça arrive tous les jours”. Le data ingénieur tient à rappeler que “plus nous standardisons, plus nous enrichissons la donnée et plus de bugs s’accumulent qui transformeront la donnée. Il y a donc beaucoup de qualité de pratique à mettre en oeuvre pour sécuriser ces transformations. Aujourd’hui, les efforts se font visiblement en aval alors que j’attends beaucoup d’aide en amont sur des processus de qualité pour, justement, des algorithmes de validation qui mesureraient les aberrations, etc., avant de faire des conclusions hâtives sur des données qui méritent un peu de soin”. Quoi qu’il en soit, en cas de biais constaté sur une donnée, “nous avertirions tous les chercheurs travaillant sur cette version. Nous avons déjà mis le pied dans ces pratiques-là, souligne Nicolas Paris, puisque nous offrons des bases de données figées aux chercheurs, avec une date, parce que les données sont modifiées quotidiennement par les médecins et que l’EDS est rafraîchi tous les jours. Figer les données à un instant T offre cette opportunité de pouvoir dire ‘avant telle date, il y avait telle erreur donc vous êtes nécessairement contaminés par l’erreur’”. C’est une “façon simple” d’éviter une trop grande contamination. L’ambition de l’EDS Stéphane Bréant déclarait que “l’idée est de faire de l’AP-HP un leader hospitalier du big data”. Il a ensuite évoqué comme objectifs le développement de la recherche sur données de vie réelle, l’optimisation de la recherche clinique (études de faisabilité, repérage automatique des patients, nouveaux types d’essais cliniques et transfert de données), toujours la facilitation du pilotage de l’activité hospitalière et de l’organisation des soins et enfin l’accompagnement de la data science, de l’intelligence artificielle (IA) et de l’innovation. À ce titre, étaient cités d’une part les “nouvelles IA” – la construction et la fiabilisation de jeux de données d’apprentissage, l’évaluation et la validation de technologies ou d’algorithmes d’aide à la décision médicale – et, d’autre part, les “nouveaux services centrés sur les données” – mise à disposition de données pour des services innovants pour le soin, la recherche et la formation. Le Dr Christel Daniel a précisé que, sur le sujet de la data science et de l’IA, “l’AP-HP a eu l’occasion d’organiser des ateliers avec des partenaires extérieurs comme l’Institut national de recherche en sciences et technologies du numérique (Inria) et Centrale-Supélec” au cours desquels “des thématiques d’intérêt ont émergé”. Parmi celles-ci, “l’évaluation de l’anonymat des données” ou “notre capacité à générer des jeux de données synthétiques”. Elle cite aussi “un enjeu de qualification des jeux de données, à savoir nous assurer que les données mises à disposition sont d’une qualité suffisante pour répondre aux objectifs d’un projet de recherche ou de développement d’un algorithme d’IA et être en capacité d’identifier d’éventuels biais (…) du fait de certaines caractéristiques de nos données”. Enfin, le Dr Christel Daniel a évoqué “toutes les questions de jumeau virtuel ou de phénotypage à haut débit permettant de caractériser finement des patients ayant un profil clinique particulier”. Deux services sont en cours de construction au sein du département Innovation et données : le domaine datascience et le laboratoire numérique. Dr Christel Daniel Directrice adjointe du département Web INnovation Données (WIND) de la DSI de l’AP-HP et responsable du pôle Données Vis-à-vis des partenaires externes, poursuit-elle, “notre enjeu est d’organiser une offre de services big data autour de la mise à disposition des données” et “d’accompagner le développement de l’IA et de la datascience depuis la collecte des données jusqu’à la mise en place dans le cadre du soin, auprès des personnels soignants, d’assistants numériques et d’aide décisionnelle. (…) Ces efforts sont mis en place au sein de la DSI par les services plateforme big data, expertise données et recherche. Mais il y a deux domaines ou services en cours de construction au sein du département Innovation et données, qui sont le domaine datascience et le laboratoire numérique, qui ont pour vocation d’appuyer ces projets d’IA, de contribuer à l’animation de la communauté datascience au sein de l’AP-HP mais également en lien avec les partenaires extérieurs.” Au sujet des données de vie réelle, qui “prennent une place croissante avec l’émergence de plateformes de partage de données, qu’elles soient institutionnelles, académiques ou commerciales”, rappelle le Dr Christel Daniel, “pour nous les enjeux sont de poursuivre la mise en place de cet EDS au niveau de l’AP-HP, de renforcer notre expertise en science des données – avec justement ce nouveau domaine en création au sein du département -, de développer des services au plus proche des professionnels de santé, leur permettant de s’évaluer, de s’améliorer, d’inventer la médecine de demain, d’où l’intérêt pour nous de faire atterrir du mieux possible et le plus rapidement possible ces assistant numériques auprès des professionnels de santé. Enfin, maîtriser les conditions du partage des données au sein de plateformes d’analyse et faire valoir cette expertise clinique et méthodologique qui existe au sein des établissements de santé”. Une politique de transparence, de promotion et de collaboration mise en œuvre L’AP-HP a initié le 30 septembre 2020 une série de séminaires autour de son entrepôt de données de santé. Il s’agit d’une collaboration avec datacraft et le Sorbonne Center for Artificial Intelligence (SCAI), qui prendra la forme d’un programme d’ateliers autour des données de santé “afin de contribuer à une meilleure connaissance et à une promotion des données de l’EDS auprès d’un public assez large (chercheurs spécialisés en santé ou non, entreprises, start-up, étudiants, et tous secteurs confondus) et de mettre en place et animer une dynamique de collaboration, d’échanges de bonnes pratiques en matière de data science et de recherche autour des données de l’AP-HP”. Le programme est encore en cours d’élaboration. base de donnéesbig dataDonnées de santéHôpitalIntelligence ArtificielleInteropérabilitéPlateformesPublic/PrivéRecherchevie réelle Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire Au coeur de l’entrepôt de données de santé de l’AP-HP