Accueil > Parcours de soins > Au coeur de l’entrepôt de données de santé de l’AP-HP Au coeur de l’entrepôt de données de santé de l’AP-HP Autorisé par la CNIL en janvier 2017, l’entrepôt de données de santé de l’Assistance publique-Hôpitaux de Paris (AP-HP) contient aujourd’hui les données de 11,4 millions de patients, occupant 170 téraoctets d’espace disque et une cinquantaine de personnes. mind Health restitue, en deux épisodes, les informations compilées sur cette plateforme big data. Cette semaine, un portrait détaillé de l’entrepôt : les données qu’il contient, la technologie utilisée, les outils développés et mis à disposition, l’organisation de son comité scientifique et éthique et les projets de recherche en cours. Par . Publié le 19 octobre 2020 à 15h44 - Mis à jour le 08 janvier 2021 à 17h06 Ressources “L’Assistance publique-Hôpitaux de Paris (AP-HP), c’est 39 hôpitaux, 8,3 millions de prises en charge, 118 pôles, 700 services, le premier employeur d’Île-de-France avec près de 100 000 professionnels de santé ainsi qu’un centre d’enseignement. Tous ces soins prodigués au quotidien sont traduits en données numériques et, arriver à les structurer et les exploiter,” c’est gagner une “richesse inestimable” et “un potentiel de recherche”, relatait Jérôme Marchand-Arvier, alors directeur général adjoint de l’AP-HP, lors du HDI (Healthcare Data Institute) day du 14 novembre 2019. D’où l’idée d’un entrepôt de données de santé, ou EDS dans le jargon. “Le point zéro, c’était d’avoir un dossier patient unifié, en l’occurrence Orbis”, le dossier patient informatisé unique pour l’ensemble de l’AP-HP dont le déploiement devrait aboutir en 2022-2023, indiquait à mind Health Laurent Treluyer, directeur des systèmes d’information du groupe, en octobre 2018. Un outil censé intégrer “dès le départ deux éléments” : répondre à “des objectifs variés”, que sont le soin, la performance, l’appui de la recherche clinique en réseaux, l’accompagnement de la transformation numérique, la facilitation du pilotage hospitalier par la valeur et le développement de la recherche sur données, et agréger “l’ensemble des données qui passent par l’hôpital, administratives mais pas seulement, et qui pourront faire la richesse de l’entrepôt de demain”. Nicolas Paris, data ingénieur, et Stéphane Bréant, chef de projet Informatique et traitement de l’information à des fins de recherche, “sont à l’origine du projet, qui a commencé à germer en 2013 et a démarré véritablement en 2014, avec cinq personnes”, a précisé le Dr Christel Daniel, directrice adjointe du département Web INnovation Données (WIND) de la direction des systèmes d’information (DSI) de l’AP-HP et responsable du pôle Données, lors d’un séminaire de présentation de l’entrepôt le 30 septembre 2020. Un premier travail a été effectué sur la disponibilité des informations patients puis, avec la commission médicale d’établissement et la gouvernance, les règles d’accès à l’EDS ont été définies : “un comité scientifique et éthique a été créé qui délivre les autorisations” indiquait encore Jérôme Marchand-Arvier, et qui instruit toutes les demandes d’accès aux données pour faire de la recherche multicentrique à l’AP-HP. Enfin, les autorisations de la Commission nationale de l’informatique et des libertés (CNIL) ont été obtenues pour trois finalités en janvier 2017 : recherche, innovation et pilotage de l’activité hospitalière. Une déclaration de conformité à la méthodologie de référence en matière de recherche sur les données (MR004) a été faite. Et la plateforme est certifiée hébergeur de données de santé. Les données contenues dans l’EDS L’EDS compile à ce jour des données administratives et de support (données démographiques, mouvements, séjours, planification de rendez-vous, utilisateurs des systèmes d’information), des données médico-économiques (diagnostics et actes PMSI), les données de soin (formulaires médicaux, bilans médicaux initiaux, comptes-rendus médicaux, urgences, réanimation, biologie, imagerie, prescription et administration de médicaments, application Covidom) et des données hors AP-HP, à savoir la pollution de l’air via AirParIF. Fin 2019, les données d’imagerie représentaient 6 milliards d’images, 25 millions d’examens et 1,8 pétaoctet. L’ensemble des données de l’entrepôt totalisait les données de 11,4 millions de patients, 26 millions de dossiers, 21,8 millions d’actes, 324 millions de résultats de laboratoire, 37 millions de comptes-rendus et 22 millions de diagnostics, “ce qui permet de réaliser des analyses sur des données structurées ou non structurées”, souligne Stéphane Bréant, également présent le 30 septembre 2020. À terme, sont prévus d’y raccorder les objets connectés, les données environnementales et l’expérience des patients. Les outils proposés “Bien sûr, la donnée a différents usages et nécessite différents outils pour permettre d’y accéder”, relatait Jérôme Marchand-Arvier. La solution en open source i2b2 a ainsi intégré le projet en 2016 pour sa partie clinique : un “portail de sélection des patients permet de rechercher par exemple le nombre de patients dans un service d’urgences ayant eu un dosage de telle molécule”. L’application web Cognos est utilisée depuis 2017 pour réaliser des tableaux de bord et “donne une puissance de frappe en termes de pilotage hospitalier beaucoup plus forte”. L’application web Jupyter, en 2018, a permis de développer un “environnement de travail sur le cluster EDS, sur le périmètre du protocole autorisé par le comité scientifique et éthique, avec de la puissance de calcul”. Enfin, l’outil de visualisation Cohort 360 est entré dans l’arène en 2019. Le groupe a également développé la solution SPHERE (Solution PACS for HEalth REsearch) qui permet d’accéder aux images et d’effectuer du traitement d’images. Autant d’outils proposés par l’EDS aux chercheurs de l’AP-HP comme à des partenaires externes, avec lesquels “ils vont pouvoir sélectionner des patients, visualiser leurs données et bien sûr réaliser des analyses poussées sur un cluster de calcul CPU/GPU”, résume Stéphane Bréant. À noter que “les partenaires externes peuvent accéder aux données à la condition qu’ils associent un professionnel de santé de l’AP-HP et que ce dernier soit porteur du projet, a souligné le Dr Claire Hassen-Khodja, médecin de santé publique à la DRCI et vice-présidente du comité scientifique et éthique, le 30 septembre 2020. Les traitements sont réalisés par défaut sur la plateforme, avec un accès possible à distance par VPN sécurisé.” La plateforme L’EDS, ou plateforme big data de l’AP-HP, dispose de 2 pétaoctets d’espace disque – dont 170 téraoctets sont déjà utilisés -, d’un CPU de 800 coeurs qui peuvent traiter 1 600 threads, de 9 téraoctets de RAM et de 24 GPU NVIDIA. “La plateforme d’accès aux données se décompose en plusieurs axes de travail, explique Stéphane Bréant, proposées dans un format de restitution appelé OMOP”, pour Observational Medical Outcomes Partnership, un standard de donnée utilisés pour les bases de données de santé afin qu’elles puissent être interopérables. Nicolas Paris, qui participait aussi au séminaire de présentation de l’entrepôt, souligne que “l’AP-HP a fait le choix d’être autonome concernant la plateforme, c’est-à-dire de travailler avec nos collègues qui gèrent le data center, qui est à Paris, et de mettre en place, valoriser et participer à des projets de logiciels libres. La plateforme s’appuie sur des logiciels open source que n’importe qui peut maîtriser et installer. C’est, disons, son aspect éthique, qui nous a aussi permis d’aller plus vite, nous-mêmes de monter en compétence et d’intéresser des ingénieurs qui ne l’auraient pas été sans cette connotation.” Sept data scientists travaillent sur l’entrepôt. Nous espérons en recruter davantage. Dr Claire Hassen-Khodja Vice-présidente du comité scientifique et éthique de l’AP-HP Aujourd’hui, l’EDS occupe une cinquantaine de personnes, réparties au niveau des domaines plateforme big data, recherche, pilotage et expertise de données, en lien avec la direction de la recherche clinique et de l’innovation (DRCI). Nicolas Paris l’explique : “la spécificité de l’AP-HP, c’est qu’il y a beaucoup trop de données ! Nous avons donc été obligés de travailler avec les outils du big data qui nécessitent plus de personnel que des outils simples, classiques et performants dans d’autres hôpitaux. (…) Pour assurer la maintenance de cette infrastructure aujourd’hui, nous avons dû tripler les effectifs d’ingénierie technique : nous sommes passés de un à trois mais ce n’est pas anodin et il faut les trouver. Trois personnes au quotidien garantissent donc que toutes les machines fonctionnent, etc.” Stéphane Bréant tient à ajouter que “si nous sommes passés en mode maintenance, il y a encore beaucoup de briques à mettre en place. C’était aussi un changement de culture pour les personnels AP-HP. Donc à côté de tout l’aspect technique mis en place, il y a aussi tout un effort de pédagogie, pour pouvoir rassurer les médecins mais aussi les patients auprès de qui nous avons mené des campagnes d’information. Plusieurs équipes – DSI, délégation de la recherche clinique, communication… – ont ainsi été mises à contribution au fil du temps pour pouvoir porter et déployer ce projet”. Le Dr Christel Daniel abonde : “il n’y a pas eu quatre ans d’effort avant que ne soit déployée une solution. C’est une solution qui a commencé sur un petit périmètre, à la fois de données et de fonctionnalités, et qui s’est étoffée au cours du temps”. Enfin, le Dr Claire Hassen-Khodja indique que “sept data scientists aujourd’hui travaillent au sein des unités de recherche clinique (URC) de l’AP-HP. Nous espérons pouvoir en recruter davantage pour accompagner les chercheurs dans la réalisation de leurs projets”. Les projets en cours La gouvernance de l’EDS est centrée autour du comité scientifique et éthique qui se compose de vingt personnes : des médecins, des chercheurs externes à l’AP-HP dont des mathématiciens, mais aussi des représentants des patients. “Quand il y a collaboration avec un partenaire privé, le comité s’assure du rôle de l’entreprise dans le projet, des conflits d’intérêt éventuels, du respect des règles de gouvernance, notamment que les traitements de données ont lieu par défaut sur les serveurs de l’AP-HP et que des données ne sont pas extraites dans tous les sens”, développe le Dr Claire Hassen-Khodja. En moyenne, quatre à cinq nouveaux projets sont soumis tous les mois. Ainsi, 61 projets d’intelligence artificielle (IA) étaient soumis à fin 2019, “la moitié en lien avec l’imagerie”, notait Jérôme Marchand-Arvier. L’idée, pour l’ensemble de ces projets, est d’identifier et caractériser un besoin clinique puis l’EDS construit, enrichit et met à disposition un jeu de données adapté au sein d’un espace de travail. L’algorithme peut alors être développé et testé, puis validé. Il est ensuite intégré au sein d’un logiciel évalué et validé. Enfin, une phase de “surveillance” consiste à vérifier l’impact sur les pratiques et les résultats des soins. À fin septembre 2020, plus de 120 projets ont été déposés auprès du comité scientifique et éthique, dont le tiers “en appui à l’émergence de l’IA”. Et plus de 100 projets sur les données de l’EDS sont en cours, ayant reçu un avis favorable du comité scientifique et éthique. “On peut dire que ce sont des projets en cours parce qu’ils ont pour la quasi-totalité un espace Jupyter ouvert avec les données mises à disposition”, précise Dr Claire Hassen-Khodja. Leur liste est publiée par l’AP-HP sur un site dédié à l’EDS ; 56 d’entre eux portent sur la COVID-19. Et, parmi les projets en IA, la moitié relève de l’imagerie médicale. Dr Claire Hassen-Khodja indique à mind Health qu’“à ses débuts, l’enjeu du comité scientifique et éthique était de faire connaître l’EDS au sein de l’AP-HP et même de le faire accepter : au sein même de l’AP-HP, des équipes se font compétition, selon les spécialités, pour être la première à publier”. De fait, le peu de projets présentés à l’époque recevaient un avis favorable : “ils ont permis d’avancer sur la constitution de l’EDS, sa structuration, son appropriation par les professionnels de santé. C’était de premiers projets très moteurs. Maintenant, vu le nombre de projets déposés, le comité se montre un peu plus sévère”. À terme, pourrait se poser la question d’une sélection encore plus drastique “parce que tous les projets ne pourront pas être menés”. Le budget Si le Dr Christel Daniel répond à mind Health que l’exercice n’a pas été fait formellement, elle indique qu’il s’agit essentiellement d’un budget de personnels et d’infrastructure, ainsi que “tout un ensemble de coûts qui ne sont pas aussi faciles à évaluer : beaucoup d’activités en appui mobilisent des personnes dans les groupements hospitaliers qui ont d’autres fonctions et qui contribuent soit au travers de la comitologie – nous avons plusieurs comités de pilotage – ou sur des tâches de coordination”. Par ailleurs, l’AP-HP “commence à pouvoir asseoir des recrutements sur des budgets de projets de recherche”. Enfin, Dr Claire Hassen-Khodja ajoute qu’“à la DRCI, un secteur des collaborations est en charge de la contractualisation et de la négociation pour tout ce qui touche à la propriété intellectuelle et au partage de la valorisation”. Cette question se résout “projet de recherche par projet de recherche. Y a-t-il développement d’algorithme avec un souhait de commercialisation derrière, par exemple ? Parfois il y a du partage de propriété intellectuelle, parfois elle est cédée mais en contrepartie de redevances sur la commercialisation des modèles”. Une politique de transparence, de promotion et de collaboration mise en œuvre L’AP-HP a initié le 30 septembre 2020 une série de séminaires autour de son entrepôt de données de santé. Il s’agit d’une collaboration avec datacraft et le Sorbonne Center for Artificial Intelligence (SCAI), qui prendra la forme d’un programme d’ateliers autour des données de santé “afin de contribuer à une meilleure connaissance et à une promotion des données de l’EDS auprès d’un public assez large (chercheurs spécialisés en santé ou non, entreprises, start-up, étudiants, et tous secteurs confondus) et de mettre en place et animer une dynamique de collaboration, d’échanges de bonnes pratiques en matière de data science et de recherche autour des données de l’AP-HP”. Le programme est encore en cours d’élaboration. base de donnéesbig dataDonnées de santéEssais cliniquesHôpitalIntelligence ArtificiellemédecinPatientPlateformesPublic/PrivéRecherche Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire Laurent Treluyer (AP-HP) : “Nous sommes en train de transformer notre DSI pour en faire un centre de services” Trois acteurs privés parmi les porteurs de projets sélectionnés par le Health Data Hub et le Grand défi Signature d'un accord-cadre entre l'AP-HP et Bayer sur la recherche clinique et l'IA Au coeur de l’entrepôt de données de santé de l’AP-HP Comment accéder à l’entrepôt de données de santé de l’AP-HP