Accueil > Parcours de soins > De l’entrepôt de données au recrutement de patients pour la recherche à l’Institut Imagine De l’entrepôt de données au recrutement de patients pour la recherche à l’Institut Imagine Débuté en 2012, le projet d’entrepôt de données de l’Institut Imagine s’est traduit par la mise en place de Dr Warehouse. Du recrutement de patients pour la recherche et les études cliniques à la génération de nouvelles hypothèses sur les maladies, l’outil se pare de plusieurs fonctionnalités. Après une présentation lors de la journée de la recherche clinique de l’Afcros en janvier 2020, son concepteur, Nicolas Garcelon, responsable de la plateforme de datascience de l’Institut Imagine, détaille pour mind Health la mise en place de ce projet et les développements à venir. Par Aurélie Dureuil. Publié le 19 février 2020 à 18h57 - Mis à jour le 24 novembre 2020 à 12h27 Ressources “Les données médicales du patient constituent un gisement de connaissances pour la recherche clinique, la recherche épidémiologique, le pilotage médico-économique, l’évaluation des pratiques, les vigilances…”, a expliqué Nicolas Garcelon, responsable de la plateforme de datascience de l’Institut Imagine, lors de la journée de la recherche clinique de l’Association françaises des entreprises de la recherche clinique (Afcros) le 30 janvier 2020 à Paris. Au sein de l’Institut Imagine, il a mis en place un entrepôt de données nommé Dr Warehouse. Nicolas Garcelon a rappelé le principal verrou à la réutilisation de ces données : “leur accessibilité”. Pour mind Health, il se remémore : “quand je suis arrivé à l’institut en 2012, les données n’étaient pas vraiment structurées. Il fallait un outil pour retrouver rapidement les patients quand les chercheurs voulaient initier une étude clinique”. En effet, l’Institut Imagine est spécialisé dans la prise en charge et la recherche sur les maladies génétiques. Il a vu, fin 2019, son statut d’institut hospitalo-universitaire (IHU) renouvelé par l’Agence nationale de la recherche (ANR) pour la période 2020-2024. Il compte 1 000 salariés, majoritairement des médecins, chercheurs et personnels de santé. Il recense ainsi 24 équipes de recherche, un département de recherche clinique, 25 centres de référence maladies rares et sept unités hospitalières. Il comprend également 14 plateformes technologiques : outre celle de datascience, dirigée par Nicolas Garcelon, elles concernent entre autres la génomique, la protéomique, l’imagerie cellulaire et la bio-informatique. Répondre à trois enjeux Pour répondre aux besoins des chercheurs comme des professionnels de santé, Nicolas Garcelon s’est attelé à la construction de l’entrepôt de données de l’Institut Imagine pour répondre à “trois défis identifiés : trouver des patients pour la recherche et les études cliniques, fouiller les données et favoriser la recherche translationnelle”. Il liste d’abord les difficultés liées à l’hétérogénéité des formats, le cloisonnement des données… “Dans un hôpital comme Necker (auquel est adossé l’Institut Imagine, ndlr), il doit y avoir près de 200 logiciels. Les médecins créent des fichiers Excel ou des mini bases de données qui sont incomplets, non partagés, difficilement exploitables”, constate le responsable de la plateforme. Il pointe également les efforts des administrations hospitalières qui “ajoutent des formulaires structurés dans le dossier patient informatisé mais les médecins ne vont saisir que le champ commentaire. Cela pose la question du codage a priori, l’ergonomie du DPI est à revoir…” S’appuyer sur une solution open source Pour créer l’entrepôt de données, Nicolas Garcelon a d’abord cherché à “comprendre comment sont produites les données”. Il a ensuite fallu “prioriser les données” et “comprendre le fonctionnement de l’Institut, entre les données produites par les médecins, celles des attachés de recherche clinique… Il y a tout un écosystème complexe et chacun va produire et consommer ces données”, observe-t-il. Il note également “la vraie difficulté” liée au temps passé par les différents intervenants à la production de ces données. “Il fallait valoriser ce temps tout en évitant que les médecins saisissent les données plusieurs fois, donc en allant les chercher à la source”, indique Nicolas Garcelon. Il a réalisé un état des lieux des sources de données existantes, ce qui inclut des bases de données générées entre 1995 et 2010 ayant été arrêtées mais restant néanmoins accessibles. Dr Warehouse a été développé from scratch en PHP. Le logiciel est déposé depuis fin 2017 sous licence Open Source (GNU GPL), précise Nicolas Garcelon. Développer un algorithme de traitement automatique du langage pour améliorer la précision de recherche Il a ensuite travaillé sur le moteur de recherche, afin de “retrouver des patients et non pas des documents”, “proposer une recherche intuitive simple” et également “une recherche complexe” tout en conservant “le contexte de l’information”, c’est-à-dire permettant de “comprendre pourquoi on trouve ces patients”, détaille Nicolas Garcelon. Après avoir réalisé cette étape, les premiers résultats ne s’avéraient pas concluants : “nous nous sommes rendus compte que nous avions 70 % de faux positifs, car dans les comptes-rendus médicaux il y a des tournures de phrases négatives et les antécédents familiaux”, souligne Nicolas Garcelon. Il ajoute : “il a fallu mettre en place une stratégie de traitement automatique du langage lié à ces deux facteurs”. Ce développement effectué entre 2014 et 2015 a fait l’objet d’une publication dans le Journal of American Medical Informatics Association en 2017. Il a en effet permis d’améliorer la précision du moteur de recherche de 28 % à 88 %, moteur aujourd’hui utilisé pour “faciliter la sélection de patients pour des études, pérenniser les cohortes créées et faciliter le travail collaboratif”, énumère Nicolas Garcelon. D’autres fonctionnalités pour la recherche clinique Une fois cette première brique mise en place, l’équipe de datascience a travaillé sur les autres fonctionnalités de l’entrepôt. D’abord pour permettre de “fouiller les données” grâce à des outils de visualisation des données agrégées. “Il s’agit d’extraire d’un compte-rendu tous les phénotypes et génotypes des patients et de restructurer cette information de manière automatisée. On peut ainsi obtenir la description d’une cohorte de manière automatisée et par exemple l’âge de la première évocation des signes. Cela permet de déterminer des signes précoces pour l’aide au diagnostic”, détaille Nicolas Garcelon. Contrairement au génotype qui est déterminé par l’étude des gènes, le phénotype est l’ensemble des signes observables. À partir de là, Nicolas Garcelon a travaillé sur le fait de trouver des similarités entre patients. Il a mis au point un algorithme pour calculer “la distance phénotypique entre les patients” à partir de leurs comptes-rendus médicaux. “À partir du dossier d’un patient, le médecin peut en un clic obtenir les 20 patients similaires à ce patient index. Cela aide à la prise en charge, au diagnostic, au recrutement dans les essais cliniques…”, souligne le responsable. Pour aller plus loin, il développe maintenant la possibilité d’une alimentation semi-automatisée d’un eCRF (formulaire électronique pour les essais cliniques) intégré à Dr Warehouse. Cet outil est en cours d’évaluation au sein de l’hôpital Necker, précise Nicolas Garcelon. Une autre évolution envisagée est l’intégration des “données omiques”. Le responsable de la plateforme indique avoir obtenu un financement de cinq ans dans le cadre d’un programme de recherche hospitalo-universitaire. Le projet Atraction est mené en partenariat avec la société française Ariana Pharma. Une demande d’autorisation en cours auprès de la Cnil Depuis le début du projet Dr Warehouse, Nicolas Garcelon indique avoir intégré 26 sources de données recueillies entre 1996 et 2019. Ce qui représente 700 000 patients et 6,4 millions de documents. 330 personnes l’utilisent ou l’ont utilisé, ce qui a généré 18 000 requêtes et la création de 844 cohortes. Et une enquête menée auprès d’une cinquantaine d’utilisateurs a permis de recueillir un taux de satisfaction de 95 %. Si le projet a débuté avant l’entrée en application du règlement général sur la protection des données (RGPD), Nicolas Garcelon précise que “l’entrepôt reste stocké dans l’hôpital qui en a la gouvernance et est responsable de traitement. Une autorisation avec une coresponsabilité entre Necker et l’Institut Imagine est en train d’être soumise à la Commission nationale de l’informatique et des libertés (Cnil)”. Il indique également que “les patients sont informés par voie d’affichage” et que “le médecin n’accède qu’aux patients qui sont passés au moins une fois dans son service”. L’outil est utilisé dans cinq autres établissements hospitaliers. Et, en 2017, une start-up a été créée pour accompagner son déploiement. Nommée Codoc, elle a pour objectif d’“aider les hôpitaux à mettre en oeuvre l’outil”, indique Nicolas Garcelon. Il énumère les différentes étapes : “après avoir réalisé un état des lieux des sources de données, il s’agit de développer les connecteurs pour les principales bases de données : les mouvements des patients dans l’hôpital, le DPI, le PACS (picture archiving and communication system, ndlr) et la biologie… et éventuellement le PMSI (Programme de médicalisation des systèmes d’information). Ensuite, on regarde s’il y a d’autres logiciels. Une fois que le serveur est installé, il faut environ 3 mois pour obtenir un entrepôt de données fonctionnel”. Chiffres-clés de l’implémentation 2012 : début du projet Fin 2017 : logiciel déposé sous licence Open Source (GNU GPL) 26 sources de données recueillies entre 1996 et 2019, soit 700 000 patients et 6,4 millions de documents 330 personnes l’utilisent ou l’ont utilisé 18 000 requêtes Création de 844 cohortes 1 start-up créée : Codoc Aurélie Dureuil base de donnéesDonnées de santéEssais cliniquesHôpitalRecherche Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind