Accueil > Parcours de soins > Julien Guérin (Institut Curie) : “Il nous faut trouver en France un bon équilibre entre innovation et régulation” Julien Guérin (Institut Curie) : “Il nous faut trouver en France un bon équilibre entre innovation et régulation” Nouvelles méthodes pour développer des projets intégrant de l’IA, forces et limites d’une approche centralisée des données, freins à l’usage de celles-ci dans le cadre de projets de recherche…Julien Guérin, Directeur des données de l’Institut Curie depuis décembre 2022, nous dévoile les coulisses de la gestion des données d’un grand centre de lutte contre le cancer et nous éclaire sur son futur EDS, prochain jalon de sa feuille de route. Par Romain Bonfillon. Publié le 10 octobre 2023 à 23h11 - Mis à jour le 11 octobre 2023 à 11h26 Ressources L’Institut Curie est l’un des fers de lance de l’apprentissage fédéré en France, au travers notamment du projet Oncolab. Quel est son stade d’avancement ? Ce projet a mis du temps à démarrer, compte tenu du nombre d’acteurs impliqués (Arkhn, Owkin, Inria, l’Institut Curie, l’Institut Bergonié, l’IUCT-Oncopole et le CHU de Toulouse, ndlr). Nous en sommes pour l’instant à la construction des cas d’usage. Ce projet va apporter des éléments intéressants pour montrer l’intérêt des infrastructures fédérées, versus la centralisation des données, concernant l’interopérabilité des données. Le développement futur des projets intégrant de l’IA ne passera pas par l’analyse de données forcément centralisées. Nous pourrons faire un premier retour d’expérience dans quelques mois, vraisemblablement au second trimestre 2024. OncoLab, une plateforme pour structurer et libérer la donnée en oncologie Vous semblez opposer deux modèles : l’apprentissage fédéré, versus la centralisation des données… Je ne les oppose pas, je pense que ce sont des schémas tout à fait complémentaires. Mais la centralisation a pour moi des limites dès lors que l’on se met à parler de lames numérisées en anatomopathologie ou de données génomiques. Ces données sont extrêmement volumineuses, nous parlons ici de pétaoctets de données, et l’on voit très bien que la centralisation va se heurter à des contraintes physiques. Pour maintenir et gérer des stocks d’information extrêmement conséquents, je prône plutôt une approche de cartographie très fine de l’information, pour dire où se trouvent les données, en laissant ces dernières dans leur environnement de production. En revanche, lorsqu’un projet de recherche est mis en œuvre, on doit pouvoir disposer de zones de stockage centralisées, pour pouvoir potentiellement réaliser les analyses. C’est donc un modèle hybride que je défends. L’approche centralisée du Health Data Hub (HDH) fait face à l’émergence d’entrepôts de données de santé (EDS), comme le Ouest Data Hub ou l’OncoDataHub. Cette approche multipolaire, par région ou par pathologie, est-elle idéale ? Le Ouest Data Hub semble bien fonctionner, mais cela reste un réseau. Nous sommes aujourd’hui face à des nœuds, qui disposent d’une forme de souveraineté sur leur information. Ce sont ces réseaux qu’il faut réussir à faire communiquer entre eux. C’est ce que nous allons essayer de réaliser au sein de la fédération Unicancer, avec le projet OncoDS pour lequel nous avons décroché un financement dans le cadre de l’AAP EDS de France 2030. Nous allons mettre en réseau nos différents EDS, 12 au total, avec l’optique de pouvoir se connecter aux autres réseaux. L’interopérabilité va avoir ici tout son sens, puisque la question du langage commun est déterminante pour partager de l’information entre réseaux. Cette même question se pose à l’échelle européenne. Aujourd’hui, le HDH se positionne comme le nœud national pour le partage de données au niveau de l’EHDS, auquel je participe. Un maillage va devoir se mettre en place et communiquer, sans pour autant qu’il y ait nécessité de centraliser l’information. Là encore, selon moi, il s’agit plutôt d’être en mesure de communiquer les métadonnées qui permettent la cartographie de l’information. Après seulement, lorsque les projets seront en place, nous pourrons mettre en commun des données, par projet et pas dans une forme de centralisation automatique. Pr Marc Cuggia (Université Rennes1 – Inserm – CHU de Rennes) : “Penser en amont la convergence des entrepôts de données de santé” À propos du projet Oncolab, vous avez confié à mind Health que vous consommiez une énergie importante pour mettre à disposition les données. Cela semble être aussi le cas de la Cnam, pour la mise à disposition des données du SNDS. Quel regard portez-vous sur ces difficultés ? Le SNDS est une base d’une infinie complexité, qui a surtout été conçue pour gérer les remboursements à l’échelle nationale. Le modèle de cette base n’a donc pas du tout été pensé pour faire une exploitation rapide et simple de la donnée dans le cadre de la recherche, même si l’on a compris depuis quelques années que c’était une mine d’or et qu’il fallait pouvoir l’exploiter avec cette finalité. Quand on veut aller sur les données du SNDS, cela nécessite de raffiner systématiquement l’information, de faire des ponts, des transformations de données qui sont parfois assez coûteuses et complexes et qui sont à chaque fois propres à la question que l’on se pose. C’est finalement un peu le travail que chaque établissement de santé devrait pouvoir conduire : exploiter les données qui sont produites dans le cadre du soin pour en faire des données à forte valeur ajoutée en recherche. Le travail de la direction des données de Curie est précisément celui-là : prendre la donnée telle qu’elle est et en faire une information à forte valeur ajoutée dans le cadre de la décision thérapeutique. C’est le “R” des principes FAIR (Findable, Accessible, Interoperable, Reusable) qu’il nous faut travailler. À chaque nouveau projet de recherche que l’on reçoit, nous devons faire de nouveaux efforts pour retraiter l’information. Notre objectif est d’avoir une donnée qui soit la plus finement décrite et qui puisse être exploitable dans de multiples projets, sans passer préalablement par des mois de travail de curation. Quels sont aujourd’hui les freins à une exploitation rapide de la donnée clinique ? Il nous faut trouver en France un bon équilibre entre innovation et régulation. Lorsque je veux construire un projet de recherche, les délais vont être entre 12 et 24 mois, si l’on veut rester dans les clous. ll y a une incompatibilité entre l’interprétation du RGPD faite par la Cnil et la réalité de la recherche aujourd’hui. Nous sommes en train de tuer notre compétitivité en recherche. Veut-on aujourd’hui être les champions de la régulation, au risque finalement de laisser l’innovation aux équipes américaines ou chinoises, ou veut-on être en mesure de pouvoir rester dans cette course ? Il ne s’agit pas, bien sûr, de renoncer au RGPD, mais de définir un cadre propre à la recherche. Ce RGPD, lorsqu’il a émergé en 2018, a été aussi conçu pour contrôler l’activité des réseaux sociaux et des GAFAM. Nous, établissements de soins et de recherche, sommes finalement considérés au même titre qu’un acteur comme Google ou Amazon, du point de vue du régulateur. C’est ce qui pose problème. Il faudrait que l’on puisse avoir deux poids deux mesures et que l’on permette aux équipes de recherche d’avancer en utilisant les données dans un cadre sécurisant mais simplifié. À quoi ressemblerait ce cadre simplifié ? L’Institut Curie, qui comprend un hôpital et un centre de recherche, dispose d’un unique système d’information. Pour autant, nous avons quand même une forme de barrière entre le soin et la recherche. Dans le cadre de la mise à disposition de nos données, nous nous obligeons à respecter toutes les règles édictées par la Cnil, notamment l’anonymisation, et la pseudonymisation qui sont parfois des actions très coûteuses. Nous aimerions, au sein de notre institution et avec un cadre informatique sécurisé, pouvoir travailler sans avoir à respecter ces contraintes administratives extrêmement lourdes. In fine, le risque est que ce soit Google et Amazon qui proposent les innovations, puisque nos moyens sont sans commune mesure. L’Institut Curie a la réputation d’être assez pointu sur la valorisation de la donnée, au point que certains laboratoires vous considèrent comme “durs en affaires” ? Quelle est votre philosophie en matière de valorisation ? Nous bénéficions aujourd’hui d’un travail de réflexion de plusieurs années. C’est peut-être pour cela que nous avons une idée un peu plus fine des moyens de valoriser tout le travail autour de la donnée. Rappelons tout d’abord que l’on ne vend pas de la donnée, c’est bien le travail qui permet son utilisation que nous valorisons. Nous avons la chance de pouvoir travailler avec la direction de la valorisation et des partenariats de l’Institut Curie pour poser ce cadre. Nous disposons désormais de grilles de lecture, par grandes typologies de projets, pour savoir quelle valeur a la donnée que nous mettons à disposition. Le projet mobilise-t-il des données cliniques, de l’image médicale, des données génomiques ? Est-ce qu’un ensemble d’acteurs divers et variés sont impliqués dans le projet ? De combien de patients parle-t-on, de quels volumes de données ? Ce sont autant de paramètres que nous avons aujourd’hui rentrés dans notre grille, afin d’estimer la valeur du travail qui va être produit pour réaliser la mise à disposition des données et leur usage. Comment se mesure le travail des équipes de l’Institut Curie sur la donnée ? La chaîne de valeur de la donnée est l’autre aspect important de la valorisation. Rappelons que la donnée n’appartient ni au patient, ni à l’institution et il faut considérer cette chaîne de valeur à son point de départ, lorsque le patient donne son droit à l’usage de l’information. C’est la question de la non-opposition et du consentement, qui est majeure et qui se mesure. Le médecin va ensuite gérer les informations cliniques importantes qui seront recensées dans le dossier médical. À ce niveau, la valeur de l’information est encore extrêmement brute. Il faut donc ensuite considérer l’institution qui va gérer le stockage, la transformation et la pseudonymisation des données. À l’arrivée, nous aurons encore sur cette chaîne de valeur l’intervention de data scientists, de bio-statisticiens, qui vont rendre la donnée utile et utilisable. C’est l’ensemble de cette chaîne de valeur de la donnée qui va, lors de la phase de contractualisation avec un industriel, nous permettre de déterminer la valeur d’un projet. La nature de vos interlocuteurs, start-up ou grand industriel, compte-t-elle aussi dans l’établissement de cette valeur ? Nous mesurons en effet ce que la personne en face de nous va chercher à faire avec la donnée. Si l’Institut Curie est juste data broker (collecteur de données dans le cadre d’une étude), nous n’aurons pas grand-chose à valoriser, si ce n’est la mise à disposition de l’information. Dans ce cas, sans retour direct sur investissement, nous aurons tendance à demander un volume financier un peu plus important, puisqu’il n’y aura pas d’échange de bons procédés entre Curie et l’industriel. En revanche, si une start-up nous propose un algorithme innovant, pour lequel on aura un droit d’usage, voire un transfert de propriété intellectuelle, la discussion va pouvoir se situer à différents niveaux, et pas seulement sur la mise à disposition de la donnée. Quelles données ont aujourd’hui le plus de valeur ? Le caractère multimodal de l’information est aujourd’hui majeur. De plus en plus de projets nous demandent de la donnée clinique en lien avec des images médicales et des données génomiques, qui peuvent avoir un pouvoir prédictif. C’est autant de difficultés qui entrent en compte dans la construction d’un projet. Quel est la prochaine grande étape de votre feuille de route ? Notre plus grand projet est notre entrepôt de données de santé. Nous avons fait le dépôt au mois de juin d’un dossier EDS à la Cnil. Il est conforme au référentiel publié en 2021 et nous espérons mi-octobre obtenir une réponse positive, pour déployer notre EDS. Une première version pourrait voir le jour d’ici juin 2024. Cela ferait de l’Institut Curie le premier centre de lutte contre le cancer français à disposer de son propre EDS. La direction des données sera l’exploitant de cet entrepôt, ce qui nous permettra d’ouvrir beaucoup de services innovants auprès de nos équipes de recherche. En parallèle, nous pourrons aussi l’utiliser pour construire des projets avec des industriels. Cela nous ouvre de nouvelles perspectives. L’un de nos rêves est de faire de la Direction des données de l’Institut Curie une véritable plateforme de services, afin de pouvoir générer des financements et de soutenir tous les projets que l’on souhaite dans les années qui viennent. Julien Guérin Depuis décembre 2022 : Directeur des données de l’Institut Curie 2013 : Rejoint la Direction des systèmes informatiques de l’Institut Curie 2011-2013 : Solution architect et Team leader chez Capgemini 2004 : DESS d’informatique appliquée à la biologie (Université Pierre et Marie Curie) Romain Bonfillon base de donnéescancerCNILDonnées cliniquesDonnées de santéEntrepôt de données de santéHealth data hubIntelligence ArtificielleInteropérabilitéoncologieRGPD Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire Entretien Amaury Martin (Institut Curie) : "Les start-up issues de l’Institut Curie ont levé 148 M€ en 2021" L'Institut Curie dévoile son programme d'incubation Anatomopathologie et IA : la filière en quête d’un modèle économique L’IA va-t-elle vraiment révolutionner la recherche ?