Accueil > Industrie > HealthChain, les enseignements de l’apprentissage fédéré HealthChain, les enseignements de l’apprentissage fédéré En janvier 2023, Owkin a publié dans Nature Medecine les résultats de recherche du projet HealthChain, mené en collaboration avec le Centre Léon Bérard, l’Institut Curie, l’Institut Gustave Roussy et l’Institut Universitaire du Cancer de Toulouse. Ils démontrent pour la première fois la valeur de l’apprentissage fédéré pour entraîner des modèles de machine learning. Mathieu Galtier, Chief Data & Platform Officer d’Owkin et Thierry Durand, Délégué à la protection des données du Centre Léon Bérard, sont revenus pour mind Health sur les coulisses de ce projet. Par Coralie Baumard. Publié le 04 avril 2023 à 22h43 - Mis à jour le 05 avril 2023 à 17h05 Ressources L’apprentissage fédéré (federative learning) est une piste sérieuse pour transformer la recherche médicale. La plupart des projets d’intelligence artificielle repose sur la collecte massive de données pour construire des bases centralisées sur lesquelles les modèles seront entraînés, mais cette approche limite la possibilité de mener des projets collaboratifs, au vu des enjeux de confidentialité et de sécurité des données. L’apprentissage fédéré répond à ces défis, cette technique d’apprentissage automatique décentralisée permet de former des modèles avec plusieurs fournisseurs de données sans qu’aucun des acteurs n’ait besoin de déplacer ou de partager ses données. Les bénéfices de l’approche multicentrique Le 19 janvier 2023, Nature Medicine a publié les résultats de recherche d’Owkin et de ses partenaires (le Centre Léon Bérard, l’Institut Curie, l’Institut Gustave Roussy et l’Institut Universitaire du Cancer de Toulouse) sur l’utilisation de l’apprentissage fédéré appliquée à des données médicales en conditions réelles. Jusqu’à présent, la plupart des études publiées simulaient l’apprentissage fédéré en distribuant artificiellement des données dans des faux centres. En s’appuyant sur les données pathologiques numériques et aux informations cliniques de 650 patientes conservées dans ces quatre hôpitaux, Owkin a construit des modèles d’intelligence artificielle (IA) capables de générer une prédiction de la réponse future des patientes atteintes d’un cancer du sein triple négatif (TNBC) à une chimiothérapie néoadjuvante. En utilisant une intelligence artificielle interprétable pour extraire des informations de lames de pathologie numérique, l’entreprise franco-américaine a pu mettre en exergue de nouveaux biomarqueurs potentiels. Cette découverte pourrait améliorer la personnalisation des soins médicaux en aidant à orienter les patients vers de nouveaux traitements ou des traitements plus adaptés. PortrAIt : la France veut devenir leader de l’IA appliquée à la pathologie numérique Autre apprentissage clé pour Owkin, la validation de sa méthodologie et de son approche multicentrique pour entraîner des modèles de machine learning. “Le message clair est que cette méthodologie est vraiment la méthodologie du futur. Dans vingt ans, aucun algorithme de machine learning ne sera entraîné que sur un seul centre, aussi grand soit-il, et appliqué dans d’autres. Nous serons obligés d’exposer nos modèles de machine learning à une diversité de centres, de cas d’usage, de logiciels, de méthodes de recrutement. Cette gestion de l’hétérogénéité est au cœur de l’enjeu de l’intelligence artificielle en santé”, souligne Mathieu Galtier, Chief Data & Platform Officer. HealthChain a également confirmé le bénéfice de l’apprentissage fédéré pour assurer la fiabilité des modèles. “La question centrale du machine learning en santé n’est pas nécessairement la précision, c’est la robustesse” Mathieu Galtier, Chief Data & Platform Officer. d’Owkin “L’apprentissage fédéré permet d’entraîner des modèles sur différents hôpitaux, ce qui leur donne une robustesse et une capacité à s’appliquer dans d’autres établissements, c’est absolument fondamental. Une des découvertes que nous avons fait collectivement, c’est que la question centrale du machine learning en santé n’est pas nécessairement la précision, c’est la robustesse. En moyenne, les modèles de federated learning sont meilleurs. Les modèles qui ne sont pas entraînés de cette manière peuvent être très bons sur les données d’un centre et catastrophiques sur un autre, ils sont soumis au risque de surapprentissage”, détaille Mathieu Galtier (en statistique, le surapprentissage, ou sur-ajustement est une analyse qui correspond trop précisément à une collection particulière d’un ensemble de données, ndlr). Construire une plateforme open source Résoudre de grands défis technologiques grâce à des projets collectifs, c’était l’objectif affiché par l’appel à projets “Grands défis du Numérique” de Bpifrance, auquel Owkin a soumis le projet HealthChain. Ce dernier obtient alors un financement pour une durée de trois ans et demi, l’enveloppe globale atteignant 10 millions d’euros. “L’objectif premier était de construire une plateforme d’apprentissage fédéré, Substra, et de la valider dans un cas académique médical, sur le cancer du sein et le cancer de la peau. Cette technologie open source n’existait pas à l’époque”, assure Mathieu Galtier. Désormais hébergée par la Linux Foundation for AI and Data, Substra demeure aujourd’hui en open source. Outre le défi de gérer un projet avec différents hôpitaux, Owkin a également dû apprendre à travailler avec différents interlocuteurs au sein des établissements. “Nous avons interagi avec trois types d’interlocuteurs. Premièrement les médecins, des anatomopathologistes ou des médecins spécialistes, des oncologues sur le cancer du sein. Nous avons travaillé avec eux sur la formalisation de la question scientifique, la sélection des patients, l’écriture du papier scientifique. Deuxièmement, les DSI des hôpitaux, qui nous ont permis de structurer l’ensemble des activités, que ce soit autour de la gestion et de la protection des données, car le RGPD a été promulgué lors du projet, mais aussi sur des aspects sécurité ou d’infrastructures. Ils ont vraiment été des partenaires importants. Les derniers interlocuteurs ont été les cellules de valorisation des hôpitaux. Nous avons dû mettre en place avec elles un cadre contractuel assez avancé, avec un accord de consortium intégrant des contrats spécifiques. Discuter avec les services de valorisation est absolument crucial pour pouvoir avancer”, souligne Mathieu Galtier. Thierry Durand, directeur des systèmes d’information (DSI) et délégué à la protection des données (DPO) du Centre Léon Bérard (CLB) à l’époque du projet (il est aujourd’hui essentiellement DPO, ndlr.) confirme l’importance d’un vrai partage des rôles et de la complémentarité des équipes dans la réussite du projet : “Nous gérions les données brutes, le temps médecin, l’implémentation opérationnelle, tandis qu’Owkin se concentrait sur la technologie IT, les data et la gestion de projet. “ Un projet riche d’enseignements HealthChain a été un terrain d’apprentissage sur la question de l’IA pour le Centre Léon Bérard. Thierry Durand, DPO du Centre Léon Bérard. Image tirée de “Humanity : Les personnes au cœur des soins de santé augmentés par l’IA”. Photographie de Florent Tribalat “Nous avons appris sur la préparation des données, sur ces différences richesses mais qui sont aussi la réalité de l’lA. Quand nous avons commencé à aligner les données, nous nous sommes aperçus que les résultats étaient très différents dans les données brutes de Curie et du CLB que nous mettions à disposition d’Owkin. Alors que nous faisons partie de la même fédération Unicancer, que nous avons une histoire commune, que nous sommes spécialisés sur le cancer et que Curie est un établissement avec lequel nous travaillons très fréquemment. Nous avons identifié que les techniques, les produits, pour transformer la tumeur en lame étaient différents et introduisaient des lames différentes. L’IA ne le comprenait pas au début”, raconte Thierry Durand. Plus que l’implémentation, c’est la préparation des données qui a représenté un défi pour les équipes systèmes d’information. “Lors de la numérisation de nos lames d’anapath, nous nous sommes aperçus que l’identité du patient était explicitement écrite sur nos lames. Nous avons fait faire des développements spécifiques à notre partenaire de laboratoire virtuel pour les anonymiser mais nous avons également mis en en place des workflow pour requêter les lames”, décrit Thierry Durand. Pour Owkin, HealthChain a également été l’occasion de tenter d’intégrer la blockchain dans un projet. “Il faut bien qu’il y ait des échecs au milieu des succès. Quand nous avons commencé le projet, le federated learning était adossé à une blockchain de consortium. La plateforme avait une traçabilité par défaut, il était impossible pour nous de détruire ou de modifier l’historique des opérations faites. Il y avait vraiment cette idée de ne pas faire de shadow computation. La complexité technologique était beaucoup plus grande que ce à quoi nous nous attendions, nous avons réussi à la faire tourner mais lorsqu’on a amélioré la version nous nous sommes retrouvés face à une difficulté renouvelée. De plus, la blockchain nous donnait un incrément de valeur qui était minime par rapport à notre cadre légal, éthique et contractuel. Nous avons donc enlevé la blockchain, ce projet n’était pas un bon cas d’application. Selon moi, la blockchain en santé ce n’est pas pour tout de suite, le secteur n’est pas prêt “, affirme Mathieu Galtier. Reste qu’HealthChain a vraiment posé les bases du positionnement d’Owkin. “Aujourd’hui, il y a une dizaine de projets dans lesquels nous utilisons Substra, certains sont terminés, d’autres encore en cours. C’est devenu le cœur de notre technologie, un de nos différenciateurs principaux, nous sommes connus pour le federated learning. Et, le tout début de cette approche à Owkin, c’est le projet HealthChain”, résume Mathieu Galtier . Préparer l’avenir avec les données HealthChain a enclenché des transformations organisationnelles à long terme dans les hôpitaux impliqués. “L’acculturation technologique a également été un véritable apport, nous avons financé dans chacun des centres le poste d’un data engineer. Il était vraiment clé dans le fonctionnement du projet, car il faisait le lien entre les médecins, la DSI et Owkin. Certains centres ont vraiment fait de ce mode d’organisation un cas d’école et ont placé le rôle de data engineer au centre de leur évolution future”, témoigne Mathieu Galtier. Le Chief Data & Platform Officer d’Owkin souligne également l’avantage pour les hôpitaux d’avoir des données à l’état de l’art : “Beaucoup d’efforts sont passés dans la génération, le nettoyage et l’harmonisation des données. Un des bénéfices pour les centres qui a énormément de valeur et qu’on sous-estime beaucoup en France, c’est de mettre en place leur base de données afin de pouvoir éventuellement les réutiliser dans d’autres projets. En Europe, nous n’avons pas encore atteint le niveau de maturité où l’investissement permet d’améliorer nos données. Alors que nous participons à des projets avec du federated learning aux États-Unis, où l’objectif est d’avoir la meilleure base de données au monde sur une modalité, ils investissent directement dans la génération de datas.” “Avant HealthChain, nous n’avions pas cette expérience sur l’IA, depuis, nous avons créé une data factory avec une équipe dédiée pour préparer et sortir les données” Thierry Durand, délégué à la protection des données du Centre Léon Bérard Pour le Centre Léon Bérard, HealthChain a été l’occasion d’accélérer la stratégie data et IA entamée en 2015. “L’idée a toujours été pour moi de construire le futur. Nous avons beaucoup structuré notre façon de mettre à disposition des informations médicales, de les intégrer dans un pipeline qui est tracé, sécurisé, anonymisé. Avant HealthChain, nous n’avions pas cette expérience sur l’IA, depuis, nous avons créé une data factory avec une équipe dédiée pour préparer et sortir les données. Sur la période que couvre le projet HealthChain, nous avions peut-être eu deux ou trois exports de données pour des projets de recherche. Maintenant, nous faisons peut-être 80 exports par an“, affirme Thierry Durand. Depuis HealthChain, le Centre Léon Bérard a mené plusieurs autres projets sur l’apprentissage fédéré avec Owkin. L’établissement réfléchit aujourd’hui à entamer, sans la start-up, un projet porté par des chercheurs sur cinq sites, quatre en France et un en Angleterre. HealthChain n’aura été qu’un premier maillon. Coralie Baumard AlgorithmesBiotechsIntelligence ArtificielleoncologieRecherche Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire PortrAIt : la France veut devenir leader de l'IA appliquée à la pathologie numérique