TEST 15 JOURS

L’apprentissage fédéré, le futur de la médecine basée sur les données

La recherche sur l'intelligence artificielle (IA), et en particulier les progrès du machine learning et du deep learning ont permis l’émergence d’innovations de rupture, notamment en radiologie. Mais les données médicales existantes ne sont pas pleinement exploitées parce qu’elles se trouvent dans des silos et que des problèmes de confidentialité compliquent leur utilisation. L’apprentissage fédéré (federated learning) est une réponse à ces défis.
Par Coralie Baumard. Publié le 05 septembre 2023 à 15h27 - Mis à jour le 24 octobre 2023 à 11h50
Synthèse

Le contexte

Les débuts de l’apprentissage fédéré

L’apprentissage fédéré est une technique de machine learning qui permet à plusieurs fournisseurs de données d’entraîner et d’améliorer de manière collaborative un modèle de machine learning global partagé sans qu’aucun des acteurs n’ait besoin de déplacer ou de partager ses données. Le terme est apparu la première fois dans un article publié sur le blog de Google en avril 2017. L’entreprise l’expérimentant alors pour son algorithme de recommandation de contenu GBoard, qui propose du texte, GIF et émoticônes lors de la saisie ou encore des résultats de recherche sur internet. 

Le fonctionnement

L’apprentissage fédéré permet à plusieurs hôpitaux répartis sur différents sites géographiques de former conjointement un modèle de machine learning (apprentissage automatique) sur les données hébergées sur chaque site sans avoir à les partager. Pour former un modèle global d’apprentissage automatique, ce sont uniquement les paramètres des modèles formés séparément sur chaque site qui sont partagés. Les données ne quittent jamais les hôpitaux et la formation s’effectue par simple agrégation des paramètres des modèles pour finalement obtenir un modèle global.

Crédit: Fed-BioMed

Un développement particulièrement prometteur en santé

Dans le secteur de la santé, la technique s’avère particulièrement prometteuse car elle répond aux importants besoins en données des outils de diagnostic et de solution de soins de santé basés sur le machine learning. Autre avantage, les algorithmes qui entraînent les modèles de machine learning intègrent la notion de confidentialité. Un aspect important alors que les obligations concernant la protection des données personnelles se renforcent avec, notamment, l’application du Règlement général sur la protection des données (RGPD) depuis le 25 mai 2018. “Des responsabilités légales ont été définies dans le cadre du RGPD, il y a une notion de “data controller” : les hôpitaux doivent rester maîtres de leurs données patients. L’apprentissage fédéré permet de naviguer dans ce cadre légal qui existe en Europe mais aussi aux États-Unis avec l’Health Insurance Portability and Accountability Act (HIPAA)”, indique Jean Ogier du Terrail, Lead Research Scientist chez Owkin. L’entreprise franco-américaine créée en 2016 a fait de l’apprentissage fédéré le cœur de sa technologie. 

Nadim Daher, responsable Europe du développement de l’écosystème santé NVIDIA confirme que la sensibilité des données traitées et les obligations réglementaires font de la santé un secteur privilégié pour le développement de l’apprentissage fédéré: “Si l’apprentissage fédéré s’étend désormais à d’autre domaines, la santé reste, je pense, le segment le plus propice, le plus pertinent. De plus, si les institutions de santé génèrent énormément de données, elles n’ont pas encore appris à être des entreprises de data, elles n’ont pas les ressources nécessaires et la mutualisation s’avère donc intéressante. D’autre part, elles sont particulièrement ciblées par les pirates informatiques.” Un argument non négligeable à l’heure où les attaques se multiplient à l’encontre des hôpitaux. Avec l’apprentissage fédéré, le traitement des données de santé est sécurisé car le modèle de machine learning est entraîné sur des données décentralisées, les données sont conservées dans chacun des centres hospitaliers concernés sans être regroupées dans une base, plus sensible aux attaques. NVIDIA a élaboré NVIDIA FLARE (Federated Learning Application Runtime Environment), un outil open source à destination des chercheurs et des data scientist travaillant sur des projets d’apprentissage fédéré. Certains instituts de recherche sont également en pointe sur l’apprentissage fédéré comme l’Inria qui a notamment développé Fed-BioMed, une initiative de recherche et développement open source visant à traduire l’apprentissage fédéré en applications médicales réelle.

Dans l’actualité

  • En juillet 2023, la Cnil a publié le bilan de son “bac à sable” santé numérique. Cette publication contient notamment des recommandations concernant la mise en place d’un projet d’apprentissage fédéré en s’appuyant sur l’exemple de celui mis en place par le CHU de Lille et de l’équipe Magnet de l’Inria.
  • En janvier 2023,  Owkin a publié dans Nature Medecine les résultats de recherche du projet HealthChain, mené en collaboration avec le Centre Léon Bérard, l’Institut Curie, l’Institut Gustave Roussy et l’Institut Universitaire du Cancer de Toulouse. Ce projet est le premier à appliquer l’apprentissage fédéré à des données médicales en conditions réelles.
  • En juillet 2022, le consortium du projet MELLODDY, réunissant 10 grands laboratoires pharmaceutiques (Amgen, Astellas, AstraZeneca, Bayer, Boehringer Ingelheim, GSK, Janssen, Merck, Novartis et Servier) et 7 partenaires (l’université de technologie et d’économie de Budapest ou BME, les start-up françaises Iktos et Owkin, la société allemande de cloud Kubermatic, l’université belge KU Leuven, la société américain Nvidia et l’organisation Labelia Labs, anciennement Substra Foundation, spécialisée en data science “responsable”), a publié ses premiers résultats. Ce projet avait pour objectif d’appliquer l’apprentissage fédéré à la recherche de médicaments.

Les enjeux

Développer des modèles plus robustes

Entraîner un modèle sur plusieurs sources de données est un moyen de s’extraire des biais causés par l’équipement, les données démographiques ou encore le protocole d’acquisition qui fausserait ses performances de prédiction “Au-delà de la volumétrie, il y a également la question des cas spécifiques qu’on appelle les corner case. Il est important que l’algorithme les ai déjà vus, sache les identifier et faire des prédictions sur ces cas, même s’ils sont rares”, indique Nadim Daher.

Des domaines d’application multiples

“La tendance qui s’est dessinée ces quatre ou cinq dernières années est partie pour nous de l’imagerie médicale qui est même le segment le plus mature pour l’intelligence artificielle en santé. Mais ces dernières années, les domaines d’application se sont étendus au-delà de la radiologie, on a vu de l’apprentissage fédérée en génomique, mais aussi sur la modélisation moléculaire, pour la recherche de nouveaux candidats ou de nouveaux médicaments comme dans le cadre du consortium MELLODY auquel NVIDIA a participé. L’application de l’apprentissage fédéré au monde de la recherche de nouveaux médicaments est intéressant surtout avec cette nouvelle tendance allant vers des médicaments basés sur les anticorps, sur les protéines, donc des molécules beaucoup plus longues que les molécules traditionnellement employées dans la pharmacopée”, détaille Nadim Daher.

Pour Jean Ogier du Terrail, le gain le plus grand de l’apprentissage porte sur les maladies rares. “ Par exemple, il est difficile de faire du machine learning sur les cancers rares sans federated learning parce qu’il n’y a pas assez de données et que les algorithmes de machine learning ne vont peut être pas fonctionner. À Owkin nous avons étudié notamment la question des sarcomes, qui sont des cancers rares, avec plusieurs des meilleurs experts mondiaux venant de l’Institut Bergonié et du centre Léon Bérard.  Même les spécialistes voient très peu de cas de sarcomes dans leur vie et donc c’est très difficile pour eux de généraliser. Pour l’instant, les modèles de machine learning apprennent moins vite que que les hommes, ils ont besoin de plus d’exemples.”

L’entreprise fait également des essais cliniques en utilisant l’apprentissage fédéré pour démontrer qu’un médicament est supérieur aux médicaments antérieurs mais aussi de la recherche de nouveaux médicaments. Elle développe également des modèles de diagnostic. Mais son projet MOSAIC concerne une nouvelle modalité de données : la spatial transcriptomics (transcriptomique spatiale). “Pour faire simple, sur une coupe d’une biopsie de patient, par petites zones, on va séquencer l’ARN présent dans les cellules trouvées dans la zone. On va alors obtenir des données de très haute dimension, qui ne sont pratiquement jamais traitées en machine learning classique car l’accès à ces données est extrêmement réglementé puisque ce sont des données extrêmement identifiantes. Il n’y a donc pas ou peu de dataset public facilement accessible de génome humain. À Owkin, nous essayons d’inventer des nouvelles méthodes et de créer ces nouvelles données parce que nous sommes persuadés qu’il s’agit d’une mine d’or et que le futur de la médecine est vraiment de prendre en compte les données génomiques”, souligne Jean Ogier du Terrail. MOSAIC est doté d’un investissement de 50 M$.

Acculturer les hôpitaux

Si les possibilités offertes par l’apprentissage fédéré ne cessent de s’étendre, des défis demeurent. En premier lieu, la contractualisation et la collaboration, selon Jean Ogier du Terrail. “Ce qui prend le plus de temps dans un projet fédéré, c’est de convaincre les acteurs. C’est vraiment compliqué, même avec les hôpitaux. C’est pour cela que MELLODY est un tour de force car nous avons convaincu dix groupes pharmaceutiques de participer à quelque chose de commun.” Une réticence qui peut aussi s’expliquer par la difficulté de faire émerger un modèle économique : qui dans un projet va supporter quels coûts ? Comment rémunérer un participant ? La qualité des données apportées est-elle un critère fiable ? Autant de questions qui restent aujourd’hui ouvertes.

Collecter et harmoniser les données

L’enjeu de la collecte et de l’harmonisation des données reste lui aussi très prégnant. “À chaque fois que nous discutons avec un hôpital, il nous parle de son standard. C’est compliqué d’harmoniser, de standardiser pour arriver à une référence commune et que le modèle de machine learning puisse absorber les différentes données”, explique Jean Ogier du Terrail. D’où l’importance de formats de données communs comme FHIR ou OMOP-CDM pour structurer les données et favoriser l’interopérabilité.

La délicate question de la confidentialité

La confidentialité est une question sensible pour l’apprentissage fédéré. “Le standard académique en termes de confidentialité c’est la confidentialité différentielle, théorisée par Cynthia Dwork. Or la confidentialité différentielle consiste à rajouter du bruit sur les échanges entre les centres. Mais si vous faites cela, le modèle apprend moins. Il faut faire un compromis entre avoir un modèle qui soit pertinent et qui puisse être utilisé à des fins de diagnostic pour des vrais patients et un modèle qui soit privé au sens strict, c’est à dire pour lequel on peut prouver sur papier qu’il est absolument impossible de faire des attaques de rétro-ingénierie sur les données qui sont communiquées entre les centres. Nous naviguons dans cet entre deux et nous avons travaillé aussi beaucoup sur le plan cryptographique, qui est une autre solution qui permet de mitiger ce ce risque”, détaille Jean Ogier du Terrail.

Pour aller plus loin
Les acteurs à suivre
Les personnes à suivre
Les Articles à lire