Accueil > Parcours de soins > Biais de l’IA : à chaque modèle sa méthode corrective Biais de l’IA : à chaque modèle sa méthode corrective [2/2] L’utilisation de l’IA en santé exige une étude minutieuse des biais et de leurs potentiels impacts. Les fournisseurs imaginent des méthodes pour les corriger. Cela démarre généralement par le recueil de données suffisamment diverses et représentatives dans les modèles d’entraînement. Par Clarisse Treilles. Publié le 24 septembre 2024 à 22h40 - Mis à jour le 25 septembre 2024 à 10h28 Ressources Pour apporter plus de transparence aux modèles d’IA en santé et diminuer les risques d’erreur, leurs concepteurs traquent, analysent et corrigent tout biais ou anomalie systémique susceptible d’altérer le résultat produit par l’algorithme. Ces efforts perdurent pendant tout le cycle de vie des modèles. Quelles sont les techniques à l’œuvre ? Chaque fournisseur de modèle y va de sa méthode pour réduire au maximum les biais inhérents aux modèles et ajuster les prédictions dans le monde réel. Ces corrections peuvent intervenir au niveau du set de données d’entraînement, lors de la phase d’apprentissage du modèle d’IA et sur les résultats des prédictions. Agir sur les sets de données Ces corrections interviennent parfois très tôt dans le cycle de développement, dès la constitution du set de données d’entraînement. La start-up Quantiq.io a été confrontée à cette problématique pour son application mobile qui analyse les constantes vitales. Ce système de diagnostic médical sans contact utilise la caméra d’un appareil mobile pour prendre le rythme cardiaque ou encore la fréquence respiratoire. Il est par nature très sensible à son environnement. Bonne nouvelle cependant : la couleur de peau, le mouvement et la lumière sont des limites de fonctionnement de l’algorithme qui peuvent être atténuées dès l’amont. La couleur de peau a mis au défi la robustesse de la technologie optique employée par la start-up. “Plus la couleur de peau est foncée, plus elle contient de mélanine qui absorbe la lumière sans émettre d’information” explique Fabien Niel, directeur technique et cofondateur de Quantiq.io, à mind Health. Or, moins l’hémoglobine absorbe la lumière, moins le signal est fort, ce qui impacte le résultat. “Ça a été un défi pour réussir à dépasser cela” reconnaît Fabien Niel. Mais l’équipe y est parvenue en menant à l’été 2023 des études au Niger et en République démocratique du Congo (RDC) pour acquérir des données plus diverses, en complément de l’étude clinique menée entre septembre 2022 et janvier 2023 en France. Schéma de la technologie – source : site internet de Quantiq.io Aujourd’hui, “tout ce qui peut nuire à la mesure a été évalué, codifié et l’algorithme vérifie lors de la prise de mesure que tout se passe bien” indique Fabien Niel. La procédure pour obtenir le marquage CE classe IIa sur le calcul de la fréquence cardiaque et la fréquence respiratoire a d’ailleurs été lancée depuis. L’apport de la preuve Pour déloger les biais à la racine et s’assurer que le miroir de l’IA ne soit pas déformant, le Pr Jean-Emmanuel Bibault mise sur la validation clinique très en amont du développement. En juin dernier, il a cofondé avec David JH W la start-up franco-américaine jaide, visant à autonomiser les patients et les médecins avec des outils d’IA avancés. Quelques mois après sa création, un protocole d’évaluation est déjà en route. “Nous commençons un essai clinique approuvé par le comité d’éthique à l’Institut National du Cancer du Brésil. C’est la première fois que l’IA générative est évaluée pour le support décisionnel en oncologie. Nous croyons que ces outils d’IA ne seront dignes de confiance et utilisés que s’ils sont évalués cliniquement de manière rigoureuse” confie Jean-Emmanuel Bibault à mind Health. Ce processus d’évaluation consiste à faire tester la performance de la solution par des médecins et des patients eux-mêmes. Ce procédé de comparaison méthodique des réponses des patients et de l’algorithme permet, selon Jean-Emmanuel Bibault, d’identifier d’éventuels biais. “Nous regardons si le résumé qui est généré par l’IA est exact, suffisamment concis et complet, s’il n’y a pas d’hallucination dans le texte, d’exagération ou d’atténuation des symptômes.” Pour le chercheur français, ce travail d’analyse devrait être réalisé “quasiment à chaque fois qu’une modification est portée à l’outil” et devrait “faire l’objet de publication dans des revues médicales, comme c’est le cas pour un médicament”. Pour l’heure, seule la partie de l’outil consacrée à la préconsultation est mise en test, même si d’autres fonctionnalités pendant et après la consultation seront ajoutées ultérieurement. D’autres études seront aussi lancées plus tard aux États-Unis et en France pour fournir un jeu de données plus diversifié. Fédérer pour mieux contrôler Owkin, pionner dans l’apprentissage fédéré, a dévoilé en janvier 2023 les résultats d’une étude démontrant comment l’apprentissage fédéré pouvait être utilisé pour entraîner des modèles de deep learning sur des données d’histopathologie provenant de plusieurs hôpitaux à la fois. Cette découverte a ouvert la voie à une recherche médicale basée sur l’IA, utilisant de grands ensembles de données multicentriques afin d’échapper au biais des études monocentriques. Jean Ogier du Terrail, Lead Research Scientist chez Owkin, estime que l’apprentissage fédéré peut être une bonne technique d’atténuation des biais. “Cette technique consiste à faire voyager les modèles qui apprennent dans un centre de santé donné. Une fois qu’ils ont extrait le savoir des données patients, ils transmettent une forme agrégée de ce savoir et la mettent dans un serveur centralisé. Nous parvenons à accumuler la substantifique moelle de savoirs de plusieurs centres simultanément et à les mélanger” détaille-t-il à mind Health. “Nous espérons que le fait de mettre en contact des données à travers l’apprentissage fédéré ou de grands ensembles d’apprentissage va permettre d’ignorer les biais sans que ce soit explicitement demandé au modèle”. Eric Durand, SVP Data Scientist chez Owkin Eric Durand, SVP Data Scientist chez Owkin, est d’avis que si l’apprentissage fédéré ne vise pas explicitement à réduire les biais, il peut malgré tout y contribuer. Pour ce spécialiste, deux stratégies sont vraiment efficaces contre les biais. La première, “la stratégie de modélisation”, consiste à faire entrer explicitement certains biais connus (le sexe, le poids, etc.) dans un modèle. “Des outils statistiques vont permettre de mesurer l’importance qu’ont ces facteurs sur la prédiction” explique Eric Durand à mind Health. Le risque, ici, est d’insérer dans le modèle uniquement ce qui est déjà connu. L’autre approche possible en machine learning s’appuie sur le principe de sérendipité. Eric Durand décrit son mécanisme : “Nous choisissons que tout ce qui est de l’ordre du biais ne devrait pas avoir d’importance, étant donné que cela ne transmet pas d’information pertinente. Ainsi, cette méthode consiste à lancer le modèle sur le plus de données diverses possibles. Nous voulons que le jeu de données couvre tous les cas possibles, afin de ne pas avoir de mauvaises surprises lorsqu’il sera déployé dans le monde réel. Dans le jeu d’entraînement, toutes les classes possibles seront représentées. Par exemple en histologie, les produits chimiques HES [pour la coloration, ndlr] sont utilisés en France, tandis que seuls les produits H&E sont utilisés aux États-Unis. Or, si nous entraînons nos modèles sur un grand jeu de données qui contient à la fois les ensembles H, E, S et H, E, alors le modèle devient insensible à ces biais car il apprend à normaliser le tout par lui-même.” En d’autres termes, “les modèles de machine learning modernes basés sur l’apprentissage profond sont suffisamment expressifs pour pouvoir modéliser beaucoup de choses” constate Eric Durand. Dans cette perspective, l’apprentissage fédéré peut être “très pertinent” pour “désiloter les données, augmenter la diversité des données sur lesquelles le modèle de machine learning est entraîné et espérer, ainsi, réduire le biais”, estime le data scientist. Le nerf de la guerre reste la donnée L’apprentissage fédéré n’est pas le seul outil d’Owkin pour identifier les lacunes de ses modèles. Pendant la phase de développement, la start-up entraîne ses algorithmes avec des données externes provenant des centres qui appartiennent à son réseau partenaire. Le principe est simple : le centre partenaire prend momentanément le contrôle pour soumettre l’algorithme à ses propres données et évaluer les résultats obtenus. Seul hic : ces validations externes n’ont pas le don de convaincre à 100% le corps médical, qui utilise ces algorithmes en routine. Les médecins font difficilement confiance à une “boîte noire” lorsque ses mécanismes demeurent mal assimilés, concède Jean Ogier du Terrail. Pour résoudre ce problème, Owkin a développé des techniques d’interprétabilité. Cela consiste, selon Jean Ogier du Terrail, “à demander au modèle ce qu’il est précisément en train de faire. Quelle zone de l’image ou de la biopsie a été utilisée pour prédire une réponse par exemple. Les médecins peuvent nous faire des retours pour expliquer si cela leur paraît pertinent”. Cette méthode a porté ses fruits puisqu’elle a notamment permis de découvrir un nouveau biomarqueur pour le cancer de la plèvre, le mésothéliome. “Nous avons observé que le modèle avait utilisé un motif histologique pour prédire la survie des patients. C’est une forme de cellule qui n’était pas connue, mais marqueuse d’un phénotype” indique Jean Ogier du Terrail. “Le nerf de la guerre reste la donnée”, comme l’assure Eric Durand. “Il faut accéder à des données diverses, qui représentent tous les biais possibles auxquels le modèle sera confronté dans le monde réel. Il faut aussi bien mettre en adéquation le type de biais et son impact en fonction de l’utilisation du modèle”. Jean Ogier du Terrail parie sur un avenir distribué. “Avec le succès de ChatGPT et des modèles de fondation, dit-il, le fait d’augmenter le nombre de données et leur diversité est la clé pour accéder à de l’information.” Des données synthétiques pour compléter les jeux de données Les jeux de données peuvent être étoffés par des données synthétiques. Leur usage devient massif dans le monde de l’IA. Les analystes de Gartner prévoyaient que 60% des données destinées à l’IA seraient synthétiques en 2024 pour simuler la réalité, des scénarios futurs et réduire les risques de l’IA, contre à peine 1% en 2021. Alexei Grinbaum, directeur de recherche et président du Comité opérationnel pilote d’éthique du numérique du CEA, confirme très nettement la tendance : “cette révolution est arrivée il y a dix-huit mois et aujourd’hui elle est partout.” A l’occasion d’un webinaire sur l’intelligence artificielle organisé par l’Académie nationale de pharmacie le 11 septembre dernier, il a déclaré : “Aujourd’hui, vous n’entraînez plus de petits modèles localement. Vous prenez un modèle en open source et vous l’adaptez à vos données. Pour cela vous avez besoin de données sans biais et bien représentatives. Ces données vous allez demander à un grand modèle de vous les fabriquer. Aujourd’hui, la plupart des entreprises qui entraînent des petits modèles passent par des données synthétiques, ne serait-ce que pour corriger les biais. Mais la donnée synthétique est une terra incognita. Il y a très peu d’études pour évaluer la qualité des données synthétiques. On sait que ces données ne proviennent pas de personnes réelles. On entraîne un modèle, on le donne à un vrai praticien et on se demande si cela fonctionne : et la plupart du temps, oui. On évalue ensuite le résultat final.” Clarisse Treilles Dispositif médicaldonnéesIntelligence ArtificielleLogicielRechercheStratégie Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind