Accueil > Parcours de soins > Intelligence artificielle : comment les biais influencent les modèles en santé ? Intelligence artificielle : comment les biais influencent les modèles en santé ? L’intelligence artificielle (IA) est d’ores et déjà exploitée dans les soins courants pour trier les patients aux urgences, assister le radiologue dans ses analyses ou encore le médecin prescripteur lors de ses consultations. Ces algorithmes mathématiques, aussi sophistiqués soient-ils, contiennent pourtant des biais cognitifs qui mettent en lumière les fragilités du modèle en lui-même et celles des données qui y sont injectées. Par Clarisse Treilles. Publié le 17 septembre 2024 à 23h58 - Mis à jour le 17 septembre 2024 à 14h52 Ressources Loin d’être anodins, les biais peuvent entraîner des erreurs de sens et de diagnostic préjudiciables pour les patients. Qu’il s’agisse de machine learning ou de deep learning, les développeurs recherchent l’explicabilité de leurs algorithmes d’IA, dans l’objectif de prouver la fiabilité des modèles et leur efficience dans un contexte réel. La tâche est colossale. mind Health a interrogé plusieurs experts pour décortiquer les principaux enjeux : Quels sont les différents types de biais qui menacent les systèmes d’IA ? Comment les détecter ? L’IA générative est-elle un amplificateur de biais ? Un large spectre Les biais de l’IA font référence à l’apparition d’anomalies dues à des orientations humaines et cognitives qui faussent les données d’entraînement ou le modèle algorithmique en lui-même. Cela peut entraîner des résultats inexacts, voire potentiellement dangereux. On parle par exemple de biais de sélection, lorsqu’il s’agit de l’effet d’une censure sur une sous-population, de biais de représentation, causé par un manque de diversité inhérent à une source de données, ou encore de biais historiques, lorsqu’il est déjà présent dans le monde réel et se reproduit dans les données. Cette palette d’anomalies donne du fil à retordre aux spécialistes de l’intelligence artificielle. De l’aveu d’Eric Durand, SVP Data Science chez Owkin, “c’est un sujet très vaste et il y a potentiellement beaucoup de choses qui se cachent derrière le mot “biais”. De manière générale, Eric Durand assimile ces fameux biais à “des erreurs systématiques que les modèles font, causées notamment par les biais préexistants dans les données d’apprentissage”. Ces dernières, amassées au fil des années dans les bases de données médicales, peuvent en effet être tronquées, altérées, voire inexactes. Les ratés de l’IA en santé Pr Jean-Emmanuel Bibault, oncologue et radiothérapeute à l’hôpital européen Georges Pompidou Les biais algorithmiques existent également mais ils sont généralement “plus difficiles à cerner”, étant donné qu’ils font partie du fonctionnement même de l’algorithme, commente le Pr Jean-Emmanuel Bibault, cancérologue à l’hôpital Pompidou et chercheur en intelligence artificielle. “Lorsque l’on est face à un algorithme d’IA symbolique [cette “intelligence” reproduit le raisonnement humain par une modélisation symbolique, ndlr], c’est facile à corriger, constate le chercheur. En revanche, les algorithmes d’apprentissage automatique sont plus difficiles à corriger. La seule façon d’adresser ce problème est de faire de l’audit régulier d’algorithmes. C’est ce qu’on appelle le red teaming” indique Jean-Emmanuel Bibault. C’est d’ailleurs ce que cherche à faire OpenAI pour vérifier dans quelle mesure les algorithmes sont hackables par des prompts ou par d’autres techniques, et comment ces problèmes peuvent être corrigés, précise le chercheur. Échantillonnage des données Derrière le problème général lié aux données, Jean-Emmanuel Bibault pointe en particulier les dégâts que peuvent engendrer le “sous-biais” d’échantillonnage. “Même lorsqu’un algorithme prend en compte une large population ou une grande base de données, il y aura toujours des personnes provenant d’une certaine ethnie ou avec certaines caractéristiques (sexe, mutation génétique rare, tumeur rare, etc.) qui ne seront pas représentées dans la base. Cela pose des questions potentielles d’inégalité par rapport aux soins” souligne-t-il. Dans son guide sur l’éthique et la gouvernance de l’IA pour la santé de 2021, l’Organisation mondiale de la santé (OMS) a consacré un chapitre aux biais et aux discriminations associés aux algorithmes d’IA. L’organisation affirmait à l’époque que beaucoup “excluaient les femmes, les minorités ethniques, les personnes âgées, les communautés rurales et les groupes de population défavorisés”. La dermatologie offre son lot d’exemples à ce sujet. Alors que les taux de cancer de la peau augmentent dans de nombreux pays, les peaux foncées ont parfois été écartées des échantillons testés. L’OMS donne plusieurs raisons à cela. Il peut s’agir d’un manque de professionnels de santé et d’informations adéquates dans les communautés de couleur ou de barrières économiques qui empêchent les communautés marginalisées de rechercher des soins ou de participer à des recherches qui permettraient à ces personnes d’apporter des données. Selon l’OMS, “les biais dépendent souvent de qui finance et qui conçoit une technologie d’IA”. Autrement dit, “les technologies basées sur l’IA ont tendance à être développées par un seul groupe démographique et par un seul sexe, ce qui augmente la probabilité de certains biais dans la conception.” Les Gafam sont les premiers concernés, rappelle l’OMS, qui mentionne le géant de Cupertino pour illustrer ce problème : “les premières versions du Apple Health Kit, qui permettaient un suivi spécialisé de certains risques pour la santé, n’incluaient pas de suivi du cycle menstruel, peut-être parce qu’il n’y avait aucune femme dans l’équipe de développement”. Plusieurs médias de la tech, comme The Verge, avaient enquêté sur l’affaire il y a une dizaine d’années. L’humain au centre Dans le secteur de la santé, Jean-Emmanuel Bibault fait remarquer que le “savoir médical” peut influencer les modèles en transmettant une certaine vision de la science et des priorités à donner. Ce savoir humain offre une certaine “prémodélisation de la physiopathologie des maladies et de leurs traitements” concède-t-il. On parle alors dans ce cas d’un biais dit de “confirmation”. En partant du constat que ces biais de confirmation découlent du savoir préexistant, Jean-Emmanuel Bibault soutient qu’il est “extrêmement difficile de créer des algorithmes qui ouvrent de nouveaux traitements et de nouveaux mécanismes physiopathologiques”. Ce raisonnement vaut aussi pour les grands modèles de langage : “Si les LLM ou les algorithmes d’IA générative en médecine font face à des situations qu’ils n’ont jamais rencontrées dans leur dataset, alors ils ne seront pas en capacité de résoudre ce problème” ajoute le chercheur (cf. encadré). L’IA générative, une IA à haut risque ? Certains biais peuvent être amplifiés par le caractère prédictif des modèles. Hub France IA signale dans son récent rapport intitulé “Opérationnaliser la gestion des risques des systèmes d’intelligence artificielle” les risques spécifiques liés à l’IA générative, comme le risque “de reproduction et de propagation des biais présents dans les données d’entraînements” et celui, bien connu déjà, des hallucinations des modèles. Dans un article de blog consacré à la méthode du “red teaming” pour évaluer les biais des LLM (Large Language Models), IBM évoque “l’imprévisibilité” de leur comportement. Les utilisateurs doivent s’assurer que “les services et les systèmes basés sur les LLM sont précis, équitables et impartiaux” puisque “les réponses des modèles qui présentent des préjugés liés aux origines ethniques, au statut social et à d’autres sujets sensibles peuvent avoir de graves conséquences” affirme Big Blue. Les biais de confirmation sont rejoints par d’autres croyances limitantes humaines, qualifiées de “biais d’utilisation ou d’interprétation”, rapporte Jean-Emmanuel Bibault qui prend l’exemple de l’imagerie. “Les radiologues qui interprètent des mammographies vont être tentés de se méfier des conclusions tirées par une IA, même lorsque les diagnostics sont identiques.” La seule façon, dit-il, de dépasser ces blocages est de “déployer des modèles dans la vie réelle, les tester, les évaluer, les corriger et former les utilisateurs”. Comment va évoluer le métier de radiologue soutenu par l’IA ? La clé viendrait, selon le spécialiste, des études cliniques : “Beaucoup de start-up et de laboratoires publient et commercialisent des produits ou des algorithmes qui marchent bien dans des ordinateurs, mais très peu de laboratoires, de start-up et d’études cliniques montrent comment l’IA est utilisée en réalité. Je pense que c’est dans cette direction que le développement de l’IA doit tendre”. Un article publié dans la revue scientifique Nature alerte aussi sur ce manque de rigueur scientifique. Des centaines d’algorithmes médicaux auraient été approuvés par la FDA sur la base de données cliniques limitées. Sur l’ensemble des dispositifs médicaux numériques intégrant de l’IA autorisés à entrer sur le marché, peu de développeurs publient les résultats émanant de leur analyse des systèmes d’IA à usage médical. L’évaluation des biais, qui détermine si les résultats obtenus par un algorithme sont équitables entre les différents groupes de patients, n’est pas non plus systématiquement réalisée. Les modèles à l’épreuve du monde réel Les biais sont bien souvent rapportés une fois que les systèmes d’IA ont été déployés dans des contextes réels. “Si l’ensemble des données ne reflète pas suffisamment la diversité des situations auxquelles le modèle peut être confronté dans le monde réel, des biais peuvent apparaître. Les problèmes que cela engendre ne se révèlent souvent qu’au moment où le modèle est confronté à cette diversité”, note Eric Durand. Google a essuyé les plâtres avec son algorithme conçu pour détecter la rétinopathie diabétique. Malgré les très bonnes performances de l’outil lors des tests, il n’a pas fonctionné à la hauteur des attentes dans les cliniques thaïlandaises où il a été implémenté. Sur le terrain, la qualité du réseau et l’éclairage étaient très différents des données d’entraînement. Après cet échec, Google a admis qu’il était “important d’étudier et d’intégrer des évaluations en clinique réelles et de dialoguer avec les cliniciens et les patients, avant de déployer une technologie à large échelle.” Jean Ogier du Terrail, Lead Research Scientist chez Owkin Pour comprendre comment les biais affectent les performances des modèles dans le monde réel, les équipes d’Owkin ont travaillé en profondeur sur les algorithmes de diagnostic en anatomopathologie pour en comprendre la subtilité. Jean Ogier du Terrail, Lead Research Scientist au sein de la techbio franco-américaine, détaille quelques problèmes auxquels son équipe a dû faire face : “En Europe, le réactif chimique qu’on met sur les lames en cancérologie n’est pas le même que celui aux États-Unis. Se pose alors la question suivante : si on entraîne le modèle sur des données européennes, est-ce que nos modèles vont pouvoir être déployés aux États-Unis ? C’est une modalité très intéressante pour la question de biais. Au-delà de la question du réactif chimique, il y a aussi tout un ensemble de biais qui vont jouer et qui vont être des facteurs de variation auxquels, on l’espère, le modèle ne sera pas trop sensible. Une propriété qui pourrait être intéressante pour un modèle de machine learning, c’est qu’en lui donnant la même biopsie du même patient et en mettant différents réactifs chimiques dessus, il donne toujours la même prédiction car l’information n’a pas changé en soi. On dit alors en machine learning que l’information du scanner ou le biais du centre ne devrait pas être informatif pour le modèle.” In fine, même si le fonctionnement est complexe, la finalité des algorithmes doit être assimilée dans une certaine mesure par les praticiens qui les manient. Jean-Emmanuel Bibault rappelle que la formation sur l’IA reste un élément important pour apprendre aux jeunes médecins à prendre conscience des biais et développer un esprit critique sur le résultat. “Si nous ne commençons pas maintenant à former les médecins à l’IA, ils arriveront dans un monde où il y aura de l’IA partout et où ils seront incapables d’en saisir la moindre nuance ni d’en faire la moindre critique” alerte le chercheur. L’over-fitting, un problème bien connu dans l’IA “L’over-fitting” est la tendance au sur-apprentissage que peuvent rencontrer les modèles d’IA. Il s’agit d’un biais “très ancien” qui demeure néanmoins fréquent dans le domaine de la santé, précise Jean-Emmanuel Bibault. “Pour développer un algorithme, il faut définir au préalable des batchs. Par exemple, sur un groupe de 1 000 patients, les batchs se composeront de groupes de dizaines voire de centaines de patients, qui viendront nourrir l’algorithme en phase d’apprentissage. Certains batchs peuvent être montrés plusieurs fois. Toutefois, s’il n’y a pas assez de données au départ, l’algorithme risque d’être très performant sur ces données d’entraînement qu’il connaît, mais perdu sur d’autres caractéristiques” explique le chercheur. Pour éviter ce scénario, il est préférable de rassembler “suffisamment de données et des données suffisamment diverses” pour permettre “une bonne adéquation entre le nombre d’événement et le nombre de facteurs prédictifs” évoque Jean-Emmanuel Bibault. Reprenant l’exemple des 1 000 patients, il explique : “Si parmi ces 1 000 patients, trois développent un sarcome, avec trois événements seulement vous n’arriverez jamais à faire un modèle prédictif. À l’inverse, si vous donnez les informations provenant de 1 000 patients à un algorithme, auxquels on ajoute 10 000 facteurs prédictifs, cela ne fonctionne pas non plus. Les corrélations qui vont être trouvées ne sont que du “bruit” dans des bases de données, sans aucun sens.” Le chercheur préconise de trouver le juste milieu entre ces deux approches. Interrogé sur les risques d’over-fitting, Eric Durand considère qu’il s’agit “du contraire d’un biais”, lorsque les modèles comportent beaucoup de paramètres. Jean Ogier du Terrail note qu’il existe “un lien subtil” entre le nombre de paramètres d’un modèle (donc sa taille) et le nombre de données sur lequel il est entraîné. “Il n’est pas possible d’augmenter l’un sans l’autre” dit-il. Prenant l’exemple des grands modèles, il note que ces derniers demandent de “scaler aussi le volume des données”. Avec de telles contraintes, il estime qu’en santé, “cela ne peut passer que par l’apprentissage fédéré ou des partenariats avec différents instituts de recherche. C’est la seule manière de faire un ChatGPT en médecine”. Clarisse Treilles AlgorithmesDonnées de santéia générativeIntelligence ArtificielleLogicielRecherche Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind