• Contenus gratuits
  • Notre offre
Menu
  • Ressources
    • Toutes les ressources
  • Infos
    • Toutes les infos
  • Essentiels
    • Tous les essentiels
  • Analyses
    • Toutes les analyses
  • Data
    • Data
  • Newsletters
  • Profil
    • Je teste 15 jours
    • Je me connecte
  • Profil
    • Mon profil
    • Je me déconnecte
CLOSE

Accueil > Parcours de soins > Plus de la moitié des données utilisées dans l’IA en santé viennent des États-Unis et de la Chine (et c’est un problème)

Plus de la moitié des données utilisées dans l’IA en santé viennent des États-Unis et de la Chine (et c’est un problème)

Si les solutions basées sur l’intelligence artificielle ouvrent de nouvelles perspectives en santé, l’homogénéité des données représente un risque de biais et de santé à plusieurs vitesses, révèle une étude. Explications.

Par Sandrine Cochard. Publié le 20 avril 2022 à 10h17 - Mis à jour le 20 avril 2022 à 16h31
  • Ressources

Côté pile, l’intelligence artificielle offre des possibilités inédites de prédiction clinique avancée et de prise de décision dans le domaine de la santé. Côté face, une étude publiée le 31 mars 2022 sur la Public Library of Science (PLoS) montre que les modèles d’IA sont entraînés sur des ensembles de données relativement homogènes et des populations peu représentatives de la diversité mondiale. De quoi limiter leur généralisation, augmenter le risque de biaiser les décisions basées sur l’IA et creuser les disparités entre les bénéficiaires de ces modèles d’IA, alertent les auteurs de l’étude, qui ont passé 30 576 articles scientifiques au crible (lire encadré Méthodologie).

Une surreprésentation des données et des auteurs chinois et américains

En cause : un manque criant de diversité dans les données. “La plupart des bases de données provenaient des États-Unis (40,8 %) et de Chine (13,7 %). La radiologie était la spécialité clinique la plus représentée (40,4 %), suivie de la pathologie (9,1 %). Les auteurs venaient principalement de Chine (24 %) ou des États-Unis (18,4 %)”, détaille ainsi l’étude publiée sur PLoS. En outre, les auteurs étaient principalement des experts en données (c’est-à-dire des statisticiens) plutôt que des cliniciens et des hommes à une écrasante majorité (74,1 %).

“Les ensembles de données et les auteurs américains et chinois étaient surreprésentés de manière disproportionnée dans l’IA clinique, et presque toutes les 10 principales bases de données et nationalités d’auteurs provenaient de pays à revenu élevé (HIC)”, notent ainsi les auteurs, qui ont réalisé cette étude pour le MIT Critical Data. Les techniques d’IA étaient le plus souvent utilisées pour les spécialités riches en images -radiologie en tête-, et les auteurs étaient principalement des hommes, avec des antécédents non cliniques.

Répartition de la nationalité globale de la base de données en IA en médecine
(Source : MIT Critical Data)

Inclure une plus grande diversité de données

Un déséquilibre qui pourrait accentuer les inégalités face aux traitements ou à la prise en charge des malades. C’est le problème de la transférabilité : un algorithme formé sur une population de patients avec un ensemble particulier de caractéristiques ne fonctionnera pas nécessairement bien sur une autre. C’est pourquoi des voix s’élèvent pour que l’IA clinique soit à la fois formée et validée sur diverses données de patients, avec une représentation à travers les spectres du genre, de l’âge etc.

Pour “garantir que l’IA clinique est significative pour des populations plus larges et éviter de perpétuer les inégalités en matière de santé mondiale”, les auteurs de l’étude préconisent donc “le développement d’infrastructures technologiques dans les régions pauvres en données” et “la diligence dans la validation externe et le réétalonnage des modèles avant la mise en œuvre clinique à court terme”.

Méthodologie

Les auteurs de l’étude ont effectué un examen de la portée des articles cliniques publiés dans PubMed en 2019 à l’aide de techniques d’IA. Ils ont ensuite évalué les différences dans le pays source de l’ensemble de données, la spécialité clinique et la nationalité, le sexe et l’expertise de l’auteur. Un sous-échantillon étiqueté manuellement d’articles PubMed a été utilisé pour former un modèle, en tirant parti des techniques d’apprentissage par transfert (en s’appuyant sur un modèle BioBERT existant) pour prédire l’éligibilité à l’inclusion (littérature originale, humaine, clinique sur l’IA). Parmi tous les articles éligibles, la source du pays de la base de données et la spécialité clinique ont été étiquetées manuellement. Un modèle basé sur BioBERT a prédit l’expertise du premier/dernier auteur. La nationalité de l’auteur a été déterminée à l’aide des informations de l’institution affiliée correspondante à l’aide d’Entrez Direct. Et le sexe du premier/dernier auteur a été évalué à l’aide de l’API Gendarize.io.

Sandrine Cochard
  • base de données
  • Données de santé
  • Essais cliniques
  • Intelligence Artificielle
  • Parcours de soins
  • Patient

Besoin d’informations complémentaires ?

Contactez Mind Research

le service d’études à la demande de mind

Découvrez nos contenus gratuitement et sans engagement pendant 15 jours J'en profite
  • Le groupe mind
  • Notre histoire
  • Notre équipe
  • Nos clients
  • Nous contacter
  • Nos services
  • mind Media
  • mind Fintech
  • mind Health
  • mind Rh
  • mind Retail
  • mind Research
  • Les clubs
  • mind et vous
  • Présentation
  • Nous contacter
  • Vous abonner
  • A savoir
  • Mentions légales
  • CGU
  • CGV
  • CGV publicité
  • Politique des cookies
Tous droits réservés - Frontline MEDIA 2025
  • Twitter
  • LinkedIn
  • Email