Accueil > Industrie > R&D > IA générative : ChatGPT a-t-il un avenir dans la santé? IA générative : ChatGPT a-t-il un avenir dans la santé? Bien que le monde de la santé ne soit pas étranger à l’essor des agents conversationnels, le modèle généraliste de ChatGPT n’a pas remporté l’adhésion de tous les professionnels. Les usages pertinents en santé semblent encore lointains. Par Clarisse Treilles, Coralie Baumard. Publié le 21 mars 2023 à 22h30 - Mis à jour le 14 août 2024 à 16h28 Ressources Les points clés Après des milliards de dollars investis et plus de 100 millions d’utilisateurs mensuels actifs, ChatGPT d’OpenAI fascine par ses capacités à générer automatiquement du texte plausible, sur une large variété de sujets. Mais l’IA généraliste n’est aujourd’hui pas suffisamment adaptée au secteur de la santé (“hallucination”, effet boîte noire, sourcing, données périmées, confidentialité, etc.). À ces écueils s’ajoutent également des risques éthiques qui questionnent le rapport entre le patient et le professionnel de santé. Malgré ces limites, le potentiel des grands modèles de langage et des agents conversationnels est avéré. Certaines start-up, comme Nabla, commencent à intégrer de manière mesurée les modèles d’OpenAI comme une brique de leur solution numérique. ChatGPT a dépassé les 100 millions d’utilisateurs actifs en janvier 2023, à peine deux mois après son lancement. Par comparaison, TikTok a mis neuf mois avant d’atteindre ce cap et Instagram, deux ans et demi. Les éloges pleuvent sur les capacités de cet agent conversationnel à générer du texte plausible et cohérent. Lancé par l’entreprise américaine OpenAI, ChatGPT est basé sur le grand modèle de langage GPT-3.5. ChatGPT et GPT-3.5 ont été formés sur l’infrastructure Azure AI de Microsoft. La multinationale américaine a investi dans OpenAI 1 milliard de dollars en 2019, complété en 2021 par un nouveau cycle de financement. En janvier 2023, Microsoft a annoncé un investissement pluriannuel de plusieurs milliards de dollars dans OpenAI afin d’accélérer les percées de l’intelligence artificielle et de déployer les modèles d’OpenAI dans ses outils grands publics. Microsoft compte capitaliser sur l’IA conversationnelle pour venir nourrir ses applications professionnelles dans la santé. L’entreprise a annoncé le 20 mars qu’elle intégrait GPT-4, le modèle le plus récent d’OpenAI, dans l’application de notes cliniques alimentée par l’intelligence artificielle Dragon Ambient eXperience (DAX) Express de Nuance. En 2021, Microsoft a racheté Nuance pour 16 milliards de dollars, ce qui constitue sa deuxième acquisition la plus importante depuis LinkedIn. Ces derniers mois, les chercheurs se sont emparés de ChatGPT pour expérimenter et identifier des cas d’usage potentiels. Le chatbot a ainsi été testé comme un outil d’aide à la prévention des maladies cardiovasculaires. Les professionnels de santé d’AnsibleHealth, une clinique virtuelle américaine spécialisée dans les maladies pulmonaires chroniques, l’ont expérimenté dans la rédaction de lettres ou pour simplifier des rapports de radiologie avant de les transmettre aux patients. Mais le modèle de ChatGPT est aussi connu pour produire des réponses erronées et pour “halluciner” c’est-à-dire “produire des contenus absurdes ou mensongers par rapport à certaines sources” comme le reconnaît OpenAI dans un de ses rapports techniques. Ces éléments alimentent la crainte de le voir utiliser dans le monde médical, où les erreurs ont des conséquences fatales. Bond technologique OpenAI a annoncé la semaine dernière le lancement de son modèle GPT-4, la version plus évoluée de GPT-3.5 utilisé dans ChatGPT. Avec cette mise à jour accessible sur liste d’attente, OpenAI espère réduire les erreurs factuelles et proposer un modèle plus fiable (cf. encadré). Jusqu’alors, OpenAI s’était montré très prudent sur les limites intrinsèques de ChatGPT. Sur les sujets de santé, le générateur de texte réoriente quasi systématiquement les utilisateurs vers les professionnels de santé. Si une discussion concerne le diagnostic, l’utilisateur reçoit un message d’avertissement et peut, s’il le souhaite, signaler les réponses qui lui paraissent inappropriées à des fins d’entraînement du modèle. Malgré ces garde-fous, ChatGPT s’auto-censure paradoxalement très peu et partage des informations médicales. Lorsque la rédaction de mind Health l’interroge sur ses compétences en santé, ChatGPT répond qu’il peut “répondre à de nombreuses questions générales sur ces sujets”, même si ses réponses “ne doivent pas être considérées comme des conseils médicaux professionnels”. Grand modèle de langage : de quoi parle-t-on ? ChatGPT est un grand modèle de langue (LLM) génératif pré entraîné, qui génère automatiquement du texte plausible à la suite d’un texte fourni dans l’amorce. Pour construire un modèle de langue statistique, le modèle calcule dans un premier temps les probabilités pour chaque mot grâce à une technique de masquage des mots dans le corpus d’entraînement. Au fur et à mesure, il va calculer des scores de probabilité élevés sur certains mots et une probabilité plus faible pour d’autres. À partir de ces probabilités pré entraînées, le modèle s’appuie sur le contexte fourni pour essayer de prédire des suites de mots. Vient ensuite l’étape d’affinage par renforcement, qui consiste à générer le texte le plus probable à partir de la suite de mots donnée en entrée. Docteur ChatGPT et Mister Hyde En 2020, les équipes de la start-up Nabla testent GPT-3 en lui posant des questions médicales. Lors d’un de ces échanges, le modèle conseille à un patient fictif de se suicider. Cette expérience a conforté Alexandre Lebrun, le PDG de Nabla, dans l’idée qu’utiliser ces modèles pour faire du conseil médical n’était pas la voie à suivre. “Nous nous y attendions mais les résultats ont été catastrophiques, cela nous a confirmé que c’était une mauvaise idée de les utiliser pour remplacer les médecins.” Thomas Gouritin, cofondateur et CEO de la start-up ASISPO Thomas Gouritin, cofondateur et CEO de la start-up ASISPO, déconseille lui-aussi de prendre les réponses de ChatGPT pour argent comptant en raison de l’effet boîte noire. “Le problème avec des algorithmes de type grands modèles de données, comme GPT-3 et tous les autres qui sont en train de sortir, c’est que nous ne savons pas exactement comment le modèle a été pré entraîné. Le modèle va générer la réponse tout seul, sans trop savoir à partir de quoi, ni comment. “Un algorithme bien fait sur la santé devrait dégager plusieurs pistes, chacune liée à un score de confiance, permettant de parvenir à une recommandation éclairée et accompagnée d’une véritable évaluation. Il ne devrait pas donner une réponse générale qui ressemble à une réponse universelle.”. La temporalité des données d’entraînement est également un écueil sérieux comme le fait remarquer Chanfi Maoulida, membre du Club Digital Santé : “ChatGPT a été entraîné sur des données datant de 2021. Or, la connaissance médicale évolue de manière très rapide.” Il dénonce également l’opacité du système d’OpenAI : “Où sont hébergées les données ? Qui les gèrent ? Comment sont-elles vérifiées ? Ce sont des informations que nous n’avons pas. Cela pose question, alors que dans le domaine de la santé, il est demandé aujourd’hui d’avoir un hébergement en France”. Adel Mebarki, cofondateur et directeur général de Kap Code L’absence de sources est aussi une limite majeure du système, constatée par Adel Mebarki, cofondateur et directeur général de Kap Code. “Nous ne savons pas aujourd’hui à quel degré nous pouvons faire confiance à ChatGPT” déclare-t-il. Cette difficulté à connaître la source des informations délivrées par l’agent conversationnel a tendance à faire peser sur l’utilisateur à l’origine de la question “la charge de la vérité”, analyse Aurélie Névéol, directrice de recherche en informatique au CNRS, spécialisée dans le traitement automatique de la langue dans le domaine biomédical. Or, l’utilisateur peut aisément se laisser manipuler par la production langagière quasi humaine de ChatGPT, qui s’avère pourtant “complètement déconnectée du monde” indique Aurélie Névéol. “Les textes générés n’ont pas d’ancrage dans la réalité. Il s’agit de textes qui sont générés pour être statistiquement semblables à des textes produits par des humains. Ainsi, les textes ne sont pas forcément porteurs de vérité, de sincérité et d’intention communicative”, explique la chercheuse. Aurélie Névéol, directrice de recherche en informatique au CNRS, spécialisée dans le traitement automatique de la langue dans le domaine biomédical David Gruson, le fondateur d’Ethik-IA pointe lui aussi du doigt les risques éthiques particuliers associés à ChatGPT : “Les risques sont ceux de la perte de repères et de la perte de l’identification de l’émetteur du message. Or cette identification est une question centrale en santé publique pour préserver la confiance des patients dans le processus de prise en charge. Il faut savoir qui parle, comment il parle et comment sont supervisés les algorithmes qui alimentent ces agents conversationnels de nouvelle génération.” D’autant que ces risques viennent amplifier ceux déjà identifiés avec les solutions d’intelligence artificielle : “le risque de délégation de décision du professionnel vers la machine, du consentement du patient vers la machine ou de minoration de l’intérêt personnel par rapport à l’intérêt collectif car ces traitements algorithmiques s’appuient sur des lois de grand nombre”, énumère-t-il. Un modèle (trop) généraliste Contrairement au projet “BioGPT” de Microsoft Research, ChatGPT est un modèle généraliste qui n’a pas uniquement été pré-entraîné pour la génération de textes biomédicaux, mais s’appuie sur des corpus de textes dont la nature et le contenu sont variés. Pour Jean-Louis Fraysse, cofondateur de BOTdesign, ChatGPT n’est pas adapté au secteur de la santé. “Chez BOTdesign, nous faisons du pré-diagnostic, du suivi clinique et nous sommes marqués CE dans la classe IIa. Nous sommes hyperspécialisés et nous sommes arrivés à ce niveau de spécialité parce que des médecins nous suivent en permanence. Dans les dix ans qui viennent, les entreprises généralistes comme OpenAI ne pourront pas descendre dans le niveau de détail qui est le nôtre” analyse-t-il. Pour Aurélie Névéol, le fait que ChatGPT ne soit pas conçu spécifiquement pour des usages en santé est précisément la raison pour laquelle il doit être écarté des applications médicales risquées. “Il faut vraiment faire attention à l’adéquation entre l’outil de génération de texte et ses applications” insiste-t-elle. Sans les défauts actuels du modèle, Jean-Louis Fraysse estime que ChatGPT pourrait devenir une brique intéressante à intégrer dans le futur au sein des entreprises spécialisées comme BOTdesign. “Aujourd’hui OpenAI n’a pas la capacité de démontrer la fiabilité de son outil. Si nous avions la garantie de la fiabilité de l’information, nous nous connecterions avec eux pour faire progresser notre solutio”. À noter que l’API de ChatGPT est disponible pour les développeurs depuis le 1er mars. Nabla Copilot : un des premiers cas d’usage de GPT-3 en santé Nabla s’est appuyé sur GPT-3 et ses propres modèles de machine learning pour lancer mi-mars 2023 sa solution Nabla Copilot. Cet outil permet aux praticiens de recueillir les informations clés échangées lors d’une consultation et de générer automatiquement un compte rendu médical structuré. Alexandre Lebrun, PDG de Nabla “Notre modèle assiste le médecin pour optimiser son temps, il n’essaie pas de se substituer à lui”, indique Alexandre Lebrun. Nabla Copilot se présente sous la forme d’une extension Chrome compatible avec tous les outils de téléconsultation, une version disponible pour les consultations en physique est prévue pour avril 2023. L’outil transcrit et produit une note à la fin de la consultation. Aucune donnée n’est stockée sur les serveurs de Nabla et des algorithmes de pseudonymisation garantissent également la confidentialité des informations échangées. “Reproduire un LLM aussi grand et généraliste que GPT-3 ou GPT-4 est vraiment hors de portée pour une start-up, on parle de dizaines de millions de dollars pour payer les GPU, les processeurs et pour l’entraîner. En revanche, il est possible pour une start-up d’entraîner des LLM qui sont plus petits et plus spécialisés que GPT-3, c’est l’objectif de Nabla”, révèle Alexandre Lebrun. Le PDG de Nabla reconnaît l’apport de GPT-3 : “ Dans une phase initiale ou de prototypage, c’est extrêmement intéressant d’utiliser GPT-3 ou ses descendants pour prototyper des nouvelles fonctionnalités ou pour générer les données synthétiques qui, ensuite, permettent d’entraîner nos modèles. Cette approche est très intéressante car les datasets sont très complexes à collecter en santé, nous avons fait un partenariat avec des médecins et des patients sur 30 000 consultations pour entraîner nos premiers modèles, c’est un travail long et coûteux.” Le champ des possibles Kap Code travaille depuis 2016 sur du traitement automatique du langage à partir de données non structurées issues des réseaux sociaux. S’intéressant aux grands modèles de langage, la start-up avait commencé à tester le modèle BERT de Google pour l’utiliser sur ses propres données. Ce premier test avait échoué, se souvient Adel Mebarki. Pourtant, ce spécialiste de l’IA mesure le potentiel de ChatGPT, pouvant par exemple aider la start-up française sur l’enrichissement linguistique. “Pour analyser des maladies, nous partons de mots évocateurs de la maladie. Cela reste un exercice limité, auquel ChatGPT peut remédier en apportant une exhaustivité sémantique plus importante et en générant des mots clés du sujet” dit-il. Dans un travail prospectif, Aurélie Névéol imagine quelques cas d’usage en santé “entièrement encadrés”. La chercheuse prend comme exemple la génération de textes synthétiques, “pour faciliter l’accès aux textes soumis à des contraintes de confidentialité”, ou encore l’aide au codage médico-économique dans les hôpitaux. Cette application est d’ailleurs parmi les plus courantes dans le traitement automatique de la langue biomédicale, souligne-t-elle. Pour Jean-Gabriel Ganascia, professeur d’informatique à la faculté des sciences de Sorbonne Université, le principal intérêt des grands modèles de langage pour les professionnels de santé est l’aide qu’ils peuvent leur apporter en matière de documentation scientifique grâce à leur capacité à résumer des textes, à partir desquels pourront être extraites des connaissances. “C’est essentiel pour faire de la reconnaissance d’entités nommées. Dans le domaine médical, c’est central, car beaucoup d’articles sont publiés sur différents sujets à l’international” indique-t-il. Un potentiel au-delà de ChatGPT David Gruson, fondateur de Ethik-IA David Gruson entrevoit quant à lui un potentiel pour les agents conversationnels au-delà de ChatGPT, notamment dans l’accompagnement des maladies chroniques et métaboliques (diabète, insuffisance rénale, etc.) ainsi que dans l’aide à l’observance des traitements pharmaceutiques. À condition, toutefois, de se mettre en adéquation avec les principes de régulation. “Qui dit agent conversationnel dit traitement algorithmique et application de l’article 17 de la loi de bioéthique [ndlr, portant sur l’information du patient] mais aussi des futurs articles 14 et 29 du règlement européen sur l’IA (AI Act). Il est nécessaire de mettre en place une garantie humaine dans la conception et l’application en vie réelle. L’AI Act entrera en vigueur dans deux ans, au rythme de cette révolution technologique, c’est un espace temps long. Les acheteurs publics ou privés ont dès à présent une responsabilité pour exiger dans les cahiers des charges d’acquisition des solutions qu’ils intègrent cette pré-conformité à l’AI Act ”, souligne David Gruson. Pour Aurélie Névéol, il ne fait aucun doute que ChatGPT doit passer par les mêmes protocoles d’évaluation hospitaliers que les dispositifs médicaux. Elle mesure cependant que dans les faits une “évaluation complète n’est pas forcément réalisable dans la mesure où cela nécessiterait de faire le tour des usages potentiels de l’outil”. En définitive, “il ne faut pas prendre ces grands modèles de langue comme l’alpha et l’oméga qui vont permettre de tout faire dès qu’il y a un sujet de langage à traiter. Ils sont, malgré tout, très intéressants. Il faut juste comprendre leurs limites et leur construction pour savoir les utiliser au bon moment” conclut Thomas Gouritin. Les larges modèles de langue ont encore du chemin à parcourir avant de devenir des outils du quotidien pour les professionnels de santé. GPT-4 et la découverte de médicament OpenAI a annoncé le 14 mars le lancement du modèle GPT-4, une version améliorée du modèle GPT-3.5, qui opère actuellement ChatGPT. GPT-4, disponible pour l’heure sur liste d’attente, promet d’être plus fiable et capable de gérer des instructions plus nuancées que la version précédente. La médecine surveille de près les potentiels cas d’usage qui pourraient naître de cette évolution, la découverte de médicaments pourrait en faire partie. Dans son document technique présentant GPT-4, OpenAI présente un cas où un utilisateur demande à l’outil de lui proposer un composé ayant des propriétés similaires à celles du médicament Dasatinib, de le modifier pour s’assurer qu’il ne soit pas breveté, puis trouver un fournisseur le vendant pour l’acheter. En interagissant avec d’autres systèmes, GPT-4 a démontré sa capacité à trouver des composés chimiques aux propriétés similaires à celles d’un médicament existant. “L’exemple est illustratif dans la mesure où il utilise un médicament bénin contre la leucémie comme point de départ, mais il pourrait être reproduit pour trouver des solutions de remplacements à des composés dangereux” a indiqué OpenAI. Clarisse Treilles, Coralie Baumard chatbotDonnées de santéinformatiqueIntelligence ArtificielleOutils numériquesRechercheTélémédecine Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind