Accueil > Parcours de soins > Comment Lifen et Gustave Roussy ont construit un outil de collecte automatique des données de vie réelle Comment Lifen et Gustave Roussy ont construit un outil de collecte automatique des données de vie réelle Le 8 avril dernier, Lifen et Gustave Roussy présentaient lors du congrès de l’AACR (American Association for Cancer Research) les résultats d’une étude basée sur un outil de collecte automatique des données de vie réelle. Pour les acteurs de la recherche clinique, les atouts et cas d’usage de cette technologie ouvrent de nombreuses perspectives. Explications. Par Romain Bonfillon. Publié le 15 avril 2024 à 16h19 - Mis à jour le 23 juillet 2024 à 15h05 Ressources Le 11 décembre dernier, l’Institut Gustave Roussy et Lifen annoncaient un partenariat s’inscrivant dans le plan France 2030, pour accélérer la recherche en oncologie. Cet accord cadre faisait suite à une étude collaborative réalisée en mai 2023, où Lifen a testé ses solutions à Gustave Roussy pour lire les comptes rendus médicaux. Le nouveau partenariat ambitionne de déployer cette solution à grande échelle pour construire des “deep cohortes” (des cohortes permettant de profiler un très grand nombre de données pour chaque patient). Le premier projet à voir le jour, baptisé LUCC (Large and Unified Cancer Cohort) consiste à construire une base de données sur le cancer du poumon en France. La genèse La collaboration entre Lifen et l’Institut Gustave Roussy a commencé en 2021, sur la base des solutions proposées par Lifen dans le cadre du soin courant. “Nous avons ensuite commencé à parler d’extension sur le domaine de la recherche clinique, avec l’objectif de créer un outil capable d’automatiser la collecte des données pour construire des cohortes de manière automatisée”, explique Franck Le Ouay, CEO de Lifen. Franck Le Ouay, CEO de Lifen La co-construction d’un tel outil, basé sur l’intelligence artificielle, s’appuie nécessairement sur l’expertise médicale des futurs utilisateurs. “Nous avons eu des échanges quasi quotidiens avec eux pour définir les variables que l’on voulait extraire. Au-delà de la variable, il y a la question des modalités que cette variable peut prendre. Un “antécédent médical” est par exemple une notion très vague. Il s’agit donc de définir la vingtaine d’antécédents qui sont pertinents pour une maladie précise. Bien qualifier le problème permet d’être beaucoup plus efficace dans la structuration des données”, souligne Franck Le Ouay. Ce n’est que lorsque le taux de complétude des données récupérées automatiquement – et leur qualité – était comparable à celui des données remplies manuellement qu’a commencé le recrutement des patients pour une première cohorte sur le cancer du poumon : LuCCC (Lung cancer Cohort Consortium using Cloud technology) devenu aujourd’hui LUCC (Large and Unified Cancer Cohort), signe de son ambition d’adresser d’autres types de cancers. La phase d’inclusion des patients a débuté en janvier dernier au sein de l’Institut Gustave Roussy. Un peu plus de 1000 patients à ce jour ont rejoint la cohorte. Comment est construit LUCC ? La matière première de LUCC est constituée de divers comptes rendus médicaux (opératoires, de consultation, RCP, résultats d’examens). “Si le patient est inclus dans l’étude, nous allons essayer de trouver automatiquement les éléments pour renseigner la cohorte. Tout ce qui en somme constitue le dossier médical du patient est susceptible de l’alimenter. C’est le travail qui serait fait à la main par un ARC (un attaché de recherche clinique, ndlr) que nous allons essayer d’automatiser”, explique Franck Le Ouay. Concrètement, la solution Lifen Data Lab qui sert à bâtir la cohorte LUCC transforme du texte au format PDF en donnée structurée. Les résultats de l’étude Dr Mihaela Andrea, oncologue médicale à l’Institut Gustave Roussy Le 8 avril 2024, à San Diego, le Dr Mihaela Andrea, oncologue médicale à l’Institut Gustave Roussy, présentait les résultats d’une première étude destinée à montrer la pertinence de l’outil de récupération automatique des données de Lifen, au travers de l’exemple de la cohorte LUCC. “Nous avons voulu faire le comparatif entre une base de données remplie automatiquement et une base de données remplie manuellement au travers de REDCap (une solution logicielle d’acquisition de données pour la recherche clinique, ndlr). Le taux de concordance et d’exactitude des données étaient les deux critères de comparaison. Dans les deux cas, la solution Lifen affiche un score supérieur à 90 %”, indique-t-elle. Et de préciser que “les résultats de l’étude révèlent cependant des performances inégales de l’algorithme, liées en particulier aux difficultés à aller récupérer certaines données. “Nous avons un taux de concordance élevé pour les variables démographiques, les facteurs de risque, les comorbidités, l’histoire de la maladie, la séquence de traitement, le nombre de lignes antérieures que les patients ont reçues et le profil moléculaire. Par contre, certaines variables de type dates manquaient, soit parce qu’elles n’étaient pas toujours bien précisées dans les comptes rendus médicaux, soit parce que l’algorithme n’avait pas le droit d’accès à certaines données. C’est en particulier le cas pour les comptes rendus d’anatomopathologie et de scanner, qui proviennent la plupart du temps de sources extérieures à l’établissement. La machine ne peut donc pas encore remplacer l’humain pour ce type de données”, observe Mihaela Aldea, mais l’algorithme fait déjà gagner énormément de temps sur beaucoup de variables” (cf. graphique ci-dessous) Extrait du poster présenté le 8 avril dernier à l’AACR par le Dr Mihaela Aldea Les atouts de la solution La simplicité En recherche permanente d’outils capables d’accélérer la phase de recherche clinique, le Pr Besse s’est vu plusieurs fois proposer des systèmes d’automatisation qui venaient se connecter directement au SI de Gustave Roussy. “Nous refusons à chaque fois, car nous ne voulons pas que nos données soient aspirées sans que l’on ait un contrôle”. De fait, c’est la simplicité et la “légèreté” de la technologie proposée par Lifen qui l’a séduit. “Un contrat est signé avec mon hôpital et je n’ai à m’occuper de rien. Jusqu’à maintenant on me disait que ces solutions ne marcheraient jamais si je n’avais pas un compte rendu type, où l’on décrit les choses de la même façon, pour “servir la soupe à la machine”. Ici, la solution réussit à analyser du texte, peu importe comment je le dicte”, souligne-t-il. La représentativité Pr Benjamin Besse, directeur de la recherche clinique à l’Institut Gustave Roussy Aussi, ajoutons que, comme toute solution basée sur l’intelligence artificielle (IA), Lifen Data Lab est encore susceptible d’être victime des traditionnels biais engendrés par des données peu ou mal structurées. Ici, c’est moins la performance de l’algorithme qui est en cause que sa capacité à “comprendre” des données hétérogènes qui recouvrent une même réalité. “Nous allons ouvrir une base en pédiatrie et un collègue m’a fait remarquer qu’il existait dans les comptes rendus près de 20 formulations différentes – résistance au traitement, réapparition, réactivation – pour parler de récidive”, rapporte le Pr Benjamin Besse, directeur de la recherche clinique à l’Institut Gustave Roussy. Les solutions Lifen sont aujourd’hui présentes dans plus de 800 établissements de tous types (des CH, des CHU, des CLCC, etc.). Dans la perspective de l’extension de la cohorte LUCC à plusieurs centres, “cela permet d’offrir une vision plus exhaustive et représentative de la population”, affirme le Pr Besse. Une solution évolutive “Eduquée” à aller récupérer certaines données dans les comptes rendus médicaux, la solution Lifen Data Lab peut évoluer en fonction des besoins des chercheurs. “Si l’on veut ajouter une variable parce que l’on s’interroge sur sa pertinence pour caractériser un type particulier de cancer, l’outil va pouvoir aller rescanner l’intégralité des comptes rendus et l’extraire. C’est une puissance incroyable. Imaginez-vous devoir payer quelqu’un pour aller rouvrir 10 000 dossiers patients…”, pointe le Pr Besse. Des garde-fous éthiques Basée sur des données massives et extrêmement sensibles, la cohorte LUCC avait besoin de garanties éthiques pour être autorisée et séduire d’autres centres. “J’ai une approche très académique des choses, je ne suis pas payé par la pharma ou par des compagnies privées, rappelle le Pr Besse. L’état d’esprit de Lifen est vraiment de pouvoir créer une base sur laquelle nous allons pouvoir poser des questions scientifiques. Certes, l’entreprise a un business modèle, qui consiste à proposer la solution à des partenaires privés, mais nous constituons un conseil scientifique qui va filtrer toutes les questions posées à la base, d’où qu’elles viennent. Ce conseil est constitué de représentants de tous types de centres et de patients. C’est une garantie d’intégrité, qui désamorce toute appréhension de créer une base de données qui serait à but uniquement lucratif”. Aussi, s’agissant de la conformité réglementaire au RGPD, rappelons que les données présentes dans la base sont anonymisées. Pour ce projet, Lifen a d’ailleurs été accompagné par les équipes juridiques et techniques de la Cnil. Un avantage concurrentiel Si le remplissage automatique de bases de données n’est pas, à l’échelle internationale, une nouveauté, il se limite souvent à quelques variables. “Nous avons structuré plus de 200 variables et ce nombre va encore augmenter, fait savoir le Dr Aldea. Le Pr Benjamin Besse estime quant à lui “bien connaître les bases de données pour en avoir essayer beaucoup. La récupération automatique de données se fait encore très peu dans d’autres pays. Il existe des bases américaines issues de compagnies privées d’assurance santé. Elles étaient considérées comme un Graal il y a 5 ans. Parce que ce sont des bases colossales alimentées par des données de santé d’assurance maladie, on a cru intuitivement qu’elles étaient précises, mais ce n’est finalement pas le cas. Et de citer en exemple le rachat de Flatiron par le laboratoire Roche. “Le système Lifen m’a convaincu sur sa fiabilité et sa performance…et il va s’améliorer dans le temps. Nous n’avons pas du tout à rougir face aux systèmes déployés aux Etats-Unis”, estime–t-il. Les cas d’usage Avoir une description rapide de sa patientèle Dans un premier temps, l’outil Lifen va permettre aux centres qui l’utilisent, “d’avoir en un clic une description de leur patientèle, en particulier pour les essais thérapeutiques”, estime le Pr Besse, ajoutant qu’une telle description peut également être un précieux gain de temps pour la rédaction des rapports d’activité d’un service. Augmenter la puissance statistique d’une étude “La puissance statistique d’une question de recherche dépend du nombre de patients. En augmentant ce nombre, on augmente mécaniquement la pertinence des résultats”, rappelle le Dr Mihaela Aldea. Dès lors que la solution aura automatisé la collecte des données sur un grand nombre de patients, les perspectives scientifiques s’élargiront considérablement. “Au lieu de choisir un petit échantillon de patients, parce que ce nombre est très dépendant du temps médical, nous allons pouvoir répondre à des questions scientifiques sur une grosse population”, se réjouit le Dr Aldea. “Actuellement, ajoute-t-elle, nous avons des besoins énormes en termes de bases de données génomiques. Les patients ont plusieurs tests moléculaires et n’arrivons pas à aller à la même vitesse sur les données cliniques, parce que le remplissage manuel de ces données est très chronophage”. Identifier les patients rares Un autre cas d’usage, consistant à identifier rapidement un patient porteur d’un gène spécifique, devrait apparaître lorsque la base se sera élargie. “Ce sont des questions que l’on se pose aujourd’hui par mail, entre oncologues : combien il y a de patients avec ce gène, et s’ils ont répondu à la chimio classique, s’il y a des traitements ciblés qui ont été essayés et s’ils ont fonctionné”, explique Benjamin Besse. De fait, la façon de classifier et de traiter les cancers a énormément évolué ces dernières années. “Le cancer du poumon était une seule maladie il y a 20 ans. Aujourd’hui, il existe plus de 10 sous-groupes de cancers du poumon, avec 26 traitements, certains ne pouvant être donnés que dans certains sous-groupes, sans compter l’immunothérapie qui gagne du terrain. Nous avons donc besoin d’outils pour les tout-petits sous groupes sur lesquels on ne peut pas faire d’essais cliniques ou en tout cas pas d’essais randomisés (avec tirage au sort entre le traitement de référence et le traitement innovant, ndlr). Ce manque de bases de données très larges et mises à jour récemment est aujourd’hui un immense problème en recherche”, fait remarquer le Pr Besse. Faciliter l’inclusion des patients Les essais cliniques ont des critères d’inclusion et de non inclusion, souvent liés au type de cancer, au profil moléculaire, aux comorbidités et aux lignes de traitement antérieures que le patient a reçues. “Actuellement, notre algorithme est très puissant pour identifier ce type de variables et pour les structurer”, fait remarquer le Dr Mihaela Aldea et l’on peut très bien imaginer faire un test préclinique qui permette de savoir quels sont les patients éligibles à un essai. Cela permettrait de gagner du temps en anticipant leur prise en charge” (inscription sur liste d’attente, prise de contact avec le médecin traitant pour présenter l’essai). L’avenir de LUCC Côté performances, l’algorithme continue à s’améliorer. “Nous avons commencé à 10 minutes par patient, nous sommes aujourd’hui à 7 minutes et on peut facilement imaginer aller encore plus vite. Si le temps est encore exprimé en minutes et pas en secondes, c’est qu’il existe encore une supervision manuelle faite par les équipes de Lifen, qui contrôlent si l’algorithme a identifié des données signalées comme aberrantes. Nous vérifions de notre côté pourquoi les données ne sont pas concordantes, pourquoi il existe des mismatchs entre le remplissage automatique et manuel”, explique Mihaela Aldea. Lifen, qui s’est fixé comme objectif d’intégrer 5000 patients à la cohorte LUCC d’ici fin 2024, communique aujourd’hui auprès d’autres centres pour les inviter à implémenter son nouvel outil. “Nous sommes actuellement en négociation avec certains hôpitaux et les premiers partenariats seront peut-être annoncés très bientôt”, fait savoir le CEO de Lifen ajoutant que “l’idée est d’avoir des centres avec beaucoup de diversités : des CHU, des CH, des hôpitaux militaires, des cliniques privées, ….c’est important d’avoir cette représentativité, avec des prises en charge différentes”. Aussi, dans un second temps, Lifen entend appliquer l’outil à d’autres indications sur le cancer et à d’autres aires thérapeutiques. “Cette production de base de données est un élément essentiel pour la transformation du système de soins. Nous avons besoin de plus de données pour accélérer la mise au point des médicaments de manière sûre, pour comprendre les choix de santé publique, l’organisation des soins, l’impact des déserts médicaux. Ces bases de données constituées en temps réel et à grande échelle, sont un nouvel outil avec lequel nous allons pouvoir faire beaucoup de choses, conclut Franck Le Ouay. Car plus qu’une simple base de données, LUCC peut être considérée comme “une infrastructure de données, à partir de laquelle peuvent déboucher plusieurs cohortes, en fonction de la question de recherche posée”, fait remarquer le Dr Mihaela Aldea. Les bases de données de vie réelle : précieuses mais difficiles à construire Les données de vie réelle concernent tous les patients, inclus ou pas dans les essais cliniques. Utilisées dans le cadre de la recherche clinique, elles constituent des outils précieux pour parvenir à des évaluations précises et réalistes des effets d’un traitement, par exemple. “Lorsque vous voulez savoir exactement ce qui se passe chez des patients atteints de cancer du poumon en France, vous demandez à beaucoup de centres de rentrer les données de tous les patients qui vont en consultation, même les plus les plus fragiles, pour comprendre comment on prend en charge ces patients, quel traitement on leur donne, pendant combien de temps, quel est le pourcentage de patients qui répondent au traitement”., explique le Pr Benjamin Besse. Chez nous, nous ne disposons de ces données-là qu’à partir d’essais thérapeutiques, qui se font sur des populations sélectionnées. Les données sur lesquelles on se base pour mettre un médicament sur le marché sont finalement un peu différentes de celles que l’on a en vie réelle, des patients que je vois en consultation. Or, nous avons besoin de ces données de vie réelle pour bien comprendre ce qu’est la réalité du cancer du poumon et comment nos traitements impactent la survie, la qualité de vie”. Problème : “les comptes rendus médicaux racontent une histoire qui n’est pas structurée. Les bases de données de vie réelle aujourd’hui utilisées en recherche clinique doivent donc être remplies manuellement et c’est un processus très chronophage et qui dépend beaucoup des connaissances médicales de la personne, du temps dont elle dispose”, explique le Dr Mihaela Aldea. “En tant que médecin, je ne peux pas passer une heure par patient à rentrer des données. L’hôpital paye donc des attachés de recherche clinique pour accomplir cette tâche, mais cela coûte très cher”, complète le Pr Benjamin Besse. La base les plus importante sur le cancer du poumon en France est aujourd’hui la base ESMÉ (Unicancer) qui regroupe plus de 30 000 patients, mais sa dernière mise à jour date de 2021. “Nos standards de traitements changent tellement vite qu’il faut que l’on ait des bases mises à jour automatiquement. Ce n’était pas possible…jusqu’à maintenant, précise le Pr Besse. Romain Bonfillon Algorithmesbase de donnéesdonnées de vie réelledossier patient informatiséEssais cliniquesGustave RoussyHôpitalIntelligence ArtificielleMaladies raresoncologieOutils numériquesPartenariatRecherche Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire Quelles pistes pour accélérer la recherche clinique ? Le PSCC veut accélérer la structuration des données de vie réelle des hôpitaux analyses TENDANCES 2024 - La génomique, une révolution en devenir