• Contenus gratuits
  • Notre offre
Menu
  • Ressources
    • Toutes les ressources
  • Infos
    • Toutes les infos
  • Essentiels
    • Tous les essentiels
  • Analyses
    • Toutes les analyses
  • Data
    • Data
  • Newsletters
  • Profil
    • Je teste 15 jours
    • Je me connecte
  • Profil
    • Mon profil
    • Je me déconnecte
CLOSE

Accueil > Parcours de soins > OncoLab, une plateforme pour structurer et libérer la donnée en oncologie

OncoLab, une plateforme pour structurer et libérer la donnée en oncologie

Le projet OncoLab réunit Arkhn, Owkin et Inria pour faciliter l’exploitation des données d’oncologie de quatre grands établissements : l’Institut Curie, l’Institut Bergonié, l’IUCT-Oncopole et le CHU de Toulouse. Objectif : rendre ces données accessibles à l’ensemble des acteurs de l’écosystème, à des fins de recherche et d’innovation. Près d’un an après le lancement du projet, en juin 2022, mind Health fait le point avec les parties prenantes d’Oncolab.

Par Sandrine Cochard. Publié le 16 mai 2023 à 22h40 - Mis à jour le 17 mai 2023 à 10h47
  • Ressources

Le projet Oncolab vise à développer des architectures de données et concevoir un socle technique de collaboration pour les établissements de santé et leurs partenaires. Les architectures de données sont développées par la société Arkhn, chef de file du projet, et étudiées en apprentissage fédéré par Owkin, spécialisé en data science et en intelligence artificielle. Au total, le projet, lancé en juin 2022, dispose d’un budget de près de 11 M€ financé par bpifrance, et s’étale sur trois ans.

Concrètement, le projet Oncolab doit permettre de :

  • mettre en qualité des données, issues du soin (Compte-rendus, Ordonnances, Lettres de liaison, etc.),
  • créer un cadre d’exploitation des données basé sur l’apprentissage fédéré,
  • créer un espace où établissements de santé et partenaires industriels peuvent collaborer sur des projets de recherche,
  • améliorer les méthodes de Traitement Automatique du Langage (Intelligence Artificielle)
  • développer deux cas d’usage médico-scientifiques (sur le cancer du pancréas et le lymphome)

Améliorer le soin et la recherche en oncologie

“Notre enjeu avec Oncolab est de parvenir à parler un langage commun des données, pour exploiter les données issues des comptes-rendus et qui sont parfois saisies de façon différente selon les spécialités”, explique à mind Health Julien-Aymeric Simonnet, Directeur données et santé numérique à l’Institut Bergonié. Le projet Oncolab présente aussi un intérêt en recherche, pour savoir notamment “comment traduire les données des patients de notre établissement en caractéristiques communes ? poursuit Julien-Aymeric Simonnet. Avoir un cancer du poumon ou un cancer de la prostate n’est plus une caractéristique suffisamment précise en cancérologie aujourd’hui. On regarde des caractéristiques qui ciblent la tumeur, l’adn de la tumeur, l’adn du patient… pour déterminer quel traitement va fonctionner. Pour cela, nous devons exploiter beaucoup de données textuelles. Oncolab apporte une solution qui permet de structurer des données non structurées et de parler un langage commun.”

Lancé le 20 juin 2022, le projet Oncolab se donne jusqu’à la fin de l’année 2023 pour finaliser la construction de l’architecture technique. Arkhn est en train de déployer les architectures de données dans les établissements. “On ne part pas du même existant, nous devons donc nous adapter à chaque établissement. Ensuite viendra la phase de structuration des données, qui est celle qui prendra le plus de temps. Il s’agit d’aller chercher les données là où elles se trouvent, les mettre en qualité pour les rendre compréhensibles, les extraire des documents médicaux avec l’expertise de traitement du langage naturel (lire encadré) et les rendre interopérables”, explique Thierry Chanet, Head of Business d’Arkhn. 

L’enjeu du Traitement Automatique du Langage

Le rôle d’Inria est de générer des algorithmes de Traitement Automatique du Langage (TAL ou NLP – Natural Language Processing) les plus complets possibles, afin d’analyser automatiquement des dizaines de milliers de documents médicaux (ordonnances, comptes-rendus d’hospitalisation, lettres de liaisons, etc.) et d’en extraire les informations pertinentes pour la recherche. Ces méthodes s’appuient sur des modèles d’intelligence artificielle de pointe portés notamment par l’équipe-projet ALMAnaCH d’Inria. “Le domaine médical est un sujet particulier : il est très spécialisé et les connaissances sont déjà structurées au travers d’ontologies, de thésaurus, etc, explique Eric De La Clergerie, chercheur au sein d’Inria dans l’équipe ALMAnaCH. Notre enjeu consiste à coupler ces connaissances existantes et les connaissances disponibles dans les documents médicaux. Donc de parvenir à articuler un modèle de langage automatique avec une base de connaissances. C’est un sujet qui intéresse beaucoup la recherche aujourd’hui.”

Pour parvenir à ces algorithmes, le projet OncoLab s’est organisé en plusieurs phases. La première consiste à déployer les architectures techniques pour libérer et structurer les données des établissements en interne, sur un modèle commun (OSIRIS). La deuxième vise à concevoir et “nourrir” les algorithmes de TAL avec les annotations des données (fournies par les médecins des différents établissements de santé). “On veut produire plusieurs dizaines de milliers de documents annotés par des professionnels de santé pour l’entraînement des algorithmes”, souligne Thierry Chanet. Enfin, la troisième phase sera l’usage véritable des algorithmes à des fins de soins ou de recherche.

Une méthode : l’apprentissage fédéré

À terme, le projet OncoLab intègrera des données d’oncologie de tous types (compte-rendus, examens, imagerie, biologie, etc.) pour tous types de cancers, recueillies auprès des centaines de milliers de patients suivis par les établissements de santé. “Une plateforme sécurisée permettra de simplifier l’accès technique aux données de chaque centre souhaitant les mettre à disposition pour la conduite de projets de recherche et d’innovation, réduisant ainsi drastiquement leurs coûts et délais de mise en œuvre, précise Thierry Chanet. Cet accès à des données standardisées offrira de nouvelles perspectives aux établissements de santé à l’origine de la production des données ainsi qu’à leurs partenaires.” Le recours à l’apprentissage fédéré permet notamment de mener des projets de recherche sans que les données ne soient extraites des établissements. Un gage pour des établissements en demande de maîtrise et de souveraineté de leur donnée. 

Pour l’Institut Curie, le projet OncoLab s’inscrit dans la lignée du projet SUBSTRA, auquel l’institut avait participé il y a quelques années avec Owkin, mais va plus loin cette fois. “Le projet SUBSTRA était déjà un projet de federated learning mais la problématique de l’interopérabilité des données n’avait pas été anticipé à l’époque, limitant nos capacités de collaborations. Le projet Oncolab va apporter cette couche d’interopérabilité qui est cruciale et manque encore aujourd’hui, espère Julien Guérin, Directeur des datas de l’Institut Curie depuis décembre 2022. Aujourd’hui, nous proposons un accompagnement sur l’accès et l’utilisation des données projet par projet, que ce soit pour nos propres équipes de recherche en interne, des partenaires académiques ou industriels. Mais nous consommons à chaque fois une énergie importante dans la préparation et la mise à disposition les données, notamment lors de projets impliquant de multiples partenaires.” OncoLab doit ainsi permettre de créer un canal “privilégié” entre les établissements et leurs partenaires publics et privés, où ils pourront présenter les données existant dans leurs entrepôts. 

Un standard de donnée : le modèle OSIRIS

Pour s’assurer de l’interopérabilité du projet, le consortium formé par les parties prenantes d’OncoLab a retenu le modèle OSIRIS. Le projet OSIRIS est un projet national de partage des données en cancérologie initié par les SItes de Recherche Intégrée sur le Cancer labellisés par l’Institut national du cancer. Ce modèle de représentation des données en cancérologie s’appuie sur un set de données minimal incluant un volet clinique, un volet “omique” et plus récemment deux nouveaux volets dédiés à l’imagerie/radiomique et la radiothérapie. Il permet ainsi de fédérer des bases de données en cancérologie. En parallèle, OncoLab développe deux cas d’usage médico-scientifiques de cancer du pancréas et de lymphome, et vise à en intégrer d’autres. “Oncolab va permettre d’amorcer la dynamique pour d’autres projets souhaitant bénéficier d’approches fédérées, typiquement dans le cadre d’études sur des pathologies rares”, souligne Julien Guérin.

Des recrutements à venir

Certains partenaires du projet en profitent pour se structurer en interne. L’IUCT Oncopole prévoit ainsi de recruter un data engineer et un data scientist ces prochains mois, pour assurer et pérenniser le travail engagé autour de la structuration des données. Même stratégie pour l’Institut Bergonié, qui souhaite recruter un ingénieur en santé numérique qui sera chef de projet (organisation / méthode) et un ingénieur partagé entre la DSI et la direction Donnée et Santé numérique, avec un rôle opérationnel.

Côté Inria, deux doctorants ont rejoint le projet en début d’année. Les recrutements d’un ingénieur et d’un post-doctorant sont également prévus “dans les mois qui viennent, à mesure qu’’Inria montera sur le projet”, souligne Eric De La Clergerie, chercheur dans l’équipe ALMAnaCH, spécialisée dans le traitement automatique du langage.

Valorisation de la donnée

“Le sujet est complexe puisqu’il n’existe aucun modèle de référence à ce jour. Des modèles de valorisation adaptés au projet ont été définis avec la Direction de la Valorisation et des Partenariats Industriels de l’Institut Curie et permettront une utilisation par d’autres partenaires”, estime Julien Guérin. “Les éléments de propriété intellectuelle ont été discutés et partagés. C’est en soi une première réussite. Les modèles de valorisation qui suivront pourront s’appuyer sur de nombreux éléments qui ont été co-construits dans le cadre de ce projet”, confirme Thierry Chanet. Avec, pourquoi pas, l’intégration progressive de nouveaux partenaires ces prochains mois. “La réussite d’OncoLab pourra conduire à d’éventuels futurs projets, imagine Julien Guérin, en permettant à d’autres acteurs d’intégrer le réseau pour aborder une question scientifique d’intérêt sur d’autres types de pathologie.”

Sandrine Cochard
  • cancer
  • Données de santé
  • Hôpital
  • Innovation
  • Intelligence Artificielle
  • oncologie
  • Recherche
  • start-up

Besoin d’informations complémentaires ?

Contactez Mind Research

le service d’études à la demande de mind

À lire

Étude de cas

HealthChain, les enseignements de l’apprentissage fédéré

Anatomopathologie et IA : la filière en quête d’un modèle économique

analyses

OncoDataHub : observer l’efficacité des thérapies grâce aux données

Étude de cas

Données synthétiques : comment valider la robustesse et la confidentialité des avatars ?

Paris-Saclay Cancer Cluster

Paris-Saclay Cancer Cluster, l’ambition d’un Kendall Square français

Découvrez nos contenus gratuitement et sans engagement pendant 15 jours J'en profite
  • Le groupe mind
  • Notre histoire
  • Notre équipe
  • Nos clients
  • Nous contacter
  • Nos services
  • mind Media
  • mind Fintech
  • mind Health
  • mind Rh
  • mind Retail
  • mind Research
  • Les clubs
  • mind et vous
  • Présentation
  • Nous contacter
  • Vous abonner
  • A savoir
  • Mentions légales
  • CGU
  • CGV
  • CGV publicité
  • Politique des cookies
Tous droits réservés - Frontline MEDIA 2025
  • Twitter
  • LinkedIn
  • Email