• Contenus gratuits
  • Notre offre
Menu
  • Ressources
    • Toutes les ressources
  • Infos
    • Toutes les infos
  • Essentiels
    • Tous les essentiels
  • Analyses
    • Toutes les analyses
  • Data
    • Data
  • Newsletters
  • Profil
    • Je teste 15 jours
    • Je me connecte
  • Profil
    • Mon profil
    • Je me déconnecte
CLOSE

Accueil > Parcours de soins > Comment Cegedim Health Data et Kynapse ont exploité la base THIN pour tracker le Covid long

Comment Cegedim Health Data et Kynapse ont exploité la base THIN pour tracker le Covid long

En avril 2022, Cegedim Health Data a l’idée d’explorer sa base THIN (The Health Improvement Patient), qui centralise les données patients de 3000 médecins en France, pour réaliser une étude inédite sur le Covid long. Pour l’accompagner dans cette démarche, complexe, elle fait appel à Kynapse, société spécialisée en data science et dans les données de vie réelle. Les coulisses de cette collaboration qui devrait prochainement étendre l’étude à cinq nouveaux pays en Europe. 

Par Sandrine Cochard. Publié le 05 juillet 2022 à 23h51 - Mis à jour le 03 janvier 2023 à 14h37
  • Ressources

Genèse du projet

Cegedim Health Data centralise depuis plusieurs années les données anonymisées remontées par 2000 médecins généralistes et 1000 médecins spécialistes en France dans une base unique: la base THIN (The Health Improvement Patient). En janvier 2022, alors que le sujet du Covid long commence doucement à être documenté, Caroline Eteve-Pitsaer, Directrice Analytics et Customer Success de Cegedim Health Data, et Charlotte Renaudat, directrice médicale de Cegedim Health Data, ont l’idée de faire de cette maladie émergente le sujet de leur étude. “Notre réflexion a été que la base de données THIN est une base de données des soins primaires, des médecins de ville. Or, sauf dans les cas de Covid aigu nécessitant une hospitalisation, le médecin de ville est le premier recours de ces patients présentant des symptômes de Covid long”, explique aujourd’hui Charlotte Renaudat, médecin de formation et épidémiologiste de terrain avec des compétences en recherche clinique.

L’équipe Analytics de Cegedim Health Data a souhaité s’appuyer sur cette base de données européenne pour participer à la progression des connaissances sur le Covid long par la rédaction d’une publication scientifique et montrer deux choses :

  • la robustesse des données de la base THIN, afin qu’elle serve de référence dans les protocoles ou en avant-vente,
  • l’intérêt d’avoir un modèle commun de données entre plusieurs pays.

Explorer les atouts de la base THIN

La base THIN permet de remonter le fil des patients souffrant de Covid long au fil des symptômes et informations médicales renseignés les mois et années précédents par les médecins de ville. Une démarche exploratoire parfaitement adaptée à cette maladie émergente, qui ne faisait pas à l’époque l’objet de consultations spécialisées.

Autre atout de la base THIN : sa représentativité. “Notre base est représentative des patients ambulatoires au niveau de la France et des autres pays couverts. Or il est très difficile d’avoir une représentation non biaisée des Covid longs puisque jusqu’au moment du démarrage du projet, la majorité des études sur le sujet avaient été réalisées sur des patients ayant été hospitalisés, note Charlotte Renaudat. Elles portaient sur le suivi de patients ayant présenté des formes graves de Covid aigu et ayant séjourné dans des services de réanimation. La base THIN nous permet d’avoir une vision plus large de l’ensemble des patients pouvant souffrir de Covid long, notamment ceux n’ayant pas eu de forme sévère de la maladie.”

La méthodologie

Pour réaliser ce projet, Cegedim Health Data se fait accompagner par Kynapse à partir du mois de mars 2022, avec deux objectifs : réaliser un projet pilote avec les données françaises puis, dans un second temps, démarrer l’étude à proprement parler en intégrant les données des pays couverts par la base THIN.

Spécialisée en datascience, Kynapse élabore avec Cegedim Health Data une méthodologie pour tracker les signes de covid long dans la base THIN. Une approche en plusieurs étapes :

  1. une revue de littérature sur le sujet du Covid long,
  2. l’élaboration de règles d’inclusion et d’exclusion basées sur les définitions institutionnelles du Covid long (issues de l’OMS, la HAS et le NICE), en concertation avec Caroline Eteve-Pitsaer et Charlotte Renaudat,
  3. l’élaboration de règles d’analyse pour explorer la base et orienter les recherches.

Des difficultés se révèlent au tout début du projet. La revue de littérature montre ainsi que :

  • le Covid long n’est pas une maladie qui se diagnostique avec un test, un autotest ou une prise de sang. Le diagnostic n’est pas encore reporté clairement dans les dossiers médicaux depuis 2020.
  • il existe différentes définitions du Covid long : “C’est une maladie émergente et chaque pays commence à élaborer ses critères pour la surveiller. Mais ces définitions ne sont pas toutes concordantes -celle de l’OMS par exemple, qui traite surtout des cas graves de Covid long, est très restrictive- même si elles se rejoignent sur les points principaux”, note ainsi Charlotte Renaudat.

Kynapse et Cegedim Health Data ont donc pris le parti de partir des définitions de l’OMS, la HAS et du NICE pour élaborer une définition à la fois respectueuse des règles médicales et suffisamment large pour ne pas passer à côté de cas de Covid long. Autre défi : comment tracker les cas de Covid long dans la base THIN ? “La majorité des maladies sont codées selon la classification internationale des maladies (CIM-10) et d’autres thésaurus. Par exemple, nous avons dans la base THIN un thésaurus davantage adapté aux soins primaires, qui code d’une manière un peu différente que la CIM-10 qui est un thésaurus plutôt adapté à l’hôpital. Mais le Covid long étant une maladie émergente, il n’y a pas de code Covid long”, pointe Charlotte Renaudat. Ce code “Covid long” de la CIM-10 a commencé à être déployé sur les différentes bases de données seulement à la fin de l’année 2021. Une difficulté technique contournée en cherchant non pas un code de maladie, mais les symptômes associés. “Nous avons inclus les patients à partir d’une liste de symptômes, mais un symptôme peut être écrit de différentes façons dans un thésaurus (par exemple : essoufflement, difficulté respiratoire)”, souligne-t-elle.

Charlotte Renaudat, Directrice médicale de Cegedim Health Data

Outre la présence de ces symptômes, il fallait également qu’ils ne soient pas expliqués par un autre diagnostic. Charlotte Renaudat a donc mené un travail de fond pour classer tous les symptômes à inclure pour chaque aire thérapeutique, mais également les diagnostics et les symptômes d’exclusion. “Par exemple, pour un symptôme d’allure cardiaque, il fallait exclure un infarctus”, précise Caroline Eteve-Pitsaer. L’existence de douleur thoracique, qui est l’un des symptômes de Covid longs, n’était ainsi pas prise en compte si elle était associée à un diagnostic d’infarctus du myocarde. “Nous avons cherché les cas de présence d’un symptôme en l’absence d’autre diagnostic, dans un certain délai et avec un antécédent de Covid aigu. Cela a été un travail technique important de codage et l’expertise de Kynapse a fait la différence”, fait valoir Charlotte Renaudat.

Catégories de données utilisées

La base THIN est une base de données très riche (lire encadré), qui compile des milliers voire des dizaines de milliers d’items. Pour mener cette recherche exploratoire sur le Covid long, Kynapse et Cegedim Health Data se sont intéressés à trois grands ensembles de données :

  • les signes et symptômes des patients et le diagnostic associé
  • le diagnostic de Covid aigu
  • la date de survenue du Covid

Kynapse a commencé par constituer une cohorte de patients souffrant de Covid aigu puis est allé chercher, dans cette cohorte, les personnes souffrant de Covid long. “Parmi ces patients avec un Covid aigu, nous avons également cherché les résultats biologiques”, ajoute Caroline Eteve-Pitsaer. Objectif : voir la proportion de patient pour laquelle l’infection au Covid a été confirmée biologiquement. “Dans la revue de littérature réalisée au début du projet, nous avions vu que seuls les cas probables ou confirmés biologiquement pouvaient être considérés comme Covid long. Nous avons donc gardé ces deux aspects : Covid probable ou confirmé biologiquement.”

Une étude longitudinale sur des données de vie réelle

Pour les diagnostics d’exclusion, Cegedim Health Data et Kynapse explorent les antécédents des patients. “Un des symptômes du Covid long est l’altération de l’état général. Comme son nom l’indique, c’est un symptôme très général qui peut survenir après un Covid aigu et être le signe d’un Covid long, mais il peut aussi se manifester lorsque l’on souffre d’un cancer ou d’une maladie chronique. Nous avons donc vérifié l’historique des patients, précise Caroline Eteve-Pitsaer. L’aspect longitudinal de la base a été très important et intéressant pour cette étude.” Cegedim Health Data a ainsi fourni à Kynapse un dataset listant tous les dossiers médicaux anonymisés de patients avec au moins un diagnostic de Covid à un moment donné depuis mars 2020, date d’entrée de l’infection Covid aigu dans le thésaurus des médecins. “Toutes les informations disponibles au moment de l’extraction ont été fournies”, poursuit-elle.

Aomar Abdellaoui, manager au sein de la practice santé de Kynapse

Naviguer dans la complexité de la base THIN a représenté un défi technique pour Kynapse. “Le défi principal portait sur la complexité des règles médicales qu’on allait traduire en code et en analyse de données. Mais avec l’aide de Cegedim Health Data, nous avons pu avoir une vision très détaillée de la base de données et où aller chercher chaque information”, note Aomar Abdellaoui, manager au sein de la practice santé de Kynapse. Avec l’enjeu d’être le plus précis dans ses règles de définition pour bien prendre en compte les critères d’inclusion et d’exclusion pour avoir la cohorte la plus juste de patients Covid long.

“Nous avons eu une approche de type big data, c’est-à-dire qu’on a une base très volumineuse dans laquelle on a essayé d’avoir une approche très ouverte d’identification de signaux faibles et de détails”, poursuit-il.

La base THIN en chiffres

Alimentée par 2000 médecins généralistes et 1000 médecins spécialistes qui y remontent leur comptes-rendus de consultations, la base THIN compte plus de 4 millions de patients actifs en France sur un an. Pour chaque dossier médical, elle compile 6 ans d’historique moyen (mais des patients atteints de maladie chronique peuvent avoir 15 ans d’historique).

Les données THIN sont anonymisées à la source et sont hébergées chez Cegedim.cloud certifié HDS. “Les données sont anonymisées avec différents niveaux de floutage : il ne s’agit pas de pseudonymisation mais bien d’une anonymisation conforme aux recommandations en la matière, il n’y a aucun retour en arrière possible”, insiste Charlotte Renaudat.

Cette base, mise à jour quotidiennement, permet de relever tous les symptômes et toutes les informations remontées au cours d’une consultation médicale dans le dossier patient (signes et symptômes, diagnostic, résultat de tests biologiques, examen complémentaire, médicaments prescrits, données biométriques…). Des renseignements précieux pour la recherche exploratoire menée par Cegedim Health Data et Kynapse, mais particulièrement denses. “Le nombre de symptômes possibles qu’un médecin peut renseigner dans la base se compte en milliers, il y en a plus que la CIM-10 car la base THIN est une base plus détaillée”, souligne Caroline Eteve-Pitsaer.

Calendrier et personnes mobilisées

Cette étude de faisabilité a duré six semaines, entre avril et mai, avec des points hebdomadaires pour affiner l’exploration de la base, en mode agile. Côté Kynapse, deux datascientists étaient affectés au projet, dont un datascientist senior à temps plein. Côté Cegedim Health Data, Caroline Eteve-Pitsaer, directrice Analytics et Customer Excellence, et Charlotte Renaudat, directrice médicale, étaient mobilisées, ainsi qu’une analyste qui s’occupait d’extraire les données et de les fournir à Kynapse. Un statisticien senior complétait l’équipe et participait aux réunions pour aider à la réflexion.

À l’arrivée, les résultats sont jugés “très prometteurs” par Cegedim Health Data. “Ce ne sont pas les résultats finaux mais cette étape a permis de montrer l’intérêt de la méthodologie développée par Kynapse, se réjouit Caroline Eteve-Pitsaer. Nous souhaitons désormais la répliquer en vue de constituer une cohorte de Covid longs avec six pays européens.”

Prochaines étapes

Le projet pilote mené en France en avril-mai visait à tester la faisabilité du projet. Cette étape validée, Cegedim Health Data et Kynapse vont désormais réaliser l’étude sur les cas de Covid long sur plusieurs pays européens représentés dans la base THIN. “Nous devons encore valider la faisabilité de la méthode pour chacun des pays. Nous sommes en train de vérifier si, malgré un modèle de données commun, il n’existe pas certaines spécificités de codage par pays, comme le relevé de diagnostic et de symptômes qui peut varier d’un pays à l’autre”, souligne Caroline Eteve-Pitsaer. Pour cela, le projet va faire intervenir un représentant médical référent par pays, afin de guider Kynapse.

D’ores et déjà, l’étude de faisabilité a permis de souligner l’intérêt des données de vie réelle en soins primaires. “Le point fort des données de vie réelle est qu’elles sont recueillies de manière longitudinale, sans présumer de leur utilisation. Cela permet leur utilisation rétrospective pour la recherche de signes et symptômes d’une maladie émergente, note Charlotte Renaudat. Cette étude est un cas d’école de recherche rétrospective. Avoir des données et des historiques de patients est un avantage majeur.”

Deuxième avantage : les données de vie réelle permettent d’inclure des patients moins standardisés que dans un protocole d’essai clinique, aux critères plus stricts. “La valorisation des données de vie réelle est un enjeu-clé pour améliorer la prise en charge des patients et trouver de nouveaux traitements. Mais il existe encore de nombreux écueils à lever, notamment concernant leur accessibilité, leur qualité car elles sont très hétérogènes, et la rigidité dans laquelle nous sommes parfois obligés de nous inscrire pour les exploiter, explique Aomar Abdellaoui. Quand on mène un projet sur certaines bases de données hospitalières ou du SNDS, il y a un protocole très rigide qu’on doit définir, le temps d’accès aux bases se compte en mois, voire en années, ce qui inhibe les approches plus exploratoires pour lesquelles nous avons besoin d’une donnée fraîche rapidement. C’est justement cet écueil que nous avons réussi à dépasser avec l’équipe Cegedim Health Data : même si le partenariat a été cadré par un contrat et un plan d’analyse clair, l’accès aux données était direct et rapide et nous a permis de tester plusieurs modélisations durant l’étude de faisabilité.”

Kynapse est un cabinet de conseil en stratégie digitale et data fondé en 2016. Il représente 45 consultants et data scientists dont la moitié travaille pour des acteurs de santé – industriels, institutionnels et medtechs. Kynapse est également l’instigateur avec Pfizer et AI for Health de l’Alliance Française des données de vie réelle.

Cegedim Health Data fait partie du Groupe Cegedim, un groupe spécialisé dans la santé depuis plus de 50 ans. Cegedim Health Data fournit des données anonymisées de vie réelle et des études avancées au profit de l’amélioration de la qualité des soins dans l’intérêt de la santé publique. Sa base de données européenne THIN (The Health Improvement Network) cumule un historique de plus de 25 ans et des millions de données patients anonymisées. Elle s’adresse notamment aux acteurs du secteur des sciences de la vie.

Sandrine Cochard
  • base de données
  • COVID-19
  • données de vie réelle
  • Recherche

Besoin d’informations complémentaires ?

Contactez Mind Research

le service d’études à la demande de mind

À lire

Le nouvel enjeu des données de vie réelle

Entretien

Stéphane Messika (Kynapse): "Cette alliance permettra de faire émerger des cas d'usages de laboratoire ou start-up"

Création de l’Alliance française des données de vie réelle

Cegedim Santé et Wefight veulent lutter contre l’errance thérapeutique

Cegedim signe un partenariat stratégique avec 3 groupes de protection sociale et acquiert MesDocteurs

Pharmaself24 et MedPoint nouveaux partenaires de Cegedim

Données de vie réelle : Aetion et Cegedim Health Data reconduisent leur partenariat

Cegedim enrichit sa base THIN avec des données italiennes

Découvrez nos contenus gratuitement et sans engagement pendant 15 jours J'en profite
  • Le groupe mind
  • Notre histoire
  • Notre équipe
  • Nos clients
  • Nous contacter
  • Nos services
  • mind Media
  • mind Fintech
  • mind Health
  • mind Rh
  • mind Retail
  • mind Research
  • Les clubs
  • mind et vous
  • Présentation
  • Nous contacter
  • Vous abonner
  • A savoir
  • Mentions légales
  • CGU
  • CGV
  • CGV publicité
  • Politique des cookies
Tous droits réservés - Frontline MEDIA 2025
  • Twitter
  • LinkedIn
  • Email