Accueil > Parcours de soins > Gestion de la data > Partenariat de recherche entre Polytechnique et la Cnam : bilan et perspectives Partenariat de recherche entre Polytechnique et la Cnam : bilan et perspectives Démarré en 2014, ce partenariat vise à ouvrir à une équipe de recherche de Polytechnique un accès au Sniiram, base de données regroupant l’ensemble des remboursements de l’Assurance maladie. Emmanuel Bacry, chercheur au CNRS et en charge de ce partenariat, explique à mind Health les étapes et les premiers résultats de cette collaboration, renouvelée fin 2017. Par . Publié le 13 avril 2018 à 10h25 - Mis à jour le 13 avril 2018 à 10h25 Ressources La base de données du Système national d’information inter-régimes de l’Assurance maladies (Sniiram) regroupe près de 300 teraoctets de données de remboursements sur 20 ans. Cette base “d’une richesse exceptionnelle”, selon les mots d’Emmanuel Macron dans son discours sur l’intelligence artificielle prononcé fin mars, est pourtant relativement peu exploitée. En 2014, le professeur Emmanuel Bacry, chercheur au CNRS au centre de mathématiques appliquées de l’école Polytechnique, a demandé l’autorisation à l’Assurance maladie d’accéder à cette base de données afin d’y appliquer des méthodologies statistiques, puis des algorithmes d’intelligence artificielle. “Nous avons mis sept mois à trouver un accord qui a débouché sur un partenariat de recherche de 3 ans entre la Cnam et Polytechnique”, explique Emmanuel Bacry. Le budget total n’est pas communiqué, mais le coût se répartit équitablement entre les deux partenaires. Deux ans de restructuration de la base Concrètement, l’équipe d’Emmanuel Bacry, composée au plus haut de cinq ingénieurs informaticiens de la Cnam et Polytechnique, deux chercheurs juniors et trois chercheurs seniors à temps partiel, pouvait consulter la base de données au sein des locaux de la Cnam, le partenariat stipulant qu’aucune donnée ne doit sortir de la caisse d’assurance. Pour pouvoir entraîner les algorithmes les chercheurs ont créé un cluster de “fausses” données, au fonctionnement identique à la vraie base de données, sur laquelle ils peuvent travailler au sein de Polytechnique. Emmanuel Bacry, chercheur “Nous avons commencé à travailler sur cinq téraoctets de données. Le problème de cette base est qu’elle est utilisée pour faire des remboursements et donc organisée pour cela. Elle se compose en près de 800 tables relationnelles, dont une trentaine de majeures qui comptent des milliards de lignes, liées les unes aux autres (un remboursement pointe sur le médecin prescripteur, le lieu de l’acte, etc.). D’un point de vue analytique, c’est une catastrophe car on ne peut pas interroger rapidement tout l’historique d’un individu”, explique Emmanuel Bacry. Le premier travail a donc consisté à restructurer la base, afin d’aplatir les données et de créer “l’équivalent d’un très grand tableau avec un assuré par ligne”, détaille Emmanuel Bacry. Ce travail de préparation a duré près de deux ans, en parallèle de la création d’une infrastructure de machines. L’ensemble des outils développés à cette occasion sont open source. Ce n’est qu’après ce travail que les premiers algorithmes ont pu être appliqués. “Le premier sujet auquel nous nous sommes attachés concernait la pharmaco-épidémiologie, c’est-à-dire la détection de signaux faibles pour repérer les médicaments aux effets secondaires néfastes”, explique Emmanuel Bacry. Une première preuve de concept réussie L’objectif était de créer un algorithme permettant avec très peu de travail en amont d’interroger la base avec une question comme “Tel médicament provoque-t-il tel effet secondaire ?”. Une première version de l’algorithme a été testée fin 2017 sur un cas connu d’un antidiabétique retiré du marché car il provoquait un risque plus important de cancer de la vessie. “Sans préparation de données, l’algorithme a bien sorti cet antidiabétique comme réponse. Cela a servi de preuve de concept. Avec la méthode utilisée jusqu’ici, il fallait six mois pour sortir cette réponse”, indique Emmanuel Bacry. À l’issue des trois ans, les deux partenaires ont décidé de renouveler ce partenariat, pour à nouveau trois ans. “L’idée est désormais de mettre en production l’algorithme sur des sujets plus ouverts, avec un passage à l’échelle. Il s’agit d’étudier 140 médicaments susceptibles d’augmenter le risque de chutes des personnes âgées”, explique Emmanuel Bacry. Pour cela, il faut “définir” ce qu’est une chute, à partir de plusieurs événements répertoriés dans la base (un remboursement, un acte de télémédecine…). Une dizaine de téraoctets sont cette fois-ci intégrés à l’étude. D’ici la fin de l’année, les premiers résultats devraient être connus. La prochaine étape sera ensuite de tenter d’identifier plusieurs effets secondaires, puis à terme que l’algorithme détecte seul les effets secondaires de médicaments, afin de pouvoir être utilisé en autonomie par la Cnam. Pour Emmanuel Bacry, ce travail serait encore plus pertinent si la base s’agrandissait, en intégrant les données des hôpitaux publics et des laboratoires, et s’ouvrait à davantage d’acteurs. C’est d’ailleurs l’esprit des propositions avancées dans le rapport Villani sur l’intelligence artificielle. Le président de la République a annoncé jeudi 29 mars vouloir créer un “hub” des données de santé. Il devrait regrouper, à terme, “l’ensemble des données remboursées par l’Assurance-maladie, en ajoutant les données cliniques des hôpitaux, les données de la médecine de ville, ainsi que les données de grande qualité, scientifique et médicale, créées dans le cadre de cohortes nationales”. L’INDS, créé pour faciliter l’accès aux données de santé, dresse un premier bilan En 2017, l’Institut national des données de santé (INDS) a été créé dans l’objectif de faciliter l’accès aux bases de données de santé, notamment à celle du Sniiram. Composé de 25 membres, il est le point d’entrée unique de toutes les demandes d’accès, qu’elles émanent d’acteurs privés, publics, citoyens, usagers du système de santé, professionnels de santé, établissements de santé, chercheurs ou entreprises. L’institut a récemment publié un premier bilan d’activité : au 24 janvier 2018, 108 dossiers avaient été déposés au Comité d’expertise pour les recherches, les études et les évaluations dans le domaine de la Santé (Ceeres) et 17 autorisations avaient été rendues. Le délai moyen entre la complétude d’un dossier déposé à l’INDS et l’autorisation rendue par la Commission nationale de l’informatique et des libertés (Cnil) était de 58 jours ouvrés en moyenne (30 jours pour le délai le plus court et 76 jours pour le délai le plus long). base de donnéesCNAMDonnées de santéIntelligence Artificielle Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind