Accueil > Data > Initiatives & panoramas > Opt-out : quels éditeurs français interdisent les robots crawlers de l’IA générative ? Opt-out : quels éditeurs français interdisent les robots crawlers de l’IA générative ? Pour faire valoir leurs droits face aux acteurs de l’intelligence artificielle générative, de nombreux éditeurs français ont choisi de leur signifier leur refus d'accès ou de préciser leur position via le TDM Reservation Protocol. mind Media surveille les fichiers robots.txt de plusieurs centaines de sites d’environ 150 éditeurs français majeurs. Consultez les listes dans nos tableaux mis à jour quotidiennement. Par Aymeric Marolleau et Paul Roy. Publié le 02 octobre 2023 à 16h59 - Mis à jour le 19 septembre 2025 à 17h17 Ressources Pour entraîner leurs grands modèles de langage (LLM), les fournisseurs d’outils d’intelligence artificielle générative ont besoin de collecter des contenus du web, notamment des articles d’information. Selon une étude publiée en 2021, la moitié du top 20 des sources du corpus anglais de Common Crawl, sur lequel se sont appuyés Open AI et Google, est composée de sites de presse – New York Times, LA Times, Forbes, HuffPost, etc. Les éditeurs s’en inquiètent et font valoir leurs droits, notamment en appliquant, pour certains, le droit d’opposition (opt-out) prévu par les articles 3 et 4 (exception TDM, pour “Text and Data Mining”) de la directive européenne de 2019 sur le droit d’auteur et les droits voisins. En août 2023, OpenAI a présenté GPTBot et ChatGPT-User, deux crawlers destinés à enrichir ses modèles. Google, qui développe Bard et Vertex AI, a fait de même le 28 septembre 2023 avec Google-Extended. En permettant une identification claire de leurs robots, ces sociétés donnent la possibilité aux éditeurs de les bloquer s’ils ne souhaitent pas voir leurs contenus exploités : il leur suffit d’ajouter une instruction sur leurs fichiers robots.txt (voir méthodologie). Depuis, le nombre de sociétés qui entraînent des modèles d’IA ou qui proposent des assistants ou des “moteurs de réponse” s’appuyant sur cette technologie, a considérablement augmenté, et avec elles le nombre de robots qui convoitent les contenus des éditeurs (images, articles, vidéos…). Depuis fin août 2023, mind Media surveille une fois par jour les fichiers robots.txt d’un peu plus de 300 sites pour savoir s’ils interdisent leurs contenus aux bots des acteurs de l’IA générative. Le laboratoire de développement EDRLab, installé à Paris, a créé un protocole dédié à permettre plus de finesse dans le contrôle des droits, dans un langage lisible par machine, face aux pratiques de récupération de données et de texte. Baptisé TDM Reservation Protocol (TDMRep) – où “TDM” est une contraction de “text and data mining” – il permet aux éditeurs d’indiquer si les droits de contenus web spécifiques sont réservés, comment ils souhaitent être contactés, et le cas échéant quelle licence peut être appliquée. En pratique, cela passe par l’ajout d’instructions dans le code HTML ou l’en-tête HTTP de leur site, ou sur un fichier json hébergé sur leurs serveurs (voir méthodologie). En France, Le Geste recommande à ses membres l’utilisation de ce protocole. Depuis fin septembre 2023, nous surveillons près de 400 sites d’éditeurs français majeurs pour savoir s’ils ont adopté TDMRep. Ci-dessous, consultez la liste de ceux qui ont pris cette décision : Pour aller plus loin, lisez nos analyses sur ce sujet : Août 2023 : Plus d’une vingtaine d’éditeurs d’information français bloquent le robot crawler de ChatGPT ou Google sur leurs sites Septembre 2023 : Google précise à son tour comment bloquer ses crawlers Décembre 2024 : IA, veille, publicité, agrégation de contenus… Quels sont les robots crawlers que les éditeurs français bloquent ou autorisent sur leurs sites ? Décembre 2024 : Quelle est la stratégie des éditeurs vis-à-vis des robots crawlers ? Juin 2025 : Quels sont les robots des acteurs de l’intelligence artificielle qui convoitent les contenus des éditeurs ? Juillet 2025 : Face aux robots crawlers de l’IA, la réponse au cas par cas des éditeurs Méthodologie Robots.txt La cellule datajournalisme du groupe mind a développé pour mind Media un script qui recherche la présence d’un fichier robots.txt sur près de 400 URL d’un panel constitué des principaux sites médias français (PQN, PQR, TV, radio…). Tous ces sites ne disposent pas d’un fichier robots.txt, ou certains peuvent avoir bloqué notre requête. Une fois le fichier robots.txt récupéré, nous y recherchons la présence de la directive “Disallow” concernant les bots d’OpenAI, GPTBot et ChatGPT-User (utilisé par les plug-ins de ChatGPT). Le 28 septembre, Google a présenté dans un post de blog Google Extended, un dispositif qui permet aux éditeurs d’indiquer s’ils souhaitent ou non autoriser la récupération de leurs contenus pour l’amélioration de Bard et Vertex AI, ses IA génératives. Nous avons commencé à rechercher sa présence, associée à la directive “Disallow”, dans les fichiers robots.txt le 29 septembre. Il est possible que certains éditeurs bloquent les bots d’OpenAI ou de Google par d’autres moyens que leur fichier robots.txt, par exemple à l’aide de gestionnaires de bots, comme Bot Manager, d’Akamai, ou DataDome. TDM Reservation Protocol Pour signifier aux solutions d’IA génératives qu’ils restreignent l’accès à leurs contenus, les éditeurs peuvent aussi avoir recours au protocole TDMRep, proposé par l’European digital reading lab (EDRLab). Depuis le 29 septembre, nous vérifions sa présence dans les codes HTML, l’en-tête HTTP ou dans un fichier json hébergé sur les serveurs des sites de notre panel. CGV Les directives sur les fichiers robots.txt et TDM Reservation Protocol ne sont bien sûr pas les seuls recours des éditeurs. Certains précisent leur position sur la question dans leurs conditions générales de vente, à l’instar du Monde : “Il est (…) strictement interdit, sans l’accord préalable et écrit du Monde, de crawler le Site et/ou les Applications et/ou d’en collecter de manière massive le contenu, par quelque moyen et dans quelque but que ce soit, et en particulier afin de développer ou d’entraîner tout programme logiciel, y compris, sans s’y limiter, les programmes basés sur l’intelligence artificielle.” Les CGV n’étant pas rédigées dans un format lisible par machine, nous ne les avons pas récupérées et analysées. Vous avez une question ou avez identifié une erreur ? Contactez-nous : datalab@mind.eu.com Aymeric Marolleau et Paul Roy Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire Plus d'une vingtaine d’éditeurs d’information français bloquent le robot crawler de ChatGPT ou Google sur leurs sites IA générative : Google précise à son tour comment bloquer ses crawlers [Info mind Media] IA générative : le Télégramme intègre la norme TDM Reservation protocol Analyses Confidentiels [Info mind Media] Le Geste appelle l'Etat à intervenir pour réguler le crawling des outils d'IA générative essentiels Nos synthèses et chiffres sur les principales thématiques du marché Les mutations du search à l'ère de l'IA générative L'application inaboutie de la loi sur les droits voisins Google vs DOJ : tout ce qu'il faut savoir sur le procès qui pourrait redéfinir l'adtech L’essentiel sur les identifiants publicitaires La transformation du marché publicitaire en 2024 2023 : le marché publicitaire doit se préparer à la fin du tracking utilisateur Comment l’intelligence artificielle générative bouleverse les médias Les enjeux réglementaires des médias en 2023 analyses Les articles d'approfondissement réalisés par la rédaction INFO MIND MEDIA - Yahoo lance un plan social en France pour se séparer de son équipe éditoriale Baromètre RECMA - mind Media : le bilan des gains de budgets en France depuis début 2025 Heikel Manai (France Télévisions) : “En matière d’IT, un dogmatisme 100% européen serait contre-productif” INFO MIND MEDIA - L’Équipe gagne son match judiciaire contre Fedcom Media CGV 2026 des régies TV : un pas supplémentaire vers la simplification du trading Mara Negri (EBX) : “Notre objectif est de proposer des inventaires BVOD et CTV dans l’ensemble des pays européens" INFO MIND MEDIA - L’alliance adtech des médias français Mediasquare peine elle aussi à faire condamner Google en justice IA générative : panorama des solutions techniques de protection et de monétisation des contenus Fermeture de Xandr DSP : qui va gagner la bataille des budgets ? Adtech : les réactions et analyses du secteur à la condamnation de Google par la Commission européenne data Les baromètres, panoramas et chiffres sur l'évolution du marché Le classement des éditeurs français qui ont le plus d'abonnés purs numériques Les données récoltées par les acteurs de la publicité en ligne La liste des sociétés présentes dans les fichiers ads.txt des éditeurs français Les gains de budget des agences médias Opt-out : quels éditeurs français interdisent les robots crawlers de l'IA générative ? Le panorama des sociétés spécialisées dans les technologies de l’e-retail media La liste des outils utilisés par les équipes éditoriales, marketing et techniques des éditeurs français Le détail des aides à la presse, année par année La liste des CMP choisies par les principaux médias en France Digital Ad Trust : quels sites ont été labellisés, pour quelles vagues et sur quel périmètre ?