Accueil > Médias & Audiovisuel > IA générative : face aux robots crawlers, la réponse au cas par cas des éditeurs

IA générative : face aux robots crawlers, la réponse au cas par cas des éditeurs

Alors que la quasi-totalité des éditeurs utilisent leurs fichiers robots.txt pour faire valoir leur opposition aux robots crawlers de l’intelligence artificielle générative, certains les autorisent, nommément ou par omission. L’absence de certains bots dans les fichiers robots.txt tient aussi parfois à la complexité de tous les identifier à mesure qu’ils se créent. mind Media a consulté et analysé les fichiers robots.txt des éditeurs français pour mieux comprendre leur stratégie face aux crawlers de l’IA.

Par Aymeric Marolleau. Publié le 04 juillet 2025 à 9h34 - Mis à jour le 04 juillet 2025 à 9h34

Ressources

Série

Ce dossier est le deuxième d’une série consacrée à la présence des bots des acteurs de l’intelligence artificielle dans les fichiers robots.txt des éditeurs français.

Partie 1 : Quels sont les robots des acteurs de l’intelligence artificielle qui convoitent les contenus des éditeurs ?

Face à l’intérêt croissant des acteurs de l’intelligence artificielle générative pour leurs contenus, de nombreux éditeurs français ont choisi de leur en interdire l’accès, notamment via leurs conditions générales et les directives de leurs fichiers robots.txt. Certains ont même lancé des procédures judiciaires contre eux (voir la première partie de ce dossier).

Tracker : Quels éditeurs français bloquent ou autorisent les agents crawlers des sociétés de l’intelligence artificielle ?

Des accords noués avec OpenAI et Perplexity

D’autres ont trouvé un terrain d’entente. A l’étranger, plusieurs groupes de presse ont ainsi conclu des accords rémunérés avec OpenAI : Springer en Allemagne, Prisa Media en Espagne, The Atlantic et Condé Nast aux Etats-Unis, le Financial Times au Royaume-Uni ou encore News Corp.

En France, à ce jour, seul Le Monde s’est entendu avec OpenAI, en mars 2024, lui permettant d’utiliser ses contenus pour entraîner ses modèles et alimenter ses services, contre rémunération dans le cadre des droits voisins et une collaboration technique pour développer des outils ou fonctionnalités utilisant l’IA au sein de la rédaction. Le quotidien du soir a également signé un accord pluriannuel avec Perplexity en mai 2025, pour “améliorer la qualité des informations de son moteur de réponse et offrir à la rédaction des outils innovants”. Dans la foulée, Le Monde a dévoilé un robot conversationnel s’appuyant sur la technologie de Perplexity pour répondre aux questions de ses lecteurs, basé exclusivement sur ses articles.

Numerama (Humanoid, Groupe Ebra) avait été le premier site français à signer un accord avec Perplexity en janvier 2025. En échange de l’autorisation d’accéder à ses contenus pour répondre aux requêtes des internautes, la société américaine met à sa disposition des ressources techniques et partage ses revenus publicitaires lorsque le site apparaît comme source dans les résultats de son moteur de réponse. “Perplexity, qui n’était pas encore aussi populaire qu’aujourd’hui, nous a contactés. Nous avons souhaité étudier la valeur que cela pourrait nous apporter. Cela ne représente pas un apport de trafic et de revenus considérables, mais ça a le mérite d’exister”, explique à mind Media le cofondateur d’Humanoid Ulrich Rozier.

Les bots d’OpenAI et de Perplexity absents du fichier du Monde

Comment les accords signés par Le Monde avec OpenAI et Perplexity se traduisent-ils dans son fichier robots.txt ? Le titre commence par autoriser tous les crawlers à visiter deux URL spécifiques (“/ws/1/live/*” et “/ws/1/related_content/*”), avant de tous les interdire sur une trentaine d’URL (dont /qui-sommes-nous/, /reactions/, /petites-annonces/, etc.). Après avoir autorisé Googlebot-Image à visiter sa page /image/, il interdit Googlebot-News sur /archives/, puis exclut plus de 200 bots de toute indexation. Parmi eux figurent 24 bots liés à l’intelligence artificielle, dont Google-Extended, Anthropic-AI et Claude-Web, mais aucun de ceux de ses deux partenaires – ce que nous avons désigné par “Pas de directive” dans le graphique ci-dessous. Les consignes imposées à tous les bots non nommés s’appliquent donc aussi aux leurs.

Outre ceux d’OpenAI et de Perplexity, deux des bots d’Anthropic sont absents du fichier du Monde : Claude-SearchBot, pour la fonctionnalité de recherche, et Claude-User, pour celle d’assistant. Mais ClaudeBot, celui dédié à l’entraînement de son modèle, est nommément interdit. Ces deux absences s’expliquent peut-être par le fait que tous deux n’ont été annoncés qu’en mars dernier, seulement deux mois avant notre analyse. Cela illustre l’asymétrie d’information entre les acteurs de l’IA et les éditeurs, et la difficulté de ces derniers à suivre le rythme qui leur est imposé.

Humanoid autorise deux bots d’OpenAI sur trois

Numerama et Frandroid, quant à eux, interdisent les crawlers sur une dizaine d’URL spécifiques, mais un seul sur l’ensemble de leurs pages : GPTBot. Au contraire, trois robots sont nommément autorisés à consulter tout leur contenu : OAI-SearchBot, ChatGPT-User et PerplexityBot. Les autres bots liés à l’IA que nous avons recensés ne sont pas cités.

“Nous avons opté pour une stratégie hybride vis-à-vis des bots de l’IA. D’un côté, nous interdisons tous ceux qui visent à l’entraînement des modèles, car ils ne sont pas transparents sur les contenus qu’ils ont utilisés. De l’autre, alors que nous anticipons une bascule prochaine du search vers l’IA générative, et même si les taux de clics ne seront probablement pas aussi importants, nous souhaitons valoriser nos contenus auprès des utilisateurs, exposer notre marque à chaque fois que ce sera possible. Cela nous semble un bon compromis entre la protection de notre valeur éditoriale et l’exposition de la marque”, explique Ulrich Rozier.

Quels sites autorisent le crawl de leurs pages ?

Numerama et Frandroid ne sont pas les seuls à autoriser nommément certains bots IA à collecter leurs contenus. Nous avons dénombré 13 sites (3,5 % de notre panel) appartenant à cinq éditeurs dans cette situation. 24 de ces autorisations concernent la fonctionnalité de recherche, 15 les assistants et six seulement l’entraînement.

Dans son fichier, Euronews bloque par exemple explicitement trois crawlers d’entraînement – GPTBot, CCBot et Google-Extended – mais en autorise six autres sur toutes ses pages. Il s’agit de deux robots liés à des fonctionnalités d’assistance, dont celui d’OpenAI, et de quatre liés à la recherche.

Le fichier de Capital interdit l’accès à CCBot mais autorise toutes ses pages aux fonctions d’assistance et de recherche d’OpenAI. Il ne nomme pas celle d’entraînement. Quatre sites de Keleops France (Iphon.fr, 01Net, Presse Citron et Journal du Geek) interdisent 24 agents d’entraînement, mais en autorisent cinq liés à la recherche et l’assistance.

D’autres sites se contentent d’autoriser ces bots IA sur une partie seulement de leurs URL. Comme déjà indiqué, le site actu.fr (Groupe Actu, appartient à SIPA – Ouest France) autorise ainsi 15 bots de l’IA, de toutes catégories, sur trois URL spécifiques (/infoconso/, /publi-communique/ et /shopping/).

A l’instar du Monde, certains sites se contentent de ne pas nommer les bots de l’IA générative pour leur signaler une autorisation d’accès. Ainsi, le fichier du Figaro interdit tous les robots sur une dizaine d’URL spécifiques et plus de 200 sur l’ensemble de son site, dont 14 liés à des finalités d’intelligence artificielle. S’il interdit nommément deux bots d’OpenAI – GPTBot pour l’entraînement et ChatGPT-User pour l’assistant -, il ne dit rien au sujet d’OAI-SearchBot, pour la fonctionnalité de recherche. De même, plusieurs bots d’entraînement sont désignés (CCBot, ClaudeBot, GPTBot), mais pas Google-Extended et Applebot-Extended. A l’exception de celui d’OpenAI, les assistants IA de Perplexity, Meta, Anthropic et DuckDuckGo ne sont pas non plus nommés.

L’absence de certains bots dans les fichiers du Monde et du Figaro vaut-elle accord pour la collecte de leurs contenus ? Ou illustre-t-elle la difficulté des éditeurs à maintenir leurs fichiers à jour avec le rythme de création de nouveaux agents ? “Claude et Perplexity ont changé plusieurs fois de user-agent, tout en continuant de faire tourner les anciens car le remplacement est progressif, pas instantané”, remarque Olivier Martinez, consultant spécialiste de l’IA générative, fondateur du cabinet 255hex.ai.

Un système au mieux insuffisant, au pire totalement inefficace

Ces questions soulignent la limite des fichiers robots.txt comme support efficace à l’exercice de l’opt-out. Premièrement, robots.txt ne permet pas de préciser les finalités pour lesquelles un bot est bloqué ou autorisé. Deuxièmement, les bots ignorent parfois purement et simplement les directives des fichiers robots.txt.

Perplexity a ainsi été pointé du doigt à plusieurs reprises pour ne pas respecter les directives des fichiers robots.txt. Fin 2024, la société TollBit constatait sur les sites de ses clients que “lorsqu’ils bloquent Perplexity, (ce dernier) continue à leur envoyer des referalls, ce qui signifie qu’il continue à les scraper sous le radar”. De même, la plateforme Reddit, qui interdit l’accès de l’ensemble de ses contenus à tous les bots dans son fichier robots.txt, a porté plainte début juin contre Anthropic pour avoir ignoré ses directives. La start-up californienne se serait connectée “aux serveurs de Reddit plus de 100 000 fois” depuis juillet 2024.

Certains acteurs de l’IA revendiquent d’ignorer les directives des fichiers robots.txt dans le cas des “récupérateurs déclenchés par l’utilisateur”, c’est-à-dire les crawlers qui visitent une page afin de répondre à une requête précise formulée par un internaute. C’est le cas de Perplexity-User. Dans sa page dédiée, il est ainsi précisé que, “étant donné qu’un utilisateur a demandé la récupération, ce récupérateur ignore généralement les règles de robots.txt”. Il en va de même chez Google et Meta, avec Meta-ExternalFetcher : ce “robot d’indexation effectue des récupérations de liens individuels initiées par des utilisateur·ices afin de soutenir des fonctions de produits spécifiques. La récupération ayant été initiée par un utilisateur ou une utilisatrice, (il) peut contourner les règles du fichier robots.txt”.

De quoi pousser encore davantage les éditeurs à se tourner vers des solutions de blocage technique, sans se contenter des fichiers robots.txt.

L’alternative TDMRep peine à se généraliser

Pour tenter d’instaurer plus de finesse dans le contrôle des droits, dans un langage lisible par machine, le laboratoire de développement ERDLab, installé à Paris, a créé en 2023 le protocole TDM Reservation Protocol (TDMRep) – où “TDM” est la contraction de “text and data mining”. Il permet aux éditeurs d’indiquer si les droits de contenus web spécifiques sont réservés, comment ils souhaitent être contactés, et le cas échéant quelle licence peut être appliquée. En pratique, cela passe par l’ajout d’instructions dans le code HTML ou l’en-tête HTTP de leur site, ou sur un fichier json hébergé sur leurs serveurs . En France, Le Geste en recommande l’utilisation à ses membres depuis 2023.

Mais ce protocole, dont mind Media surveille l’adoption par les éditeurs depuis 2023, peine à se généraliser auprès de ces acteurs. Au 12 juin 2025, seulement 112 sites (26 % des 437 consultés) appartenant à 37 éditeurs (20 % des 187 pris en compte) l’ont rejoint. “Il a principalement été adopté dans les livres et les articles scientifiques, des formats qui ne sont pas visibles sur le web”, précise Laurent Le Meur, directeur et CTO d’EDRLab. Les acteurs de l’intelligence artificielle “n’ont pas explicitement refusé de l’adopter, mais ils n’en ont jamais fait mention officiellement.” Des discussions informelles ont pourtant eu lieu à Bruxelles, dans le cadre du think tank Open Futures. Malgré ses défauts, “Ils privilégient le protocole robots.txt car leurs robots ont l’habitude de le trouver, c’est un point de rencontre connu depuis longtemps.”

Vers une amélioration de robots.txt ?

EDRLab et Laurent Le Meur travaillent aussi, désormais, à l’amélioration du Robots Exclusion Protocol. Au sein de l’Internet engineering task force (IETF), le groupe informel qui l’a standardisé, les Français veulent contribuer à l’introduction de plus de granularité dans les fichiers robots.txt. “La principale amélioration consisterait à indiquer une exclusion pour des classes de robots (AI Training, AI Inference, Search…) plutôt qu’au niveau individuel, robot par robot”, précise Laurent Le Meur.

D’autres protocoles ont été proposés ces dernières années par différents acteurs, dont TDM-AI, né au sein d’un groupe de travail de l’IAB, ou AI.txt, imaginé en août 2024 par Guardian News & Media. Fin 2023, la Commission européenne a également créé la Copyright Infrastructure Task Force (CITF), qui étudie la possibilité d’un registre européen centralisé de l’opt-out, où les ayants-droits déclareraient leur refus qu’une de leurs œuvres soit utilisée pour entraîner l’IA. “Ces projets ont leur intérêt, mais ils ont en commun l’asymétrie qu’ils risquent de créer entre de grandes entreprises qui auraient les moyens techniques et humains d’alimenter ces registres et bases de données lors de chaque création de contenu, et les autres acteurs plus modestes”, note Laurent Le Meur.

Le consultant Olivier Martinez (255hex.ai) se montre pessimiste quant au succès de ces alternatives. “Les ayants droits ont du mal à s’entendre sur celle à privilégier, et les acteurs de l’IA apprécient la simplicité des fichiers robots.txt et les habitudes prises avec ce protocole, également simple à contourner”.

Méthodologie

Nous avons développé un script qui recherche la présence d’un fichier robots.txt sur 436 URL d’un panel constitué des principaux sites médias français (PQN, PQR, audiovisuel…). Tous ces sites ne disposent pas d’un fichier robots.txt, ou certains peuvent avoir bloqué notre requête. Nous avons donc récupéré les fichiers de 374 sites différents appartenant à 169 éditeurs.

Une fois leur fichier robots.txt récupéré, nous y avons recherché la présence d’une quarantaine d’agents utilisateurs dont la finalité est liée à l’intelligence artificielle, répartis dans quatre catégories :

Entraînement IA
Recherche IA
Assistant IA (RAG)
Agent IA non documenté

Pour la classification de ces bots, nous nous sommes appuyés sur les descriptions proposées par les sociétés qui les entretiennent, généralement dans les pages dédiées aux développeurs, ainsi que sur le travail des sociétés DataDome et TollBit, et du service en ligne Dark Visitors.

Outre la présence de ces agents dans les fichiers robots.txt, nous avons recherché les directives qui leurs sont formulées (autorisation partielle ou totale, interdiction partielle ou totale).

Aymeric Marolleau