Accueil > Médias & Audiovisuel > Quels sont les robots des acteurs de l’intelligence artificielle qui convoitent les contenus des éditeurs ?

Quels sont les robots des acteurs de l’intelligence artificielle qui convoitent les contenus des éditeurs ?

Le nombre de sociétés qui entraînent des modèles d’intelligence artificielle générative, ou qui proposent des assistants ou des “moteurs de réponse” s’appuyant sur cette technologie, a considérablement augmenté ces dernières années, et avec elles le nombre de robots qui convoitent les contenus des éditeurs médias. Comment les éditeurs tentent-ils de faire valoir leur opposition, technique ou juridique ? mind Media a consulté et analysé les fichiers robots.txt des éditeurs français pour mieux comprendre leur stratégie face à ces pratiques. Ces travaux feront l'objet d'une présentation, jeudi 3 juillet, à l'occasion du Forum Entreprendre dans la Culture, organisé par le Ministère de la Culture.

Par Aymeric Marolleau. Publié le 26 juin 2025 à 12h47 - Mis à jour le 04 juillet 2025 à 9h43

Ressources

Série

Ce dossier est le premier d’une série consacrée à la présence des bots des acteurs de l’intelligence artificielle générative dans les fichiers robots.txt des éditeurs français.

Selon une étude menée par la société TollBit fin 2024, la part du scraping par des bots IA dans le trafic total des sites reste modeste, puisqu’il comptait pour environ 2,2 % des visites chez ses clients en décembre 2024. Mais le rythme est en forte augmentation, puisqu’il dépassait à peine 1 % au mois de juillet précédent.

Les éditeurs peuvent-ils mettre leurs contenus hors de portée des acteurs de l’IA pour éventuellement en faire payer l’accès ? C’est justement la promesse d’une société comme TollBit. Ils sont nombreux à signaler leur refus au sein des pages de conditions générales de vente et d’utilisation. C’est notamment le cas du Monde, qui y précise qu’il est “strictement interdit, sans l’accord préalable et écrit du Monde, de crawler le Site et/ou les Applications et/ou d’en collecter de manière massive le contenu, par quelque moyen et dans quelque but que ce soit, et en particulier afin de développer ou d’entraîner tout programme logiciel, y compris, sans s’y limiter, les programmes basés sur l’intelligence artificielle”.

Tracker : Quels éditeurs français bloquent ou autorisent les agents crawlers des sociétés de l’intelligence artificielle ?

Fair use, exceptions et opt-out

Mais dans la procédure l’opposant au New York Times, OpenAI invoque l’usage équitable (fair use), une exception au droit d’auteur présente dans le droit américain, qui permet, dans certaines circonstances, d’utiliser une œuvre protégée sans avoir à obtenir l’autorisation du titulaire des droits. Ce qui renseigne sur les limites de sa bonne volonté vis-à-vis des consignes laissées par les éditeurs.

Côté européen, en 2019, la directive sur le droit d’auteur et les droits voisins a également introduit une nouvelle exception au droit d’auteur, autorisant la “fouille de textes et de données” (”text and data mining”) aux fins de recherche scientifique et “quelle que soit la finalité de la fouille”. Cette pratique est définie comme “la mise en œuvre d’une technique d’analyse automatisée de textes et données sous forme numérique afin d’en dégager des informations, notamment des constantes, des tendances et des corrélations”. Pour protéger des “contenus mis à la disposition du public en ligne” contre cette exception, les éditeurs doivent exercer leur droit de retrait (ou opt-out) en recourant à “des procédés lisibles par machine”. Le règlement sur l’IA qui entrera en vigueur en août 2025 contient d’ailleurs une disposition indiquant que les fournisseurs d’IA peuvent aspirer les contenus protégés par le droit d’auteur, sauf si les ayants droit exercent leur droit de réserve prévu par la directive de 2019.

Qu’est-ce que le Robots Exclusion Protocol ?

La loi est toutefois muette sur la manière dont l’opt-out doit être signalé techniquement. En complément de leurs conditions générales, nombre d’éditeurs ont donc choisi de s’appuyer également sur le protocole robots.txt (“Robots Exclusion Protocol”) afin de signaler aux sociétés de l’intelligence artificielle générative si ils les autorisent, ou non, à collecter des contenus sur tout ou partie de leurs sites. En pratique, ils publient à la racine de leur site un fichier où ils peuvent s’adresser à tous les bots (“*”), ou à certains de façon nominative, pour leur donner une directive (“Allow” ou “Disallow”) et un périmètre associé (toutes les pages du domaine avec “/” ou certaines, comme les pages “/archives/” ou “/qui-sommes-nous/”).

Ce protocole de signal n’est toutefois pas contraignant techniquement. Les sites d’information sont visités quotidiennement par un nombre considérable de robots crawlers qui ne consultent pas tous les fichiers robots.txt et ne respectent pas systématiquement les directives qui y sont écrites. Selon l’étude de TollBit déjà citée, les scrapes par des bots IA contournant robots.txt ont augmenté de 40 % entre le troisième et le quatrième trimestre 2024. Pour identifier les plus voraces et leur barrer l’accès, afin parfois de nouer des accords avec eux, certains éditeurs se dotent de solutions comme BotsCorner, DataDome ou Fastly.

Analyser les fichiers robots.txt des éditeurs permet donc de se faire une idée précise de la nature et du nombre de robots dédiés à des services d’intelligence artificielle susceptibles de s’intéresser à leurs contenus, et l’accueil qu’ils leur réservent.

En juin 2025, nous avons donc consulté et analysé les fichiers robots.txt de 374 sites appartenant à 169 éditeurs médias majeurs. 650 agents différents y sont cités. Nous avons été en mesure de qualifier 220 d’entre eux – dont la plupart de ceux présents dans plus d’un fichier sur 10 – dans 18 catégories.

Avec 56 bots, la catégorie qui réunit les crawlers des moteurs de recherche (“Search engine crawler”) est la plus fournie, devant la veille et intelligence économique (40). Nous avons aussi identifié 36 bots liés à des sociétés de l’intelligence artificielle générative ou à leurs besoins, répartis dans quatre catégories : Entraînement IA, Recherche IA, Assistant IA et les agents IA non documentés (voir encadré).

Cela représente une hausse considérable et une spécialisation croissante. Lorsque nous avions fait ce travail pour la première fois, à l’été 2023, seul OpenAI avait présenté deux agents susceptibles d’être bloqués : GPTBot (pour l’entraînement de ses modèles) et ChatGPT-User (pour la fonctionnalité d’assistant). Depuis, ils ont été rejoints par OAI-SearchBot, destiné à indexer le web pour sa fonctionnalité de recherche. Fin septembre 2023, Google avait également présenté Google-Extended, destiné à l’entraînement de ses modèles Bard et Vertex AI. Depuis, il a ajouté Google-CloudVertexBot, le poisson pilote des “explorations demandées par les propriétaires de sites pour créer des agents Vertex AI”.

Trois agents majeurs ont été annoncés en mars 2025 – Perplexity-User, Claude-User et Claude-SearchBot -, si bien que les éditeurs peuvent éprouver des difficultés à suivre le rythme. “Il y a quelques années, nous voyions apparaître dans nos logs essentiellement les robots de search. Désormais, il y en a une quantité énorme, et ils se déclarent rarement”, remarque le cofondateur du groupe Humanoid (Numerama, Frandroid), Ulrich Rozier.

Quels agents utilisateurs sont dédiés à des fonctionnalités IA ?

Certains des bots qui ont l’IA pour finalité et sont cités dans les fichiers robots.txt des éditeurs français sont liés à de grandes sociétés technologiques généralistes : Google (Alphabet), Meta, Apple, Amazon, ByteDance ou encore Huawei. D’autres sont l’émanation d’acteurs spécialisés dans l’entraînement et l’exploitation de grands modèles de langage à l’instar d’OpenAI (ChatGPT), Anthropic (Claude) et le canadien Cohere, qui a été acquis par Ramp en janvier 2023. Les éditeurs sont aussi nombreux à interpeller les “moteurs de réponse”, alternatives aux moteurs de recherche traditionnels, mais enrichis de l’IA générative, comme Perplexity, Phind et Andi.

Nombre de bots mentionnés concernent aussi des spécialistes du crawl massif dont les données servent notamment, gratuitement ou contre rémunération, à l’entraînement des modèles d’IA générative, comme ceux de Common Crawl (CCBot), Diffbot, Webz.io (omgili, omgilibot, Webzio-Extended), Timpi (Timpibot) ou encore Ai2 (Ai2Bot).

La fonction des bots identifiés comme liés à l’IA n’est pas toujours claire. C’est par exemple le cas de Meta-ExternalFetcher, dont la maison mère de Facebook indique qu’il “effectue des récupérations de liens individuels initiées par des utilisateurs afin de soutenir des fonctions de produits spécifiques”, sans préciser lesquels. De même, TollBit indique que Bytespider a scrapé le web à un rythme élevé depuis son apparition début 2024, mais ByteDance n’a publié aucune information quant à sa fonction ou l’usage des données collectées. La maison mère de TikTok a levé le voile sur son propre LLM, Seed, en avril 2025.

Par ailleurs, nous n’avons pas intégré dans la catégorie “IA” certains agents qui ne sont pas explicitement liés à cette finalité, bien que certains observateurs, comme TollBit ou Dark Visitors, leur attribuent ou leur aient attribué ce rôle. Il s’agit notamment d’AppleBot, qui alimente les réponses de services tels que Spotlight, Siri et Safari, et GoogleOther, “utilisé pour des explorations ponctuelles à des fins de recherche et de développement internes”.

Quelles directives pour quels bots ?

Pour signaler s’ils sont autorisés ou non à collecter des contenus sur leurs pages, les éditeurs peuvent donner plusieurs directives aux agents dans leurs fichiers robots.txt. Ils peuvent les interdire, globalement ou nommément, robot par robot, sur la totalité de leur domaine, ou sur une ou plusieurs URL spécifiques. De même, ils peuvent les autoriser sur toutes leurs pages ou sur quelques-unes seulement.

Un tiers des sites de notre panel ont choisi de traiter tous les bots de la même manière, sans en citer aucun nommément. Quelques-uns autorisent tous les robots à consulter l’ensemble de leur site, à l’instar de My Little Paris (Unify – Reworld Media) et Skyrock. Plus nombreux sont ceux qui interdisent l’accès de tous les bots à certaines de leurs pages, leur laissant consulter les autres. C’est par exemple le cas de La Provence, So Foot, Closer (Reworld Media), ou encore Valeurs Actuelles. Cette stratégie semble peu efficace dans le cas des bots IA : “Dans leurs consignes aux développeurs de site, la plupart d’entre eux précisent qu’ils ne respectent qu’un disallow explicite et nominatif ciblant leurs agents, et qu’ils passent outre les consignes générales adressées à l’ensemble des bots”, met en garde Olivier Martinez, consultant spécialiste de l’IA générative, fondateur du cabinet 255hex.ai.

Deux-tiers des sites du panel citent au moins un bot, toutes catégories confondues, avec une moyenne de 40 par fichier. Le maximum est atteint par Le Nouvel Obs, avec 312 agents différents, devant France 24 (278), L’Usine Digitale (255) et Le Télégramme (239). 179 marques, soit près d’une sur deux, nomment au moins un bot lié à l’IA, avec une moyenne de 10 par site et jusqu’à 29 pour Paris Match, 26 chez Courrier International et 25 pour le HuffPost.

Quelles directives leur donnent-ils ? Notre analyse montre que, pour ce qui est des agents liés à des fonctionnalités IA, les interdictions dominent largement. Dans 97 % des cas, ils sont désignés pour un refus d’accès à la totalité des pages. CCBot, de Common Crawl, est par exemple cité par 154 sites de notre panel, avec toujours l’interdiction de scraper la moindre de leurs pages.

Entraînement IA

La catégorie d’agents qui est citée le plus souvent, avec 18 représentants différents, réunit ceux qui collectent des contenus sur les sites web afin de constituer des jeux de données destinés à l’entraînement des modèles de langage (LLM). Certains d’entre eux dépendent des sociétés qui commercialisent des modèles propriétaires, à l’instar de GPTBot (OpenAI), Google-Extended (Google) et Claudebot (Anthropic). D’autres ont été créés par des acteurs tiers, qui en donnent l’accès gratuitement ou le font payer aux créateurs de LLM, à l’instar de CCBot (Common Crawl) et OmgiliBot (Webz.io).

CCBot, GPTBot et Google-Extended sont les mieux identifiés par les éditeurs, tandis que des acteurs comme img2dataset, l’australien Kangaroo LLM, et PanguBot, associé par Dark Visitors à Huawei, sont plus confidentiels.

Les éditeurs adoptent généralement une position très restrictive à leur encontre, avec un blocage systématique et complet. Seul le site Actu (Groupe Actu, ex-Publihebdos, qui appartient à SIPA – Ouest France) se démarque, puisqu’il autorise certains d’entre eux sur trois répertoires (infoconso, publi-communique et shopping).

Selon TollBit, les bots dédiés à l’entraînement, qu’il nomme “AI Data Scrapers”, sont les plus nombreux au sein du top 12 des bots IA qui ont le plus crawlé les sites de ses clients entre début janvier et fin avril 2025, et représentent la part la plus importante. Au cours de cette période, celui de Meta était le plus actif devant ceux d’OpenAI et d’Anthropic.

Un crawling ancien qui fait l’objet de contentieux

Depuis mars 2014, Common Crawl déploie chaque mois CCBot, son robot d’exploration, afin de visiter des milliards de pages web pour collecter plusieurs tera de données. Ses archives sont accessibles à tous gratuitement. Sur son site, l’organisation à but non lucratif, fondée par l’entrepreneur Gil Elbaz en 2007, précise que “les start-up ou mêmes les particuliers peuvent désormais accéder à des données de crawl de grande qualité qui n’étaient auparavant accessibles qu’aux grands moteurs de recherche. Les chercheurs, les entrepreneurs et les développeurs bénéficient d’un accès illimité à une mine d’informations, ce qui leur permet d’explorer, d’analyser et de créer de nouvelles applications et de nouveaux services.”

De fait, une version filtrée de ses données a été utilisée pour entraîner les premiers modèles de langage d’OpenAI. Mais certains des contenus de Common Crawl sont-ils protégés par le droit d’auteur ? Selon une étude publiée en 2021, la moitié des 25 domaines les plus cités dans son corpus anglais, sur lequel se sont appuyés Open AI et Google, appartiennent à des médias d’information – New York Times, LA Times, Forbes, HuffPost, etc. Fin 2023, le New York Times a d’ailleurs déposé une plainte contre OpenAI, l’accusant d’avoir utilisé des millions d’articles du journal sans autorisation ni compensation. En juin, c’est la plateforme Reddit qui a porté plainte contre Anthropic, l’opérateur de Claude, lui reprochant de s’être entraînée sans son consentement sur des données issues de discussions entre ses utilisateurs. A l’automne 2024, le New York Times, Forbes, Dow Jones et Condé Nast ont aussi accusé le moteur de réponse Perplexity d’utiliser leurs contenus sans leur permission.

Recherche IA

Six bots, qui appartiennent à la catégorie “Recherche IA”, indexent des pages web pour alimenter des moteurs de recherche enrichis par l’IA. L’objectif n’est pas l’entraînement direct d’un modèle de langage, mais l’alimentation d’un index consulté en temps réel ou quasi temps réel. C’est par exemple le cas d’Amazonbot, qui indexe les résultats de recherche pour améliorer les réponses de l’assistant Alexa AI, et de PerplexityBot, conçu pour faire apparaître et lier des sites web dans les résultats du moteur de réponse, créé par quatre anciens salariés de Google AI en 2022.

Les agents de recherche d’Amazon, Perplexity et OpenAI sont cités plusieurs dizaines de fois, contre une poignée ou moins pour ceux d’Andi, Anthropic et Phind.
Cité par 78 sites différents, PerplexityBot est par exemple autorisé en partie sur neuf d’entre eux, dont Actu, Numerama – qui a signé un partenariat avec Perplexity en janvier 2025 -, Euronews et 01Net. Ces agents semblent globalement mieux tolérés que ceux de la catégorie “Entraînement IA”, puisque neuf sites différents autorisent, au moins partiellement, l’un d’entre eux. Surtout, ils sont plus souvent absents des fichiers, ce qui peut indiquer soit que les éditeurs sont moins nombreux à les avoir identifiés, soit qu’ils les tolèrent implicitement davantage. “Alors que ces moteurs de réponse s’attaquent au search historique, certains éditeurs ont peur de se couper de cette nouvelle forme d’indexation, de source de trafic et d’exposition de leur marque”, remarque ainsi Olivier Martinez.

Assistant IA

Les huit agents de la catégorie “Assistant IA”, quant à eux, sont dédiés à la fonction de génération augmentée de récupération (RAG). Ils effectuent des visites ponctuelles et en temps réel sur des sites web en réaction à des demandes de leurs utilisateurs. Pour localiser les contenus pertinents, ils utilisent un index de recherche propriétaire ou fourni par un tiers comme Google, Bing ou Brave. Cette fonctionnalité permet notamment aux chatbots d’incorporer dans leurs réponses des informations actualisées en dehors de leurs données d’apprentissage.

ChatGPT-User est le plus souvent cité, puisqu’il l’est sur 146 sites, dont 9 où il est autorisé sur tout ou partie des URL, devant Meta-ExternalFetcher (39, dont une autorisation), DuckAssistBot (22, aucune autorisation), MistralAI-User (7 interdictions), et Claude-User (6, dont 4 autorisations). Neuf sites différents autorisent au moins l’un d’entre eux, souvent sur toutes leurs URLs.

Selon TollBit, “les bots qui opèrent en temps réel pour récupérer des informations en réponse au prompt d’un utilisateur”, aussi bien les AI search crawlers que les assistants, “sont ceux qui se développent le plus vite”. La société note aussi, dans son étude, que “l’activité des agents du temps réel est susceptible de se substituer à l’accès humain sur les sites des éditeurs. Par exemple, un agent IA peut accéder à cinq sites médias pour rédiger un prompt qui satisfasse le besoin d’un utilisateur sans que ce dernier ait besoin de visiter une autre plateforme. Avant l’avènement de l’IA, cela aurait conduit à de multiples recherches sur Google et consultations de sites web”.

Dans son étude du premier trimestre 2025, TollBit estime le taux de clic moyen depuis les applications IA vers les sites d’éditeurs à seulement 0,67 %, contre par exemple 8,63 % en moyenne depuis les liens de recherche Google. Pour parvenir à ce résultat, la société a comparé le nombre de visites observées par ses clients depuis ces applications avec le nombre de fois où ils ont observé l’arrivée de l’un des bots qui opèrent en temps réel.

Et les applications IA ne représentent que 0,04 % du trafic entrant de ses clients, contre 85 % pour Google et près de 15 % depuis les autres moteurs de recherche et les réseaux sociaux. TollBit d’en conclure que le ratio de trafic entrant rapporté au crawl des acteurs de l’intelligence artificielle est très faible : 1 visite pour 179 crawls pour OpenAI, 1 pour 369 chez Perplexity et même 1 pour 8 692 chez Anthropic.

Matthew Prince, CEO de la société de cybersécurité CloudFlare, a appuyé ce constat auprès d’Axios en juin. Alors qu’il y a 10 ans les robots de Google visitaient une page deux fois pour chaque visite humaine qui y était envoyée, ce ratio est passé à six crawls pour une visite il y a six mois, puis à 18 pour une désormais, selon les chiffres de CloudFlare. Pour OpenAI, ce ratio serait de 1 pour 1 500 et pour Anthropic de 1 pour 60 000. “La confiance des internautes dans l’IA s’est accrue ces six derniers mois, ils se contentent de plus en plus du résumé généré par l’IA, sans lire le contenu original sourcé”, constate Matthew Prince.

Agents IA non documentés

Une quatrième catégorie réunit quatre agents cités par les éditeurs et certains observateurs du sujet, comme TollBit et Dark Visitors, mais qui ne figurent pas dans les pages dédiées aux développeurs des sociétés auxquelles ils semblent être associés. Si ces bots crawlent vraiment le web, la finalité des données récoltées n’est donc pas déterminée. Ils se nomment Anthropic-AI, Claude-Web, Cohere-AI et FacebookBot. Ce dernier a été décrit par Meta comme explorant les pages web publiques afin d’améliorer les modèles linguistiques de sa technologie de reconnaissance vocale, mais sa description a été retirée de son site de développement.

Méthodologie

Nous avons développé un script qui recherche la présence d’un fichier robots.txt sur 436 URL d’un panel constitué des principaux sites médias français (PQN, PQR, audiovisuel…). Tous ces sites ne disposent pas d’un fichier robots.txt, ou certains peuvent avoir bloqué notre requête. Nous avons donc récupéré les fichiers de 374 sites différents appartenant à 169 éditeurs.

Une fois leur fichier robots.txt récupéré, nous y avons recherché la présence d’une quarantaine d’agents utilisateurs dont la finalité est liée à l’intelligence artificielle, répartis dans quatre catégories :

Entraînement IA
Recherche IA
Assistant IA (RAG)
Agent IA non documenté

Pour la classification de ces bots, nous nous sommes appuyés sur les descriptions proposées par les sociétés qui les entretiennent, généralement dans les pages dédiées aux développeurs, ainsi que sur le travail des sociétés DataDome et TollBit, et du service en ligne Dark Visitors.

Outre la présence de ces agents dans les fichiers robots.txt, nous avons recherché les directives qui leurs sont formulées (autorisation partielle ou totale, interdiction partielle ou totale).

Aymeric Marolleau