Accueil > Médias & Audiovisuel > IA, veille, publicité, agrégation de contenus… Quels sont les robots crawlers que les éditeurs français bloquent ou autorisent sur leurs sites ?

IA, veille, publicité, agrégation de contenus… Quels sont les robots crawlers que les éditeurs français bloquent ou autorisent sur leurs sites ?

mind Media a récupéré et analysé les fichiers robots.txt des principaux éditeurs français pour mieux connaître les acteurs qui convoitent leurs articles et les contenus qui les accompagnent (commentaires, signatures, etc.), ainsi que la stratégie qu’ils adoptent pour empêcher ces pratiques ou en tirer des revenus. Dans cette première partie de notre étude, focus sur les robots des moteurs de recherche, des adtechs, des sociétés de l’IA générative, de la veille et de l’agrégation de contenus.

Par Aymeric Marolleau et Rudy Degardin. Publié le 04 décembre 2024 à 11h23 - Mis à jour le 12 décembre 2024 à 17h45

Ressources

Série

Cet article est la première partie d’une enquête sur le contenu des fichiers robots.txt des éditeurs français.

IA, veille, publicité, agrégation de contenus… Quels sont les robots crawlers que les éditeurs français bloquent ou autorisent sur leurs sites ?
Quelle est l’attitude des éditeurs vis-à-vis des robots crawlers ?

La généralisation de l’IA générative a mis en lumière l’importance des contenus des éditeurs d’information pour de nombreux acteurs tiers. Pour entraîner leurs grands modèles de langage (LLM) et formuler les réponses les plus actuelles et précises, les fournisseurs d’outils d’intelligence artificielle générative ont en effet besoin de collecter des contenus du web, notamment des articles d’information. Selon une étude publiée en 2021, la moitié du top 20 des sources du corpus anglais de Common Crawl, sur lequel se sont appuyés Open AI et Google, est composée de sites de presse – New York Times, LA Times, Forbes, HuffPost, etc.

Mais les LLM sont loin d’être les seuls à convoiter articles, commentaires ou signatures des journalistes. Pour faire du référencement, surveiller la réputation d’entreprises clientes ou constituer des bases de données, une multitude d’entreprises se sont spécialisées dans le crawl massif.

“Parmi tous les robots qui visitent les sites des éditeurs, certains sont parfaitement légitimes, en particulier les grands moteurs de recherche et les grands réseaux sociaux, explique Benjamin Fabre, fondateur de DataDome, société spécialisée dans la lutte contre les robots malveillants et la fraude en ligne. Viennent ensuite des acteurs qui ont pu être mandatés par les éditeurs eux-mêmes, comme “des outils techniques, par exemple ceux qui facilitent le tracking de la performance ou de la disponibilité du site, ou bien ceux qui aident à optimiser le SEO. Citons aussi ceux qui proviennent de sociétés de monétisation publicitaire.”

Pour prendre la mesure du phénomène, et mieux en saisir les enjeux, mind Media a récupéré les fichiers robots.txt de 150 des principaux éditeurs français, en avril 2024, représentant 343 marques distinctes, puis les a analysés. Ces fichiers, librement accessibles après la racine de leurs URL – par exemple sur lemonde.fr/robots.txt -, sont en effet l’une des armes, certes imparfaite, dont les éditeurs disposent pour indiquer aux “agents” qu’ils ont, ou non, le droit d’y récupérer du contenu, sur l’ensemble du site ou seulement quelques pages.

Au total, 417 bots différents sont cités dans les fichiers que nous avons étudiés, que ce soit pour être refusés ou autorisés. Nous avons qualifié près de la moitié d’entre eux, les plus communs – tous ceux qui apparaissent plus de 20 fois, et une partie de ceux qui sont cités moins souvent -, selon une quinzaine de catégories.

52 de ces bots sont adossés à des moteurs de recherche (“Search engine crawlers”), 32 émanent d’une société spécialisée dans la veille et l’intelligence économique, 20 proviennent d’un service d’agrégation de contenus, et 18 d’un acteur publicitaire. Nous en avons aussi identifié dix destinés à entraîner des LLM (“AI Data Scrapper”). Malgré nos efforts, de nombreux agents ne peuvent être identifiés avec certitude uniquement grâce au nom qui figure dans les fichiers robots.txt, c’est pourquoi l’une des catégories se nomme “Non déterminé”.

Six catégories de robots sont particulièrement scrutées par les éditeurs : les moteurs de recherche, la publicité, l’IA générative, la veille, l’agrégation de contenus et le mirroring.

Les robots d’indexation des moteurs de recherche

Les crawlers des moteurs de recherche indexent le contenu des sites web pour les sociétés qui les ont conçus. Googlebot-news est le plus cité, puisqu’il apparaît 56 fois dans les fichiers des éditeurs français, 38 fois parce qu’il y est interdit sur une partie des pages, 18 fois parce qu’il y est accueilli. Ces robots sont généralement autorisés à indexer les images, feuilles de style et divers fichiers présents sur les sites de presse, mais l’accès aux archives ou aux commentaires leur est généralement dénié. Outre les nombreux crawlers de Google, on trouve dans cette catégorie ceux de Bing (Microsoft), Yahoo (Slurp), Yandex ou encore Baidu.

mind Media a aussi repéré 18 robots spécialisés dans la gestion des campagnes publicitaires en ligne. Avec 79 mentions, AdSense (nommé “mediapartners-Google”) est le plus cité (55 interdictions et 24 autorisations). Il est chargé pour Google d’évaluer le contenu d’un site afin d’y proposer des annonces publicitaires appropriées. Le journal Le Parisien, Jeune Afrique ou encore Phosphore l’autorisent sur l’ensemble de leurs pages. A l’inverse, Ouest France, Paris Match et les titres du groupe Ebra lui refusent l’accès à certaines URL.

Grapeshot, le service d’Oracle dédié à la publicité contextuelle – qui a cessé d’exister en septembre -, et Proximic de Comscore ne sont pas en reste avec respectivement 63 et 38 mentions. On observe aussi d’autres grands noms de l’adtech comme Weborama (33 mentions), Integral Ad Science (20 mentions pour le robot IAS crawler et trois pour ADmantX), Taboola (14 mentions) ou encore Criteo (trois mentions).

AI Data Scrapper

Si la catégorie des robots qui récupèrent des contenus pour entraîner des IA génératives n’est pas celle qui compte le plus grand nombre de représentants, ce sont ceux qui sont le plus souvent bloqués par les éditeurs. GPTbot – le bot d’OpenAI – et Google-extended – celui qui alimente Bard et Vertex, les IA génératives de la filiale d’Alphabet – représentent à eux deux 55 % des refus parmi les “AI data scrappers” (118 disallows pour le robot d’Open AI et 69 pour celui de Google – voir aussi notre outil de veille dans la rubrique Data). Claudebot, d’Anthropic, société fondée par d’anciens membres d’OpenAI, complète le podium avec 44 refus.

Il est à noter que Le Monde, qui a annoncé avoir conclu un accord financier avec OpenAI en mars, n’interdit pas GPTBot dans son fichier robots.txt.

Nous avons placé dans une catégorie distincte, baptisée “AI Assitant”, les robots qui émanent d’un service qui utilise l’intelligence artificielle pour réaliser une tâche, mais sans vocation apparente à aspirer des contenus pour entraîner un LLM. C’est notamment le cas de ChatGPT-User (OpenAI), Cohere-AI (Cohere), et des solutions qui lisent les pages web pour en améliorer l’accessibilité pour les personnes malvoyantes : Accessible Web Bot, Readable (Added Bytes) et Google Read About (Google).

Veille

L’analyse de leurs fichiers robots.txt montre que les éditeurs de presse portent une attention particulière à l’intérêt des sociétés de veille et d’intelligence économique pour leurs contenus. Dans cette catégorie, nous avons par exemple placé des logiciels pour la gestion des relations presse et la veille média (Cision, Augure, Aday (ex-EDD), Mention), pour le social listening (Digimind, Synthesio, Talkwater, Linkfluence), pour la prospection commerciale (Corporama), ou encore pour l’information légale et financière (Score3).

Nous avons ainsi dénombré 32 bots différents émanant de ces sociétés. A l’exception de l’entreprise londonienne Kantar, autorisée par RFI et France 24 sur toutes leurs URL, l’ensemble de ces robots sont refusés par les éditeurs. KBcrawl, Linkfluence (Meltwater) ou encore Cision comptabilisent chacun une trentaine de refus.

Agrégation de contenus

Les robots agrégateurs sont chargés de compiler différentes sources de données à un même endroit. La plateforme Flipboard est citée 39 fois (23 refus et 16 autorisations). Alternatives économiques, Le Monde, L’Express ou encore Sud Ouest refusent ses deux robots, “flipboard” et “flipboard proxy”, sur l’ensemble de leur site. A l’inverse, Le Parisien est le seul média à les autoriser sur toutes ses URL.

De façon plus marginale, nous avons placé dans cette catégorie des robots d’éditeurs comme celui de Webedia, qui apparaît comme bloqué sur le site du Parisien.

Mirroring

Bête noire des éditeurs, les robots spécialisés dans le mirroring – c’est-à-dire la création de copies exactes de sites web en téléchargeant toutes les pages, images et fichiers sur un autre serveur – ne sont jamais autorisés lorsqu’ils sont mentionnés. Teleport Pro (édité par Tennyson Maxwell Information Systems) ou encore Offline Explorer (de MetaProducts) sont refusés respectivement 80 et 50 fois sur l’ensemble des fichiers. Parmi les robots d’archivage, exception est faite pour ia_archiver, autorisé à huit reprises. Sa société éditrice, Alexa Internet (filiale d’Amazon), alimente la Wayback Machine d’Internet Archive. Le journal Le Monde, L’Équipe et Sud Ouest lui permettent donc d’accéder à leur page d’accueil, mais pas au-delà.

De la difficulté d’identifier les bots

Utiliser les fichiers robots.txt des éditeurs permet donc de mieux connaître les acteurs qui convoitent leurs articles et les contenus qui les accompagnent (commentaires, signatures, etc.), ainsi que la stratégie qu’ils adoptent pour empêcher ces pratiques ou en tirer des revenus.

Mais cela présente deux limites principales. Premièrement, voir le nom d’un bot apparaître sur le fichier robots.txt d’un éditeur ne signifie pas qu’il soit encore actif et qu’il ait des velléités d’y récupérer du contenu. Ces fichiers sont parfois un héritage technique, pas nécessairement à jour. Certains crawlers sont liés à des sociétés désormais disparues. A l’inverse, tous les noms des bots actifs sur un site ne figurent pas dans les fichiers robots.txt. Soit parce que les éditeurs ne les ont pas encore identifiés, soit parce qu’ils les laissent crawler des contenus sans leur donner de directive précise. Pour savoir précisément quels bots ont été actifs à une période récente, il nous aurait fallu accéder aux sessions enregistrées par les éditeurs.

Deuxième limite : associer une seule catégorie à chaque agent crawler, comme nous l’avons fait, a l’avantage de simplifier l’analyse, mais certains font plusieurs usages d’une même donnée, et il n’est pas toujours facile d’identifier l’ensemble d’entre eux. Yan Gilbert, fondateur de BotsCorner, société qui aide les éditeurs média à mieux connaître les robots et proxys d’entreprise qui visitent leurs sites, alerte même “sur certaines sociétés, par exemple dans le conseil en référencement SEO, qui, une fois qu’elles ont conquis des clients et constitué une base de données à l’aide de leurs crawls, proposent d’autres services que ceux annoncés initialement”. Les éditeurs sont conscients du danger : “Nous avons identifié ce risque, c’est la raison pour laquelle nous tentons de signer des licences pour encadrer les usages, dans la mesure du possible. Nous devons accompagner les nouvelles demandes du marché mais en nous assurant que la chaîne de valeur soit respectée”, indique à mind Media Najat Essardy, chargée de la stratégie de vente de contenus (hors abonnement) pour le groupe Le Monde. La réaction des éditeurs face à ces robots crawlers sera l’objet de la deuxième partie de cette étude.

Quelles entreprises sont derrière ces bots ?

Certaines entreprises sont à l’origine de nombreux robots d’exploration et d’indexation désignés dans les fichiers des éditeurs français. Alphabet apparaît ainsi derrière 13 d’entre eux, dont googlebot (googlebot-image, news, video), qui totalise 190 mentions (dont 72 autorisations et 118 refus, pour une partie des sites). Le moteur de recherche chinois Baidu en a huit et Microsoft quatre (pour Bing, Internet Explorer et MSN).

Méthodologie

Nous avons établi une liste de 343 sites médias appartenant à 150 éditeurs majeurs français, en nous fondant sur des critères d’audience et de réputation.

Puis nous avons développé un script qui récupère leurs fichiers robots.txt et les analyse.

Nous avons alors pu isoler plusieurs centaines de noms de robots crawlers cités sur ces fichiers. Certains robots sont nommés de plusieurs façons, par exemple pour identifier une version précise (“httrack” et “httrack 3.0”, etc.) . Nous avons tenté de réconcilier les orthographes avec un système d’alias.

Nous avons qualifié autant que possible les robots qui sont cités plus de 20 fois dans les fichiers étudiés, et une partie de ceux qui le sont moins souvent. Cette qualification a notamment consisté à les classer dans une quinzaine de grandes catégories (“Search engine crawlers”, “Advertising”, etc.), parfois à identifier les sociétés qui les ont développés et rédiger une présentation.
Si vous avez une question, souhaitez apporter un commentaire ou une modification, contactez-nous : datalab@mind.eu.com

Aymeric Marolleau et Rudy Degardin