Accueil > Médias & Audiovisuel > IA, veille, publicité, agrégation de contenus… Quels sont les robots crawlers que les éditeurs français bloquent ou autorisent sur leurs sites ? IA, veille, publicité, agrégation de contenus… Quels sont les robots crawlers que les éditeurs français bloquent ou autorisent sur leurs sites ? mind Media a récupéré et analysé les fichiers robots.txt des principaux éditeurs français pour mieux connaître les acteurs qui convoitent leurs articles et les contenus qui les accompagnent (commentaires, signatures, etc.), ainsi que la stratégie qu’ils adoptent pour empêcher ces pratiques ou en tirer des revenus. Dans cette première partie de notre étude, focus sur les robots des moteurs de recherche, des adtechs, des sociétés de l’IA générative, de la veille et de l’agrégation de contenus. Par Aymeric Marolleau et Rudy Degardin. Publié le 04 décembre 2024 à 11h23 - Mis à jour le 12 décembre 2024 à 17h45 Ressources Série Cet article est la première partie d’une enquête sur le contenu des fichiers robots.txt des éditeurs français. IA, veille, publicité, agrégation de contenus… Quels sont les robots crawlers que les éditeurs français bloquent ou autorisent sur leurs sites ? Quelle est l’attitude des éditeurs vis-à-vis des robots crawlers ? La généralisation de l’IA générative a mis en lumière l’importance des contenus des éditeurs d’information pour de nombreux acteurs tiers. Pour entraîner leurs grands modèles de langage (LLM) et formuler les réponses les plus actuelles et précises, les fournisseurs d’outils d’intelligence artificielle générative ont en effet besoin de collecter des contenus du web, notamment des articles d’information. Selon une étude publiée en 2021, la moitié du top 20 des sources du corpus anglais de Common Crawl, sur lequel se sont appuyés Open AI et Google, est composée de sites de presse – New York Times, LA Times, Forbes, HuffPost, etc. Mais les LLM sont loin d’être les seuls à convoiter articles, commentaires ou signatures des journalistes. Pour faire du référencement, surveiller la réputation d’entreprises clientes ou constituer des bases de données, une multitude d’entreprises se sont spécialisées dans le crawl massif. “Parmi tous les robots qui visitent les sites des éditeurs, certains sont parfaitement légitimes, en particulier les grands moteurs de recherche et les grands réseaux sociaux, explique Benjamin Fabre, fondateur de DataDome, société spécialisée dans la lutte contre les robots malveillants et la fraude en ligne. Viennent ensuite des acteurs qui ont pu être mandatés par les éditeurs eux-mêmes, comme “des outils techniques, par exemple ceux qui facilitent le tracking de la performance ou de la disponibilité du site, ou bien ceux qui aident à optimiser le SEO. Citons aussi ceux qui proviennent de sociétés de monétisation publicitaire.” Pour prendre la mesure du phénomène, et mieux en saisir les enjeux, mind Media a récupéré les fichiers robots.txt de 150 des principaux éditeurs français, en avril 2024, représentant 343 marques distinctes, puis les a analysés. Ces fichiers, librement accessibles après la racine de leurs URL – par exemple sur lemonde.fr/robots.txt -, sont en effet l’une des armes, certes imparfaite, dont les éditeurs disposent pour indiquer aux “agents” qu’ils ont, ou non, le droit d’y récupérer du contenu, sur l’ensemble du site ou seulement quelques pages. Au total, 417 bots différents sont cités dans les fichiers que nous avons étudiés, que ce soit pour être refusés ou autorisés. Nous avons qualifié près de la moitié d’entre eux, les plus communs – tous ceux qui apparaissent plus de 20 fois, et une partie de ceux qui sont cités moins souvent -, selon une quinzaine de catégories. 52 de ces bots sont adossés à des moteurs de recherche (“Search engine crawlers”), 32 émanent d’une société spécialisée dans la veille et l’intelligence économique, 20 proviennent d’un service d’agrégation de contenus, et 18 d’un acteur publicitaire. Nous en avons aussi identifié dix destinés à entraîner des LLM (“AI Data Scrapper”). Malgré nos efforts, de nombreux agents ne peuvent être identifiés avec certitude uniquement grâce au nom qui figure dans les fichiers robots.txt, c’est pourquoi l’une des catégories se nomme “Non déterminé”. Six catégories de robots sont particulièrement scrutées par les éditeurs : les moteurs de recherche, la publicité, l’IA générative, la veille, l’agrégation de contenus et le mirroring. Les robots d’indexation des moteurs de recherche Les crawlers des moteurs de recherche indexent le contenu des sites web pour les sociétés qui les ont conçus. Googlebot-news est le plus cité, puisqu’il apparaît 56 fois dans les fichiers des éditeurs français, 38 fois parce qu’il y est interdit sur une partie des pages, 18 fois parce qu’il y est accueilli. Ces robots sont généralement autorisés à indexer les images, feuilles de style et divers fichiers présents sur les sites de presse, mais l’accès aux archives ou aux commentaires leur est généralement dénié. Outre les nombreux crawlers de Google, on trouve dans cette catégorie ceux de Bing (Microsoft), Yahoo (Slurp), Yandex ou encore Baidu. Publicité mind Media a aussi repéré 18 robots spécialisés dans la gestion des campagnes publicitaires en ligne. Avec 79 mentions, AdSense (nommé “mediapartners-Google”) est le plus cité (55 interdictions et 24 autorisations). Il est chargé pour Google d’évaluer le contenu d’un site afin d’y proposer des annonces publicitaires appropriées. Le journal Le Parisien, Jeune Afrique ou encore Phosphore l’autorisent sur l’ensemble de leurs pages. A l’inverse, Ouest France, Paris Match et les titres du groupe Ebra lui refusent l’accès à certaines URL. Grapeshot, le service d’Oracle dédié à la publicité contextuelle – qui a cessé d’exister en septembre -, et Proximic de Comscore ne sont pas en reste avec respectivement 63 et 38 mentions. On observe aussi d’autres grands noms de l’adtech comme Weborama (33 mentions), Integral Ad Science (20 mentions pour le robot IAS crawler et trois pour ADmantX), Taboola (14 mentions) ou encore Criteo (trois mentions). AI Data Scrapper Si la catégorie des robots qui récupèrent des contenus pour entraîner des IA génératives n’est pas celle qui compte le plus grand nombre de représentants, ce sont ceux qui sont le plus souvent bloqués par les éditeurs. GPTbot – le bot d’OpenAI – et Google-extended – celui qui alimente Bard et Vertex, les IA génératives de la filiale d’Alphabet – représentent à eux deux 55 % des refus parmi les “AI data scrappers” (118 disallows pour le robot d’Open AI et 69 pour celui de Google – voir aussi notre outil de veille dans la rubrique Data). Claudebot, d’Anthropic, société fondée par d’anciens membres d’OpenAI, complète le podium avec 44 refus. Il est à noter que Le Monde, qui a annoncé avoir conclu un accord financier avec OpenAI en mars, n’interdit pas GPTBot dans son fichier robots.txt. Nous avons placé dans une catégorie distincte, baptisée “AI Assitant”, les robots qui émanent d’un service qui utilise l’intelligence artificielle pour réaliser une tâche, mais sans vocation apparente à aspirer des contenus pour entraîner un LLM. C’est notamment le cas de ChatGPT-User (OpenAI), Cohere-AI (Cohere), et des solutions qui lisent les pages web pour en améliorer l’accessibilité pour les personnes malvoyantes : Accessible Web Bot, Readable (Added Bytes) et Google Read About (Google). Veille L’analyse de leurs fichiers robots.txt montre que les éditeurs de presse portent une attention particulière à l’intérêt des sociétés de veille et d’intelligence économique pour leurs contenus. Dans cette catégorie, nous avons par exemple placé des logiciels pour la gestion des relations presse et la veille média (Cision, Augure, Aday (ex-EDD), Mention), pour le social listening (Digimind, Synthesio, Talkwater, Linkfluence), pour la prospection commerciale (Corporama), ou encore pour l’information légale et financière (Score3). Nous avons ainsi dénombré 32 bots différents émanant de ces sociétés. A l’exception de l’entreprise londonienne Kantar, autorisée par RFI et France 24 sur toutes leurs URL, l’ensemble de ces robots sont refusés par les éditeurs. KBcrawl, Linkfluence (Meltwater) ou encore Cision comptabilisent chacun une trentaine de refus. Agrégation de contenus Les robots agrégateurs sont chargés de compiler différentes sources de données à un même endroit. La plateforme Flipboard est citée 39 fois (23 refus et 16 autorisations). Alternatives économiques, Le Monde, L’Express ou encore Sud Ouest refusent ses deux robots, “flipboard” et “flipboard proxy”, sur l’ensemble de leur site. A l’inverse, Le Parisien est le seul média à les autoriser sur toutes ses URL. De façon plus marginale, nous avons placé dans cette catégorie des robots d’éditeurs comme celui de Webedia, qui apparaît comme bloqué sur le site du Parisien. Mirroring Bête noire des éditeurs, les robots spécialisés dans le mirroring – c’est-à-dire la création de copies exactes de sites web en téléchargeant toutes les pages, images et fichiers sur un autre serveur – ne sont jamais autorisés lorsqu’ils sont mentionnés. Teleport Pro (édité par Tennyson Maxwell Information Systems) ou encore Offline Explorer (de MetaProducts) sont refusés respectivement 80 et 50 fois sur l’ensemble des fichiers. Parmi les robots d’archivage, exception est faite pour ia_archiver, autorisé à huit reprises. Sa société éditrice, Alexa Internet (filiale d’Amazon), alimente la Wayback Machine d’Internet Archive. Le journal Le Monde, L’Équipe et Sud Ouest lui permettent donc d’accéder à leur page d’accueil, mais pas au-delà. De la difficulté d’identifier les bots Utiliser les fichiers robots.txt des éditeurs permet donc de mieux connaître les acteurs qui convoitent leurs articles et les contenus qui les accompagnent (commentaires, signatures, etc.), ainsi que la stratégie qu’ils adoptent pour empêcher ces pratiques ou en tirer des revenus. Mais cela présente deux limites principales. Premièrement, voir le nom d’un bot apparaître sur le fichier robots.txt d’un éditeur ne signifie pas qu’il soit encore actif et qu’il ait des velléités d’y récupérer du contenu. Ces fichiers sont parfois un héritage technique, pas nécessairement à jour. Certains crawlers sont liés à des sociétés désormais disparues. A l’inverse, tous les noms des bots actifs sur un site ne figurent pas dans les fichiers robots.txt. Soit parce que les éditeurs ne les ont pas encore identifiés, soit parce qu’ils les laissent crawler des contenus sans leur donner de directive précise. Pour savoir précisément quels bots ont été actifs à une période récente, il nous aurait fallu accéder aux sessions enregistrées par les éditeurs. Deuxième limite : associer une seule catégorie à chaque agent crawler, comme nous l’avons fait, a l’avantage de simplifier l’analyse, mais certains font plusieurs usages d’une même donnée, et il n’est pas toujours facile d’identifier l’ensemble d’entre eux. Yan Gilbert, fondateur de BotsCorner, société qui aide les éditeurs média à mieux connaître les robots et proxys d’entreprise qui visitent leurs sites, alerte même “sur certaines sociétés, par exemple dans le conseil en référencement SEO, qui, une fois qu’elles ont conquis des clients et constitué une base de données à l’aide de leurs crawls, proposent d’autres services que ceux annoncés initialement”. Les éditeurs sont conscients du danger : “Nous avons identifié ce risque, c’est la raison pour laquelle nous tentons de signer des licences pour encadrer les usages, dans la mesure du possible. Nous devons accompagner les nouvelles demandes du marché mais en nous assurant que la chaîne de valeur soit respectée”, indique à mind Media Najat Essardy, chargée de la stratégie de vente de contenus (hors abonnement) pour le groupe Le Monde. La réaction des éditeurs face à ces robots crawlers sera l’objet de la deuxième partie de cette étude. Quelles entreprises sont derrière ces bots ? Certaines entreprises sont à l’origine de nombreux robots d’exploration et d’indexation désignés dans les fichiers des éditeurs français. Alphabet apparaît ainsi derrière 13 d’entre eux, dont googlebot (googlebot-image, news, video), qui totalise 190 mentions (dont 72 autorisations et 118 refus, pour une partie des sites). Le moteur de recherche chinois Baidu en a huit et Microsoft quatre (pour Bing, Internet Explorer et MSN). Méthodologie Nous avons établi une liste de 343 sites médias appartenant à 150 éditeurs majeurs français, en nous fondant sur des critères d’audience et de réputation. Puis nous avons développé un script qui récupère leurs fichiers robots.txt et les analyse. Nous avons alors pu isoler plusieurs centaines de noms de robots crawlers cités sur ces fichiers. Certains robots sont nommés de plusieurs façons, par exemple pour identifier une version précise (“httrack” et “httrack 3.0”, etc.) . Nous avons tenté de réconcilier les orthographes avec un système d’alias. Nous avons qualifié autant que possible les robots qui sont cités plus de 20 fois dans les fichiers étudiés, et une partie de ceux qui le sont moins souvent. Cette qualification a notamment consisté à les classer dans une quinzaine de grandes catégories (“Search engine crawlers”, “Advertising”, etc.), parfois à identifier les sociétés qui les ont développés et rédiger une présentation. Si vous avez une question, souhaitez apporter un commentaire ou une modification, contactez-nous : datalab@mind.eu.com Aymeric Marolleau et Rudy Degardin IA générativeIntelligence artificielleRobotsSearchVeille Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire Opt-out : quels éditeurs français interdisent les robots crawlers de l'IA générative ? INFO MIND MEDIA - Cinq médias français interdisent le bot d’Apple AI d'accéder à leurs contenus Entretiens Benjamin Fabre (Datadome) : “Les robots représentent souvent plus de 50 % du trafic des sites médias” [Etude mind Media] IA générative : 10,4 % des principaux sites médias ont intégré le TDMRep Plus d'une vingtaine d’éditeurs d’information français bloquent le robot crawler de ChatGPT ou Google sur leurs sites essentiels Nos synthèses et chiffres sur les principales thématiques du marché Les mutations du search à l'ère de l'IA générative L'application inaboutie de la loi sur les droits voisins Google vs DOJ : tout ce qu'il faut savoir sur le procès qui pourrait redéfinir l'adtech L’essentiel sur les identifiants publicitaires La transformation du marché publicitaire en 2024 2023 : le marché publicitaire doit se préparer à la fin du tracking utilisateur Comment l’intelligence artificielle générative bouleverse les médias Les enjeux réglementaires des médias en 2023 analyses Les articles d'approfondissement réalisés par la rédaction Adtech : pourquoi la Commission européenne sanctionne Google de près de 3 milliards d’euros Retail media : une consolidation indispensable des régies pour répondre aux attentes des acheteurs publicitaires IA et monétisation des contenus : comment l’IAB Tech Lab veut contrôler les robots crawlers Droits voisins : l’Apig veut introduire une plainte contre Meta devant l'Autorité de la concurrence Paul Boulangé (Starcom France) : "Nous sommes en train de déployer Captiv8 en France, notre solution d'automatisation du marketing d'influence" Claire Léost devient DG de CMA Média, WPP Media promeut Stéphanie Robelus… Comment les SSP généralistes investissent le secteur du retail media Bénédicte Wautelet (Le Figaro) : “Toute solution qui utilise de l’IA en rapport avec nos contenus doit y être autorisée et nous rémunérer” Aides à la presse : combien les éditeurs ont-ils perçu en 2024 ? Le New York Times affiche toujours une croissance très robuste portée par le numérique data Les baromètres, panoramas et chiffres sur l'évolution du marché Le classement des éditeurs français qui ont le plus d'abonnés purs numériques Les données récoltées par les acteurs de la publicité en ligne La liste des sociétés présentes dans les fichiers ads.txt des éditeurs français Les gains de budget des agences médias Opt-out : quels éditeurs français interdisent les robots crawlers de l'IA générative ? Le panorama des sociétés spécialisées dans les technologies de l’e-retail media La liste des outils utilisés par les équipes éditoriales, marketing et techniques des éditeurs français Le détail des aides à la presse, année par année La liste des CMP choisies par les principaux médias en France Digital Ad Trust : quels sites ont été labellisés, pour quelles vagues et sur quel périmètre ?