Accueil > Médias & Audiovisuel > Quelle est la stratégie des éditeurs vis-à-vis des robots crawlers ? Quelle est la stratégie des éditeurs vis-à-vis des robots crawlers ? mind Media a récupéré et analysé les fichiers robots.txt des principaux éditeurs français, pour mieux connaître les acteurs qui convoitent leurs articles et les contenus qui les accompagnent (commentaires, signatures, etc.). Dans cette deuxième partie de notre étude, focus sur les pratiques des médias, pour bloquer ces activités ou en tirer des revenus. Par Rudy Degardin et Aymeric Marolleau. Publié le 12 décembre 2024 à 9h57 - Mis à jour le 16 décembre 2024 à 10h47 Ressources Série Cet article est la deuxième et dernière partie d’une enquête sur le contenu des fichiers robots.txt des éditeurs français. IA, veille, publicité, agrégation de contenus… Quels sont les robots crawlers que les éditeurs français bloquent ou autorisent sur leurs sites ? Quelle est la stratégie des éditeurs vis-à-vis des robots crawlers ? Pour faire de la veille pour leurs clients, agréger des contenus pour leurs services, entraîner leurs modèles d’intelligence artificielle ou encore optimiser les revenus par la publicité, des centaines de sociétés missionnent des robots crawlers en quête de contenus sur les sites des éditeurs français. Dans la première partie de cette enquête, mind Media en a trouvé 417 différents dans les fichiers robots.txt de 343 sites appartenant à 150 éditeurs français. Ils ont la possibilité d’y autoriser ou non la visite des crawlers sur leurs pages. Des fichiers utilisés surtout pour interdire L’analyse de ces fichiers montre qu’ils les utilisent surtout pour interdire nommément certains acteurs, parfois en très grand nombre. Par exemple, Le Parisien cite 219 agents différents, dont 213 auxquels il interdit le crawl, et seulement six qu’il autorise à consulter tout ou partie de ses pages. Il s’agit en particulier de Mediapartners-Google (publicité), de deux bots du service d’agrégation Flipboard, et des agents du moteur de recherche de Google, Googlebot-News et Googlebot-Image. De même, Le Monde cite 73 agents différents, mais n’en autorise que trois, dont Googlebot-Image et le bot dédié à l’archivage du web ia_archiver, lié à l’organisation Internet Archive, uniquement toléré sur sa page d’accueil. A l’instar du Parisien et du Monde, 99 % des sites de notre panel utilisent leur fichier robots.txt pour bloquer nommément au moins un bot, avec une moyenne de 20 agents interdits par fichier, et jusqu’à 241 pour France 24 et RFI. “Au lieu de rendre l’expérience des utilisateurs pénible avec des captchas ou une double authentification systématiques, nous conseillons à nos clients de refuser tous les robots par défaut, et de n’autoriser qu’une petite sélection d’entre eux – essentiellement ceux des réseaux sociaux et des moteurs de recherche majeurs. Les autres autorisations se font au cas par cas, en dialogue avec l’éditeur”, explique ainsi Benjamin Fabre, cofondateur de DataDome, une société spécialisée dans la lutte contre les robots malveillants, fondée en 2016. Interdire pour négocier Ces nombreuses interdictions répondent notamment à une logique économique. Plutôt que laisser des services de veille ou d’agrégation se servir gratuitement dans leurs contenus, certains éditeurs veulent les pousser à nouer des accords financiers. C’est notamment le cas du groupe Le Monde. “Les revenus de ces sociétés sont fondés sur l’utilisation de la propriété intellectuelle de l’éditeur et des journalistes. Or, il est indispensable que toute entreprise qui utilise nos contenus acquitte des droits d’auteur ou droits voisins”, souligne auprès de mind Media Najat Essardy, chargée de la stratégie de vente de contenus (hors abonnement) pour le groupe Le Monde. Pour “reprendre le contrôle des opérations, du traçage des usages autorisés et de la juste rémunération des contenus publiés”, l’éditeur mise sur la signature de licences avec ces acteurs, après avoir vérifié que leurs activités ne sont pas en concurrence avec ses propres offres. Pour lutter contre les robots malveillants, Sacha Morard, ancien CTO du groupe Le Monde et cofondateur d’Edgee (société spécialisée dans l’edge computing, une forme de cloud computing modulable), estime que les éditeurs devraient “se mettre autour de la table afin de financer tous ensemble un outil de protection. Je ne crois pas au fait de s’accorder pour négocier avec les différents acteurs. Mais il serait facile de coordonner les énergies pour se doter d’un outil de protection.” Edgee, la société cofondée par Sacha Morard et Gilles Raymond, lève 2,9 millions de dollars Certaines sociétés se proposent d’ailleurs d’aider les médias dans ces démarches. C’est par exemple le cas de BotsCorner, fondée par Yann Gilbert, qui réalise pour ses clients une cartographie des requêtes qui arrivent sur leurs sites. “Nous étudions leurs visiteurs non humains afin de distinguer les proxys d’entreprises, d’associations, d’hôpitaux, ou encore d’universités d’un côté, et les entreprises qui viennent prendre des données de l’autre. Cette connaissance permet à nos clients d’identifier des concurrents ou des acteurs mal intentionnés avec lesquels la question de la rémunération peut être posée”, explique à mind Media Yann Gilbert. Des limites de robots.txt pour bloquer les bots Mais indiquer à un crawler, dans son fichier robots.txt, qu’il a l’interdiction de récupérer le contenu du site, ne garantit pas à un éditeur qu’il ne le fera pas. A l’automne 2023, Sacha Morard dressait un dur constat à l’occasion d’une conférence organisée par Le Geste : “50 % des requêtes sur nos serveurs émanent de robots. Une minorité d’entre eux pourraient être qualifiés de ‘bons robots’, comme Google, Bing ou OpenAI, car ils se déclarent en arrivant, consultent le fichier robots.txt, et respectent ses directives. Mais une majorité sont de ‘mauvais robots’, qui ne se déclarent pas, se font passer pour des humains, ne consultent pas le fichier robots.txt, et pillent nos contenus. Ils représentent 35 % des requêtes qui arrivent sur nos serveurs”. Pour tenter de fermer la porte à ces acteurs, les éditeurs se dotent de pare-feux. Certains font aussi appel à des technologies de détection et de blocage, telle que celle développée par DataDome, déjà citée. “Nous avons identifié une dizaine de menaces liées au trafic bots et à la fraude en ligne – credential stuffing (tentatives d’authentification massives, ndlr), scraping, fraude au paiement, scalping (s’accaparer des produits limités sur des sites de vente en ligne ou les billetteries d’événements, ndlr)… Notre solution analyse en temps réel le trafic de nos clients et décide d’autoriser ou de bloquer chacune des requêtes”, explique Benjamin Fabre à mind Media. La société, qui compte le New York Times, le Wall Street Journal, Ouest-France, la Fnac ou encore Tripadvisor parmi ses clients, a levé 42 millions de dollars en 2023 pour se développer aux Etats-Unis. Près d’un site sur deux autorise au moins un agent crawler Si les fichiers robots.txt sont surtout utilisés pour interdire l’accès à des bots précis, 47 % des sites autorisent au moins un agent, avec une moyenne de quatre par fichier. Le maximum est pour La Nouvelle République, avec 26 bots désignés. Ce site est d’ailleurs l’un des deux seuls, avec Ouest-France, à avoir pris le parti de bloquer tous les bots, sur toutes ses URL, avant de les autoriser nommément, individuellement. Au contraire, 23 sites (7 % du panel) ont choisi d’autoriser par défaut tous les bots à visiter l’ensemble de leurs pages, avant de les bloquer un par un. C’est par exemple le cas du Nouvel Obs, du Point et de Mediapart. Des fichiers au fonctionnement parfois mal compris Les incohérences trouvées dans certains fichiers robots.txt conduisent à penser que certains médias ne maîtrisent pas pleinement les enjeux liés aux agents crawlers. Celui du magazine Marianne comporte par exemple des directives contradictoires : tous les robots y sont à la fois autorisés par défaut et refusés. “Certains médias n’ont pas cette culture, explique Yan Gilbert, fondateur de BotsCorner. Parfois, il y a même des fautes d’orthographe sur le nom de l’agent, ce qui l’empêchera de comprendre l’instruction lorsqu’il passera sur la page.” Consultez la liste des bots cités par les sites médias français de notre panel : Méthodologie Nous avons établi une liste de 343 sites médias appartenant à 150 éditeurs majeurs français, en nous fondant sur des critères d’audience et de réputation. Puis nous avons développé un script qui récupère leurs fichiers robots.txt et les analyse. Nous avons alors pu isoler plusieurs centaines de noms de robots crawlers cités sur ces fichiers. Certains robots sont nommés de plusieurs façons, par exemple pour identifier une version précise (“httrack” et “httrack 3.0”, etc.) . Nous avons tenté de réconcilier les orthographes avec un système d’alias. Nous avons qualifié autant que possible les robots qui sont cités plus de 20 fois dans les fichiers étudiés, et une partie de ceux qui le sont moins souvent. Cette qualification a notamment consisté à les classer dans une quinzaine de grandes catégories (“Search engine crawlers”, “Advertising”, etc.), parfois à identifier les sociétés qui les ont développées et rédiger une présentation. Si vous avez une question, souhaitez apporter un commentaire ou une modification, contactez-nous : datalab@mind.eu.com Rudy Degardin et Aymeric Marolleau IA générativeIntelligence artificielleRobotsSearchSites d'actualitéVeille Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire Analyses IA, veille, publicité, agrégation de contenus… Quels sont les robots crawlers que les éditeurs français bloquent ou autorisent sur leurs sites ? Opt-out : quels éditeurs français interdisent les robots crawlers de l'IA générative ? Entretiens Benjamin Fabre (Datadome) : “Les robots représentent souvent plus de 50 % du trafic des sites médias” [Etude mind Media] IA générative : 10,4 % des principaux sites médias ont intégré le TDMRep Plus d'une vingtaine d’éditeurs d’information français bloquent le robot crawler de ChatGPT ou Google sur leurs sites essentiels Nos synthèses et chiffres sur les principales thématiques du marché Les mutations du search à l'ère de l'IA générative L'application inaboutie de la loi sur les droits voisins Google vs DOJ : tout ce qu'il faut savoir sur le procès qui pourrait redéfinir l'adtech L’essentiel sur les identifiants publicitaires La transformation du marché publicitaire en 2024 2023 : le marché publicitaire doit se préparer à la fin du tracking utilisateur Comment l’intelligence artificielle générative bouleverse les médias Les enjeux réglementaires des médias en 2023 analyses Les articles d'approfondissement réalisés par la rédaction Adtech : pourquoi la Commission européenne sanctionne Google de près de 3 milliards d’euros Retail media : une consolidation indispensable des régies pour répondre aux attentes des acheteurs publicitaires IA et monétisation des contenus : comment l’IAB Tech Lab veut contrôler les robots crawlers Droits voisins : l’Apig veut introduire une plainte contre Meta devant l'Autorité de la concurrence Paul Boulangé (Starcom France) : "Nous sommes en train de déployer Captiv8 en France, notre solution d'automatisation du marketing d'influence" Claire Léost devient DG de CMA Média, WPP Media promeut Stéphanie Robelus… Comment les SSP généralistes investissent le secteur du retail media Bénédicte Wautelet (Le Figaro) : “Toute solution qui utilise de l’IA en rapport avec nos contenus doit y être autorisée et nous rémunérer” Aides à la presse : combien les éditeurs ont-ils perçu en 2024 ? Le New York Times affiche toujours une croissance très robuste portée par le numérique data Les baromètres, panoramas et chiffres sur l'évolution du marché Le classement des éditeurs français qui ont le plus d'abonnés purs numériques Les données récoltées par les acteurs de la publicité en ligne La liste des sociétés présentes dans les fichiers ads.txt des éditeurs français Les gains de budget des agences médias Opt-out : quels éditeurs français interdisent les robots crawlers de l'IA générative ? Le panorama des sociétés spécialisées dans les technologies de l’e-retail media La liste des outils utilisés par les équipes éditoriales, marketing et techniques des éditeurs français Le détail des aides à la presse, année par année La liste des CMP choisies par les principaux médias en France Digital Ad Trust : quels sites ont été labellisés, pour quelles vagues et sur quel périmètre ?