Accueil > Médias & Audiovisuel > Quelle est la stratégie des éditeurs vis-à-vis des robots crawlers ?

Quelle est la stratégie des éditeurs vis-à-vis des robots crawlers ?

mind Media a récupéré et analysé les fichiers robots.txt des principaux éditeurs français, pour mieux connaître les acteurs qui convoitent leurs articles et les contenus qui les accompagnent (commentaires, signatures, etc.). Dans cette deuxième partie de notre étude, focus sur les pratiques des médias, pour bloquer ces activités ou en tirer des revenus.

Par Rudy Degardin et Aymeric Marolleau. Publié le 12 décembre 2024 à 9h57 - Mis à jour le 16 décembre 2024 à 10h47

Ressources

Série

Cet article est la deuxième et dernière partie d’une enquête sur le contenu des fichiers robots.txt des éditeurs français.

IA, veille, publicité, agrégation de contenus… Quels sont les robots crawlers que les éditeurs français bloquent ou autorisent sur leurs sites ?
Quelle est la stratégie des éditeurs vis-à-vis des robots crawlers ?

Pour faire de la veille pour leurs clients, agréger des contenus pour leurs services, entraîner leurs modèles d’intelligence artificielle ou encore optimiser les revenus par la publicité, des centaines de sociétés missionnent des robots crawlers en quête de contenus sur les sites des éditeurs français. Dans la première partie de cette enquête, mind Media en a trouvé 417 différents dans les fichiers robots.txt de 343 sites appartenant à 150 éditeurs français. Ils ont la possibilité d’y autoriser ou non la visite des crawlers sur leurs pages.

Des fichiers utilisés surtout pour interdire

L’analyse de ces fichiers montre qu’ils les utilisent surtout pour interdire nommément certains acteurs, parfois en très grand nombre. Par exemple, Le Parisien cite 219 agents différents, dont 213 auxquels il interdit le crawl, et seulement six qu’il autorise à consulter tout ou partie de ses pages. Il s’agit en particulier de Mediapartners-Google (publicité), de deux bots du service d’agrégation Flipboard, et des agents du moteur de recherche de Google, Googlebot-News et Googlebot-Image.

De même, Le Monde cite 73 agents différents, mais n’en autorise que trois, dont Googlebot-Image et le bot dédié à l’archivage du web ia_archiver, lié à l’organisation Internet Archive, uniquement toléré sur sa page d’accueil.

A l’instar du Parisien et du Monde, 99 % des sites de notre panel utilisent leur fichier robots.txt pour bloquer nommément au moins un bot, avec une moyenne de 20 agents interdits par fichier, et jusqu’à 241 pour France 24 et RFI.

“Au lieu de rendre l’expérience des utilisateurs pénible avec des captchas ou une double authentification systématiques, nous conseillons à nos clients de refuser tous les robots par défaut, et de n’autoriser qu’une petite sélection d’entre eux – essentiellement ceux des réseaux sociaux et des moteurs de recherche majeurs. Les autres autorisations se font au cas par cas, en dialogue avec l’éditeur”, explique ainsi Benjamin Fabre, cofondateur de DataDome, une société spécialisée dans la lutte contre les robots malveillants, fondée en 2016.

Interdire pour négocier

Ces nombreuses interdictions répondent notamment à une logique économique. Plutôt que laisser des services de veille ou d’agrégation se servir gratuitement dans leurs contenus, certains éditeurs veulent les pousser à nouer des accords financiers.

C’est notamment le cas du groupe Le Monde. “Les revenus de ces sociétés sont fondés sur l’utilisation de la propriété intellectuelle de l’éditeur et des journalistes. Or, il est indispensable que toute entreprise qui utilise nos contenus acquitte des droits d’auteur ou droits voisins”, souligne auprès de mind Media Najat Essardy, chargée de la stratégie de vente de contenus (hors abonnement) pour le groupe Le Monde. Pour “reprendre le contrôle des opérations, du traçage des usages autorisés et de la juste rémunération des contenus publiés”, l’éditeur mise sur la signature de licences avec ces acteurs, après avoir vérifié que leurs activités ne sont pas en concurrence avec ses propres offres.

Pour lutter contre les robots malveillants, Sacha Morard, ancien CTO du groupe Le Monde et cofondateur d’Edgee (société spécialisée dans l’edge computing, une forme de cloud computing modulable), estime que les éditeurs devraient “se mettre autour de la table afin de financer tous ensemble un outil de protection. Je ne crois pas au fait de s’accorder pour négocier avec les différents acteurs. Mais il serait facile de coordonner les énergies pour se doter d’un outil de protection.”

Edgee, la société cofondée par Sacha Morard et Gilles Raymond, lève 2,9 millions de dollars

Certaines sociétés se proposent d’ailleurs d’aider les médias dans ces démarches. C’est par exemple le cas de BotsCorner, fondée par Yann Gilbert, qui réalise pour ses clients une cartographie des requêtes qui arrivent sur leurs sites. “Nous étudions leurs visiteurs non humains afin de distinguer les proxys d’entreprises, d’associations, d’hôpitaux, ou encore d’universités d’un côté, et les entreprises qui viennent prendre des données de l’autre. Cette connaissance permet à nos clients d’identifier des concurrents ou des acteurs mal intentionnés avec lesquels la question de la rémunération peut être posée”, explique à mind Media Yann Gilbert.

Des limites de robots.txt pour bloquer les bots

Mais indiquer à un crawler, dans son fichier robots.txt, qu’il a l’interdiction de récupérer le contenu du site, ne garantit pas à un éditeur qu’il ne le fera pas. A l’automne 2023, Sacha Morard dressait un dur constat à l’occasion d’une conférence organisée par Le Geste : “50 % des requêtes sur nos serveurs émanent de robots. Une minorité d’entre eux pourraient être qualifiés de ‘bons robots’, comme Google, Bing ou OpenAI, car ils se déclarent en arrivant, consultent le fichier robots.txt, et respectent ses directives. Mais une majorité sont de ‘mauvais robots’, qui ne se déclarent pas, se font passer pour des humains, ne consultent pas le fichier robots.txt, et pillent nos contenus. Ils représentent 35 % des requêtes qui arrivent sur nos serveurs”.

Pour tenter de fermer la porte à ces acteurs, les éditeurs se dotent de pare-feux. Certains font aussi appel à des technologies de détection et de blocage, telle que celle développée par DataDome, déjà citée. “Nous avons identifié une dizaine de menaces liées au trafic bots et à la fraude en ligne – credential stuffing (tentatives d’authentification massives, ndlr), scraping, fraude au paiement, scalping (s’accaparer des produits limités sur des sites de vente en ligne ou les billetteries d’événements, ndlr)… Notre solution analyse en temps réel le trafic de nos clients et décide d’autoriser ou de bloquer chacune des requêtes”, explique Benjamin Fabre à mind Media. La société, qui compte le New York Times, le Wall Street Journal, Ouest-France, la Fnac ou encore Tripadvisor parmi ses clients, a levé 42 millions de dollars en 2023 pour se développer aux Etats-Unis.

Près d’un site sur deux autorise au moins un agent crawler

Si les fichiers robots.txt sont surtout utilisés pour interdire l’accès à des bots précis, 47 % des sites autorisent au moins un agent, avec une moyenne de quatre par fichier. Le maximum est pour La Nouvelle République, avec 26 bots désignés. Ce site est d’ailleurs l’un des deux seuls, avec Ouest-France, à avoir pris le parti de bloquer tous les bots, sur toutes ses URL, avant de les autoriser nommément, individuellement.

Au contraire, 23 sites (7 % du panel) ont choisi d’autoriser par défaut tous les bots à visiter l’ensemble de leurs pages, avant de les bloquer un par un. C’est par exemple le cas du Nouvel Obs, du Point et de Mediapart.

Des fichiers au fonctionnement parfois mal compris

Les incohérences trouvées dans certains fichiers robots.txt conduisent à penser que certains médias ne maîtrisent pas pleinement les enjeux liés aux agents crawlers. Celui du magazine Marianne comporte par exemple des directives contradictoires : tous les robots y sont à la fois autorisés par défaut et refusés. “Certains médias n’ont pas cette culture, explique Yan Gilbert, fondateur de BotsCorner. Parfois, il y a même des fautes d’orthographe sur le nom de l’agent, ce qui l’empêchera de comprendre l’instruction lorsqu’il passera sur la page.”

Consultez la liste des bots cités par les sites médias français de notre panel :

Méthodologie

Nous avons établi une liste de 343 sites médias appartenant à 150 éditeurs majeurs français, en nous fondant sur des critères d’audience et de réputation.

Puis nous avons développé un script qui récupère leurs fichiers robots.txt et les analyse.

Nous avons alors pu isoler plusieurs centaines de noms de robots crawlers cités sur ces fichiers. Certains robots sont nommés de plusieurs façons, par exemple pour identifier une version précise (“httrack” et “httrack 3.0”, etc.) . Nous avons tenté de réconcilier les orthographes avec un système d’alias.

Nous avons qualifié autant que possible les robots qui sont cités plus de 20 fois dans les fichiers étudiés, et une partie de ceux qui le sont moins souvent. Cette qualification a notamment consisté à les classer dans une quinzaine de grandes catégories (“Search engine crawlers”, “Advertising”, etc.), parfois à identifier les sociétés qui les ont développées et rédiger une présentation.
Si vous avez une question, souhaitez apporter un commentaire ou une modification, contactez-nous : datalab@mind.eu.com

Rudy Degardin et Aymeric Marolleau