Accueil > Médias & Audiovisuel > Plus d’une vingtaine d’éditeurs d’information français bloquent le robot crawler de ChatGPT ou Google sur leurs sites

Plus d’une vingtaine d’éditeurs d’information français bloquent le robot crawler de ChatGPT ou Google sur leurs sites

En espérant des négociations pour la rémunération de leurs contenus, des éditeurs d’information choisissent de bloquer systématiquement le robot de Chat GPT et de Bard (Google) sur leur site via le protocole robots.txt. Dans un second temps, certains envisagent l'adoption de standards communs.

Par Paul Roy et Aymeric Marolleau. Publié le 30 août 2023 à 17h31 - Mis à jour le 16 octobre 2024 à 16h24

Ressources

Mise à jour du 29 septembre 2023 : chaque vendredi, nous mettons à jour les chiffres concernant le blocage des robots. Nous avons également ajouté une colonne relative au blocage des robots crawlers de Google pour ses dispositifs d’IA générative. Les sites utilisant TDM Reservation protocol sont également identifié dans une base de données distincte.

Depuis quelques mois, avec la généralisation de l’usage des outils d’intelligence artificielle générative, les éditeurs s’inquiètent de l’exploitation qui sera faite de leurs contenus. En réaction, de nombreux médias anglo-saxons dont le New York Times, CNN, Reuters et la chaîne australienne ABC ont récemment choisi de bloquer le robot crawler de ChatGPT, GPTBot, a relevé le Guardian vendredi 25 août.

En pratique, les éditeurs concernés procèdent en ajoutant à leur fichier robots.txt, destiné à paramétrer les autorisations de crawling sur les sites, une mention “User-agent: GPTBot” suivi de “Disallow: /” – un protocole détaillé dans un billet de blog par OpenAI il y a quelques semaines. Dans la foulée, Radio France, France Info ou encore TF1 ont annoncé adopter la même stratégie, relevait Les Echos lundi 28 août.

IA générative : quels éditeurs français bloquent les robots d’OpenAI et Google, lesquels ont adopté le protocole TDMRep ?

Google a présenté jeudi 28 septembre Google Extended, la manière pour les éditeurs de bloquer ses robots crawlers pour ses dispositifs d’IA générative Bard et Vertex AI. Le 29 septembre 2023, nous avons analysé les fichiers robots.txt de 330 sites appartenant à 154 éditeurs français. Il ressort que 60 sites (18,2 %) appartenant à 26 éditeurs (16,9 %) bloquent les bots Google-Extended, GPTBot, ChatGPT-User, ou les trois. TF1 est le seul éditeur à bloquer le robot de Google.

Parmi les principaux éditeurs on note la présence du groupe Figaro, L’Équipe, L’Express, 20 Minutes, Groupe Rossel, NEXTINTERACTIVE, l’Agefi ou encore Condé Nast France. Consultez la liste complète dans notre tableau :

On peut supposer que davantage d’éditeurs bloquent ces robots sur leur site, notamment parce que certains, comme TV5Monde, passent par d’autres outils comme Bot Manager d’Akamai. “Cela permet de bloquer rapidement le bot sur l’ensemble de nos sites, ce que nous faisons pour d’autres types de bots jugés agressifs”, explique Hélène Zemmour directrice du numérique et de l’innovation chez TV5Monde, qui ajoute qu’il est pour le moment difficile de jauger l’effet de cette mesure sur le référencement des sites.

Comme le relevait les Echos lundi 28 août, les éditeurs procèdent à ces blocages par principe de précaution et en vue d’entrer dans des négociations collectives, ou individuelles – comme c’est le cas du Monde, qui a déjà contacté OpenAI et Google – avec les fournisseurs d’IA générative.

Mais l’enjeu sera aussi de rendre plus lisibles les règles et droits en vigueur sur le contenu d’un site pour les fournisseurs d’IA. “Aujourd’hui, Robots.txt bloque GPT, mais pas HuggingFace ou Midjourney. Les éditeurs envoient un signal qui hors d’Europe n’a pas de base légale. Robots.txt est conçu seulement pour exprimer la volonté de l’éditeur de ne pas indexer certaines pages dans les moteurs de recherche et pas sur une certaines typologie de robot”, explique Laurent Le Meur, CTO de European digital reading lab (EDRLab), organisation à l’origine d’un protocole alternatif, baptisé TDMRep

Vers l’intégration de protocoles plus granulaires ?

Il y a quelques mois, EDRLab avait présenté aux membres du Geste – qui veut aller vers des négociations collectives – le protocole TDMRep (inséré dans le header, un fichier json ou dans le code html), développé sous forme de proposition au sein du W3C pour configurer les autorisations et protéger leurs droits sur leurs contenus. “C’est un véritable opt-out et une manière pour l’éditeur de signifier s’il ne désire pas qu’on crawle son site, dans quelles conditions c’est faisable, et d’amener à la signature d’un contrat”, indique Laurent Le Meur (EDRLab).

Selon nos observation du 29 septembre, 31 sites (7,7 %) appartenant à huit éditeurs (4 %) (Groupe EBRA, Groupe Les Echos – Le Parisien, Groupe Télégramme, Groupe La Dépêche du Midi, Eurosport, Groupe Centre France, Groupe Figaro, Groupe Amaury) ont ajouté ce protocole dans leur code html, l’en-tête http de leur site ou dans un fichier json dédié. Les autres restent pour le moment plus prudents. “Nous voulons insérer ce code – que nous ne savons pas encore comment implémenter – dans un second temps. L’idée est pour le moment de donner un message et un signal clair en bloquant à titre conservatoire”, indique Hélène Zemmour (TV5Monde).

L’enjeu est en effet d’attirer l’attention des fournisseurs d’IA génératives, qui sont pour le moment absents – en plus des négociations collectives – de la table des discussions autour de standards communs. Laurent Le Meur indique d’ailleurs qu’il espère les rencontrer au sein du W3C dans les prochains mois. “Tant qu’il n’y a pas de standard, c’est le “Far West”, et pour une fois ce sont les éditeurs qui ont les cartes en main, la directive européenne appliquée en France impliquant que n’importe quelle manière (codes, conditions commerciales…, ndlr) de préciser son opt-out est valide”, explique Laurent Le Meur (EDRLab). En juin, Google a fait un premier pas dans ce sens en proposant de recueillir les retours du marché sur ce sujet, mais aucune information supplémentaire n’a été donnée pour le moment.

Selon lui, au niveau global, seule l’évolution de la réglementation américaine, où la plupart des services d’IA sont créées, et l’entrée en vigueur de l’IA Act – qui obligerait notamment les fournisseurs à spécifier leurs sources d’apprentissage – pourraient rapidement pousser des acteurs tels qu’OpenAI et Google à préciser leurs politiques et accélérer l’adoption de standards.

Méthodologie

La cellule datajournalisme du groupe mind a développé pour mind Media un script qui recherche la présence d’un fichier robots.txt sur près de 400 URL d’un panel constitué des principaux sites médias français (PQN, PQR, TV, radio…). Tous ces sites ne disposent pas d’un fichier robots.txt, ou certains peuvent avoir bloqué notre requête.

Une fois le fichier robots.txt récupéré, nous y recherchons la présence de directives concernant les bots d’OpenAI, GPTBot et ChatGPT-User (utilisé par les plug-ins de ChatGPT).

Le 28 septembre, Google a présenté dans un post de blog Google Extended, un dispositif qui permet aux éditeurs d’indiquer s’ils souhaitent ou non autoriser la récupération de leurs contenus pour l’amélioration de Bard et Vertex AI, ses IA génératives. Nous avons commencé à rechercher sa présence dans les fichiers robots.txt le 29 septembre.

Pour signifier aux solutions d’IA génératives qu’ils restreignent l’accès à leurs contenus, les éditeurs peuvent aussi avoir recours au protocole TDMRep, proposé par l’European digital reading lab (EDRLab). Depuis le 29 septembre, nous vérifions sa présence dans les codes HTML, l’en-tête HTTP ou dans un fichier json hébergé sur les serveurs des sites de notre panel.

Il est possible que certains éditeurs bloquent les bots d’OpenAI ou de Google par d’autres moyens que leur fichier robots.txt, par exemple à l’aide de gestionnaires de bots, comme Bot Manager, d’Akamai.

Vous avez une question ou avez identifié une erreur ? Contactez-nous : datalab@mind.eu.com

Paul Roy et Aymeric Marolleau