Accueil > Médias & Audiovisuel > Plus d’une vingtaine d’éditeurs d’information français bloquent le robot crawler de ChatGPT ou Google sur leurs sites Plus d’une vingtaine d’éditeurs d’information français bloquent le robot crawler de ChatGPT ou Google sur leurs sites En espérant des négociations pour la rémunération de leurs contenus, des éditeurs d’information choisissent de bloquer systématiquement le robot de Chat GPT et de Bard (Google) sur leur site via le protocole robots.txt. Dans un second temps, certains envisagent l'adoption de standards communs. Par Paul Roy et Aymeric Marolleau. Publié le 30 août 2023 à 17h31 - Mis à jour le 16 octobre 2024 à 16h24 Ressources Mise à jour du 29 septembre 2023 : chaque vendredi, nous mettons à jour les chiffres concernant le blocage des robots. Nous avons également ajouté une colonne relative au blocage des robots crawlers de Google pour ses dispositifs d’IA générative. Les sites utilisant TDM Reservation protocol sont également identifié dans une base de données distincte. Depuis quelques mois, avec la généralisation de l’usage des outils d’intelligence artificielle générative, les éditeurs s’inquiètent de l’exploitation qui sera faite de leurs contenus. En réaction, de nombreux médias anglo-saxons dont le New York Times, CNN, Reuters et la chaîne australienne ABC ont récemment choisi de bloquer le robot crawler de ChatGPT, GPTBot, a relevé le Guardian vendredi 25 août. En pratique, les éditeurs concernés procèdent en ajoutant à leur fichier robots.txt, destiné à paramétrer les autorisations de crawling sur les sites, une mention “User-agent: GPTBot” suivi de “Disallow: /” – un protocole détaillé dans un billet de blog par OpenAI il y a quelques semaines. Dans la foulée, Radio France, France Info ou encore TF1 ont annoncé adopter la même stratégie, relevait Les Echos lundi 28 août. IA générative : quels éditeurs français bloquent les robots d’OpenAI et Google, lesquels ont adopté le protocole TDMRep ? Google a présenté jeudi 28 septembre Google Extended, la manière pour les éditeurs de bloquer ses robots crawlers pour ses dispositifs d’IA générative Bard et Vertex AI. Le 29 septembre 2023, nous avons analysé les fichiers robots.txt de 330 sites appartenant à 154 éditeurs français. Il ressort que 60 sites (18,2 %) appartenant à 26 éditeurs (16,9 %) bloquent les bots Google-Extended, GPTBot, ChatGPT-User, ou les trois. TF1 est le seul éditeur à bloquer le robot de Google. Parmi les principaux éditeurs on note la présence du groupe Figaro, L’Équipe, L’Express, 20 Minutes, Groupe Rossel, NEXTINTERACTIVE, l’Agefi ou encore Condé Nast France. Consultez la liste complète dans notre tableau : On peut supposer que davantage d’éditeurs bloquent ces robots sur leur site, notamment parce que certains, comme TV5Monde, passent par d’autres outils comme Bot Manager d’Akamai. “Cela permet de bloquer rapidement le bot sur l’ensemble de nos sites, ce que nous faisons pour d’autres types de bots jugés agressifs”, explique Hélène Zemmour directrice du numérique et de l’innovation chez TV5Monde, qui ajoute qu’il est pour le moment difficile de jauger l’effet de cette mesure sur le référencement des sites. Comme le relevait les Echos lundi 28 août, les éditeurs procèdent à ces blocages par principe de précaution et en vue d’entrer dans des négociations collectives, ou individuelles – comme c’est le cas du Monde, qui a déjà contacté OpenAI et Google – avec les fournisseurs d’IA générative. Mais l’enjeu sera aussi de rendre plus lisibles les règles et droits en vigueur sur le contenu d’un site pour les fournisseurs d’IA. “Aujourd’hui, Robots.txt bloque GPT, mais pas HuggingFace ou Midjourney. Les éditeurs envoient un signal qui hors d’Europe n’a pas de base légale. Robots.txt est conçu seulement pour exprimer la volonté de l’éditeur de ne pas indexer certaines pages dans les moteurs de recherche et pas sur une certaines typologie de robot”, explique Laurent Le Meur, CTO de European digital reading lab (EDRLab), organisation à l’origine d’un protocole alternatif, baptisé TDMRep Vers l’intégration de protocoles plus granulaires ? Il y a quelques mois, EDRLab avait présenté aux membres du Geste – qui veut aller vers des négociations collectives – le protocole TDMRep (inséré dans le header, un fichier json ou dans le code html), développé sous forme de proposition au sein du W3C pour configurer les autorisations et protéger leurs droits sur leurs contenus. “C’est un véritable opt-out et une manière pour l’éditeur de signifier s’il ne désire pas qu’on crawle son site, dans quelles conditions c’est faisable, et d’amener à la signature d’un contrat”, indique Laurent Le Meur (EDRLab). Selon nos observation du 29 septembre, 31 sites (7,7 %) appartenant à huit éditeurs (4 %) (Groupe EBRA, Groupe Les Echos – Le Parisien, Groupe Télégramme, Groupe La Dépêche du Midi, Eurosport, Groupe Centre France, Groupe Figaro, Groupe Amaury) ont ajouté ce protocole dans leur code html, l’en-tête http de leur site ou dans un fichier json dédié. Les autres restent pour le moment plus prudents. “Nous voulons insérer ce code – que nous ne savons pas encore comment implémenter – dans un second temps. L’idée est pour le moment de donner un message et un signal clair en bloquant à titre conservatoire”, indique Hélène Zemmour (TV5Monde). L’enjeu est en effet d’attirer l’attention des fournisseurs d’IA génératives, qui sont pour le moment absents – en plus des négociations collectives – de la table des discussions autour de standards communs. Laurent Le Meur indique d’ailleurs qu’il espère les rencontrer au sein du W3C dans les prochains mois. “Tant qu’il n’y a pas de standard, c’est le “Far West”, et pour une fois ce sont les éditeurs qui ont les cartes en main, la directive européenne appliquée en France impliquant que n’importe quelle manière (codes, conditions commerciales…, ndlr) de préciser son opt-out est valide”, explique Laurent Le Meur (EDRLab). En juin, Google a fait un premier pas dans ce sens en proposant de recueillir les retours du marché sur ce sujet, mais aucune information supplémentaire n’a été donnée pour le moment. Selon lui, au niveau global, seule l’évolution de la réglementation américaine, où la plupart des services d’IA sont créées, et l’entrée en vigueur de l’IA Act – qui obligerait notamment les fournisseurs à spécifier leurs sources d’apprentissage – pourraient rapidement pousser des acteurs tels qu’OpenAI et Google à préciser leurs politiques et accélérer l’adoption de standards. Méthodologie La cellule datajournalisme du groupe mind a développé pour mind Media un script qui recherche la présence d’un fichier robots.txt sur près de 400 URL d’un panel constitué des principaux sites médias français (PQN, PQR, TV, radio…). Tous ces sites ne disposent pas d’un fichier robots.txt, ou certains peuvent avoir bloqué notre requête. Une fois le fichier robots.txt récupéré, nous y recherchons la présence de directives concernant les bots d’OpenAI, GPTBot et ChatGPT-User (utilisé par les plug-ins de ChatGPT). Le 28 septembre, Google a présenté dans un post de blog Google Extended, un dispositif qui permet aux éditeurs d’indiquer s’ils souhaitent ou non autoriser la récupération de leurs contenus pour l’amélioration de Bard et Vertex AI, ses IA génératives. Nous avons commencé à rechercher sa présence dans les fichiers robots.txt le 29 septembre. Pour signifier aux solutions d’IA génératives qu’ils restreignent l’accès à leurs contenus, les éditeurs peuvent aussi avoir recours au protocole TDMRep, proposé par l’European digital reading lab (EDRLab). Depuis le 29 septembre, nous vérifions sa présence dans les codes HTML, l’en-tête HTTP ou dans un fichier json hébergé sur les serveurs des sites de notre panel. Il est possible que certains éditeurs bloquent les bots d’OpenAI ou de Google par d’autres moyens que leur fichier robots.txt, par exemple à l’aide de gestionnaires de bots, comme Bot Manager, d’Akamai. Vous avez une question ou avez identifié une erreur ? Contactez-nous : datalab@mind.eu.com Paul Roy et Aymeric Marolleau Droits voisinsIntelligence artificielle Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire OpenAI lance une version de ChatGPT pour les entreprises Dentsu s'associe à Microsoft pour utiliser l'IA générative OpenAI va participer au financement de l'info locale aux Etats-Unis Aux États-Unis, un recours collectif contre l’usage de l’IA générative par Google Bard donne accès aux articles payants protégés par un paywall Selon McKinsey, le marketing sera l’une des fonctions les plus impactées par l’IA générative Aux États-Unis, un recours collectif contre OpenAI et Microsoft à 3 milliards de dollars Analyses Entretiens John Cosley (Microsoft Advertising) : “Nous voulons innover pour les consommateurs, les annonceurs et les éditeurs" Analyses Entretiens Jeff Katzin (Bain & Company) : Intelligence artificielle générative : “Seules les applications qui permettent à l'entreprise de se différencier vaudront la peine d'être explorées” essentiels Nos synthèses et chiffres sur les principales thématiques du marché Les mutations du search à l'ère de l'IA générative L'application inaboutie de la loi sur les droits voisins Google vs DOJ : tout ce qu'il faut savoir sur le procès qui pourrait redéfinir l'adtech L’essentiel sur les identifiants publicitaires La transformation du marché publicitaire en 2024 2023 : le marché publicitaire doit se préparer à la fin du tracking utilisateur Comment l’intelligence artificielle générative bouleverse les médias Les enjeux réglementaires des médias en 2023 analyses Les articles d'approfondissement réalisés par la rédaction L’Apig et le SEPM fustigent le discours de Google concernant l’absence de l’AI Mode en France L'IA tient-elle ses promesses dans le marketing et l'achat média ? L’IA dans les rédactions : les exemples de l’AFP, Ouest-France et Humanoid Synthèse de l'étude mind Media-366 sur l’IA générative appliquée à la recherche, aux médias et à la publicité INFO MIND MEDIA - Yahoo lance un plan social en France pour se séparer de son équipe éditoriale Baromètre RECMA - mind Media : le bilan des gains de budgets en France depuis début 2025 Heikel Manai (France Télévisions) : “En matière d’IT, un dogmatisme 100% européen serait contre-productif” INFO MIND MEDIA - L’Équipe gagne son match judiciaire contre Fedcom Media CGV 2026 des régies TV : un pas supplémentaire vers la simplification du trading Mara Negri (EBX) : “Notre objectif est de proposer des inventaires BVOD et CTV dans l’ensemble des pays européens" data Les baromètres, panoramas et chiffres sur l'évolution du marché Le classement des éditeurs français qui ont le plus d'abonnés purs numériques Les données récoltées par les acteurs de la publicité en ligne La liste des sociétés présentes dans les fichiers ads.txt des éditeurs français Les gains de budget des agences médias Opt-out : quels éditeurs français interdisent les robots crawlers de l'IA générative ? Le panorama des sociétés spécialisées dans les technologies de l’e-retail media La liste des outils utilisés par les équipes éditoriales, marketing et techniques des éditeurs français Le détail des aides à la presse, année par année La liste des CMP choisies par les principaux médias en France Digital Ad Trust : quels sites ont été labellisés, pour quelles vagues et sur quel périmètre ?