• Contenus gratuits
  • Notre offre
Menu
  • Ressources
    • Toutes les ressources
  • Infos
    • Toutes les infos
  • Essentiels
    • Tous les essentiels
  • Analyses
    • Toutes les analyses
  • Data
    • Data
  • Newsletters
  • Profil
    • Je teste 15 jours
    • Je me connecte
  • Profil
    • Mon profil
    • Je me déconnecte
CLOSE

Accueil > Médias & Audiovisuel > Plus d’une vingtaine d’éditeurs d’information français bloquent le robot crawler de ChatGPT ou Google sur leurs sites

Plus d’une vingtaine d’éditeurs d’information français bloquent le robot crawler de ChatGPT ou Google sur leurs sites

En espérant des négociations pour la rémunération de leurs contenus, des éditeurs d’information choisissent de bloquer systématiquement le robot de Chat GPT et de Bard (Google) sur leur site via le protocole robots.txt. Dans un second temps, certains envisagent l'adoption de standards communs.

Par Paul Roy et Aymeric Marolleau. Publié le 30 août 2023 à 17h31 - Mis à jour le 16 octobre 2024 à 16h24
  • Ressources

Mise à jour du 29 septembre 2023 : chaque vendredi, nous mettons à jour les chiffres concernant le blocage des robots. Nous avons également ajouté une colonne relative au blocage des robots crawlers de Google pour ses dispositifs d’IA générative. Les sites utilisant TDM Reservation protocol sont également identifié dans une base de données distincte.

Depuis quelques mois, avec la généralisation de l’usage des outils d’intelligence artificielle générative, les éditeurs s’inquiètent de l’exploitation qui sera faite de leurs contenus. En réaction, de nombreux médias anglo-saxons dont le New York Times, CNN, Reuters et la chaîne australienne ABC ont récemment choisi de bloquer le robot crawler de ChatGPT, GPTBot, a relevé le Guardian vendredi 25 août. 

En pratique, les éditeurs concernés procèdent en ajoutant à leur fichier robots.txt, destiné à paramétrer les autorisations de crawling sur les sites, une mention “User-agent: GPTBot” suivi de “Disallow: /” – un protocole détaillé dans un billet de blog par OpenAI il y a quelques semaines. Dans la foulée, Radio France, France Info ou encore TF1 ont annoncé adopter la même stratégie, relevait Les Echos lundi 28 août.

IA générative : quels éditeurs français bloquent les robots d’OpenAI et Google, lesquels ont adopté le protocole TDMRep ?

Google a présenté jeudi 28 septembre Google Extended, la manière pour les éditeurs de bloquer ses robots crawlers pour ses dispositifs d’IA générative Bard et Vertex AI. Le 29 septembre 2023, nous avons analysé les fichiers robots.txt de 330 sites appartenant à 154 éditeurs français. Il ressort que 60 sites (18,2 %) appartenant à 26 éditeurs (16,9 %) bloquent les bots Google-Extended, GPTBot, ChatGPT-User, ou les trois. TF1 est le seul éditeur à bloquer le robot de Google.

Parmi les principaux éditeurs on note la présence du groupe Figaro, L’Équipe, L’Express, 20 Minutes, Groupe Rossel, NEXTINTERACTIVE, l’Agefi ou encore Condé Nast France. Consultez la liste complète dans notre tableau : 

On peut supposer que davantage d’éditeurs bloquent ces robots sur leur site, notamment parce que certains, comme TV5Monde, passent par d’autres outils comme Bot Manager d’Akamai. “Cela permet de bloquer rapidement le bot sur l’ensemble de nos sites, ce que nous faisons pour d’autres types de bots jugés agressifs”, explique Hélène Zemmour directrice du numérique et de l’innovation chez TV5Monde, qui ajoute qu’il est pour le moment difficile de jauger l’effet de cette mesure sur le référencement des sites.

Comme le relevait les Echos lundi 28 août, les éditeurs procèdent à ces blocages par principe de précaution et en vue d’entrer dans des négociations collectives, ou individuelles – comme c’est le cas du Monde, qui a déjà contacté OpenAI et Google – avec les fournisseurs d’IA générative. 

Mais l’enjeu sera aussi de rendre plus lisibles les règles et droits en vigueur sur le contenu d’un site pour les fournisseurs d’IA. “Aujourd’hui, Robots.txt bloque GPT, mais pas HuggingFace ou Midjourney. Les éditeurs envoient un signal qui hors d’Europe n’a pas de base légale. Robots.txt est conçu seulement pour exprimer la volonté de l’éditeur de ne pas indexer certaines pages dans les moteurs de recherche et pas sur une certaines typologie de robot”, explique Laurent Le Meur, CTO de European digital reading lab (EDRLab), organisation à l’origine d’un protocole alternatif, baptisé TDMRep

Vers l’intégration de protocoles plus granulaires ? 

Il y a quelques mois, EDRLab avait présenté aux membres du Geste – qui veut aller vers des négociations collectives – le protocole TDMRep (inséré dans le header, un fichier json ou dans le code html), développé sous forme de proposition au sein du W3C pour configurer les autorisations et protéger leurs droits sur leurs contenus. “C’est un véritable opt-out et une manière pour l’éditeur de signifier s’il ne désire pas qu’on crawle son site, dans quelles conditions c’est faisable, et d’amener à la signature d’un contrat”, indique Laurent Le Meur (EDRLab).

Selon nos observation du 29 septembre, 31 sites (7,7 %) appartenant à huit éditeurs (4 %) (Groupe EBRA, Groupe Les Echos – Le Parisien, Groupe Télégramme, Groupe La Dépêche du Midi, Eurosport, Groupe Centre France, Groupe Figaro, Groupe Amaury) ont ajouté ce protocole dans leur code html, l’en-tête http de leur site ou dans un fichier json dédié. Les autres restent pour le moment plus prudents. “Nous voulons insérer ce code – que nous ne savons pas encore comment implémenter – dans un second temps. L’idée est pour le moment de donner un message et un signal clair en bloquant à titre conservatoire”, indique Hélène Zemmour (TV5Monde).

L’enjeu est en effet d’attirer l’attention des fournisseurs d’IA génératives, qui sont pour le moment absents – en plus des négociations collectives – de la table des discussions autour de standards communs. Laurent Le Meur indique d’ailleurs qu’il espère les rencontrer au sein du W3C dans les prochains mois. “Tant qu’il n’y a pas de standard, c’est le “Far West”, et pour une fois ce sont les éditeurs qui ont les cartes en main, la directive européenne appliquée en France impliquant que n’importe quelle manière (codes, conditions commerciales…, ndlr) de préciser son opt-out est valide”, explique Laurent Le Meur (EDRLab). En juin, Google a fait un premier pas dans ce sens en proposant de recueillir les retours du marché sur ce sujet, mais aucune information supplémentaire n’a été donnée pour le moment.

Selon lui, au niveau global, seule l’évolution de la réglementation américaine, où la plupart des services d’IA sont créées, et l’entrée en vigueur de l’IA Act – qui obligerait notamment les fournisseurs à spécifier leurs sources d’apprentissage – pourraient rapidement pousser des acteurs tels qu’OpenAI et Google à préciser leurs politiques et accélérer l’adoption de standards.

Méthodologie

La cellule datajournalisme du groupe mind a développé pour mind Media un script qui recherche la présence d’un fichier robots.txt sur près de 400 URL d’un panel constitué des principaux sites médias français (PQN, PQR, TV, radio…). Tous ces sites ne disposent pas d’un fichier robots.txt, ou certains peuvent avoir bloqué notre requête. 

Une fois le fichier robots.txt récupéré, nous y recherchons la présence de directives concernant les bots d’OpenAI, GPTBot et ChatGPT-User (utilisé par les plug-ins de ChatGPT). 

Le 28 septembre, Google a présenté dans un post de blog Google Extended, un dispositif qui permet aux éditeurs d’indiquer s’ils souhaitent ou non autoriser la récupération de leurs contenus pour l’amélioration de Bard et Vertex AI, ses IA génératives. Nous avons commencé à rechercher sa présence dans les fichiers robots.txt le 29 septembre. 

Pour signifier aux solutions d’IA génératives qu’ils restreignent l’accès à leurs contenus, les éditeurs peuvent aussi avoir recours au protocole TDMRep, proposé par l’European digital reading lab (EDRLab). Depuis le 29 septembre, nous vérifions sa présence dans les codes HTML, l’en-tête HTTP ou dans un fichier json hébergé sur les serveurs des sites de notre panel. 

Il est possible que certains éditeurs bloquent les bots d’OpenAI ou de Google par d’autres moyens que leur fichier robots.txt, par exemple à l’aide de gestionnaires de bots, comme Bot Manager, d’Akamai. 

Vous avez une question ou avez identifié une erreur ? Contactez-nous : datalab@mind.eu.com

Paul Roy et Aymeric Marolleau
  • Droits voisins
  • Intelligence artificielle

Besoin d’informations complémentaires ?

Contactez Mind Research

le service d’études à la demande de mind

À lire

OpenAI lance une version de ChatGPT pour les entreprises 

Dentsu s'associe à Microsoft pour utiliser l'IA générative 

OpenAI va participer au financement de l'info locale aux Etats-Unis

Aux États-Unis, un recours collectif contre l’usage de l’IA générative par Google 

Bard donne accès aux articles payants protégés par un paywall 

Selon McKinsey, le marketing sera l’une des fonctions les plus impactées par l’IA générative

Aux États-Unis, un recours collectif contre OpenAI et Microsoft à 3 milliards de dollars 

Analyses Entretiens

John Cosley (Microsoft Advertising) : “Nous voulons innover pour les consommateurs, les annonceurs et les éditeurs"

Analyses Entretiens

Jeff Katzin (Bain & Company) : Intelligence artificielle générative : “Seules les applications qui permettent à l'entreprise de se différencier vaudront la peine d'être explorées”

essentiels

Nos synthèses et chiffres sur les principales thématiques du marché

Les mutations du search à l'ère de l'IA générative

L'application inaboutie de la loi sur les droits voisins

Google vs DOJ : tout ce qu'il faut savoir sur le procès qui pourrait redéfinir l'adtech

L’essentiel sur les identifiants publicitaires 

La transformation du marché publicitaire en 2024

2023 : le marché publicitaire doit se préparer à la fin du tracking utilisateur

Comment l’intelligence artificielle générative bouleverse les médias

Les enjeux réglementaires des médias en 2023

analyses

Les articles d'approfondissement réalisés par la rédaction

L’Apig et le SEPM fustigent le discours de Google concernant l’absence de l’AI Mode en France

L'IA tient-elle ses promesses dans le marketing et l'achat média ?

L’IA dans les rédactions : les exemples de l’AFP, Ouest-France et Humanoid 

Synthèse de l'étude mind Media-366 sur l’IA générative appliquée à la recherche, aux médias et à la publicité

INFO MIND MEDIA - Yahoo lance un plan social en France pour se séparer de son équipe éditoriale

Baromètre RECMA - mind Media : le bilan des gains de budgets en France depuis début 2025

Heikel Manai (France Télévisions) : “En matière d’IT, un dogmatisme 100% européen serait contre-productif”

INFO MIND MEDIA - L’Équipe gagne son match judiciaire contre Fedcom Media

CGV 2026 des régies TV : un pas supplémentaire vers la simplification du trading

Mara Negri (EBX) : “Notre objectif est de proposer des inventaires BVOD et CTV dans l’ensemble des pays européens"

data

Les baromètres, panoramas et chiffres sur l'évolution du marché

Le classement des éditeurs français qui ont le plus d'abonnés purs numériques

Les données récoltées par les acteurs de la publicité en ligne

La liste des sociétés présentes dans les fichiers ads.txt des éditeurs français

Les gains de budget des agences médias

Opt-out : quels éditeurs français interdisent les robots crawlers de l'IA générative ?

Le panorama des sociétés spécialisées dans les technologies de l’e-retail media

La liste des outils utilisés par les équipes éditoriales, marketing et techniques des éditeurs français

Le détail des aides à la presse, année par année

La liste des CMP choisies par les principaux médias en France

Digital Ad Trust : quels sites ont été labellisés, pour quelles vagues et sur quel périmètre ?

Réserve ta place dès maintenant pour le mind Media Day J'en profite
  • Le groupe mind
  • Nos activités
  • Notre histoire
  • Notre équipe
  • Nos clients
  • Nos services
  • mind Media
  • mind Fintech
  • mind Health
  • mind Rh
  • mind Retail
  • mind Research
  • Les clubs
  • mind et vous
  • Présentation
  • Nous contacter
  • Vous abonner
  • A savoir
  • Mentions légales
  • CGU
  • CGV
  • CGV publicité
  • Politique des cookies
Tous droits réservés - Frontline MEDIA 2025
Social Media Auto Publish Powered By : XYZScripts.com
  • Twitter
  • LinkedIn
  • Email