Accueil > Médias & Audiovisuel > IA générative : panorama des solutions techniques de protection et de monétisation des contenus IA générative : panorama des solutions techniques de protection et de monétisation des contenus Projets de solutions mêlant sécurisation des contenus protégés par le droit d'auteur et leur valorisation automatisée, places de marché de contenus sous licence, bases de données d'opt-out, nouveaux protocoles techniques favorisant le dialogue entre les sites et les agents IA… Depuis quelques mois, acteurs technologiques, start-up et éditeurs d’information se mobilisent pour protéger leurs droits et trouver des solutions permettant de rétribuer les producteurs de contenus utilisés par les LLM, à l'usage, au-delà des accords de licence forfaitaires. Et le rythme s'accélère. Par Raphaële Karayan. Publié le 19 septembre 2025 à 11h57 - Mis à jour le 19 septembre 2025 à 18h11 Ressources Les points-clés Une partie des solutions techniques sont associées à des technologies de blocage des crawlers IA, pour recréer la rareté nécessaire à la monétisation. Les solutions pay per crawl et plus largement de paiement des contenus à l’usage dans les assistants IA et les moteurs de recherche assistés par l’IA sont les plus en vogue. Face à l’obsolescence des fichiers robots.txt, le marché exige de nouveaux protocoles d’opt-out. Plusieurs initiatives visent à établir des standards industriels. Parallèlement, des initiatives institutionnelles sont en cours en Europe. Jusqu’à présent, les LLM ont crawlé et aspiré le contenu des médias sans vergogne, et sans rémunération pour la plupart, quel que soit leur objectif final : entraînement des modèles, ou recherche en temps réel. La première réponse, pour pallier cette absence de rétribution, a été les accords de licence : un modèle accessible aux plus gros éditeurs seulement, et plus adapté à une situation d’entraînement que de search. D’ailleurs, dans une deuxième phase, on voit déjà apparaître des projets d’accords de licence intégrant la notion d’usage des contenus, comme le rapporte Bloomberg qui a eu accès à des informations sur les accords en cours de négociation entre Reddit, Google et OpenAI. Depuis, une nouvelle catégorie d’intermédiaires techniques est apparue entre les développeurs d’IA génératives et les éditeurs d’information, axée sur la monétisation de leurs contenus dans le cadre de leur usage pour l’IA. Ces entreprises, acteurs déjà bien installés sur d’autres activités ou jeunes start-up, sont confrontées à de multiples défis. Leurs solutions ne peuvent pas s’imposer sans passer directement à l’échelle, et les fournisseurs d’IA générative ont plutôt, a priori, intérêt à passer des accords individuels qu’à soutenir un standard à l’échelle de l’industrie. Ils vont cependant, sans doute, y être poussés, car ces derniers sont soumis à une pression de plus en plus forte, par le biais de projets de régulation et d’actions en justice. Le caractère disruptif de l’AI search, qui change la façon dont le contenu est consommé et découvert par les internautes, pose également des questions de concurrence et de pouvoir de marché qui dépassent le simple cadre de l’application du droit d’auteur et des droits voisins. Il nous a donc semblé intéressant de faire un tour d’horizon de quelques-unes des solutions techniques imaginées pour protéger et monétiser les contenus des éditeurs, même si, à l’heure actuelle, la plupart sont encore à l’état embryonnaire. En effet, comme le souligne un rapport du Pôle d’expertise de la régulation numérique (PEReN) publié en juillet 2025, “les mois et années à venir pourraient s’avérer déterminants dans l’élaboration de modèles de valorisation des données utilisées par les systèmes d’IA. En attendant, il est important que certaines bonnes pratiques avec les technologies existantes se généralisent aussi bien du côté des éditeurs que des moissonneurs de données pour prévenir les restrictions d’accès généralisées aux contenus sur Internet.” Le PEReN recommande notamment aux éditeurs “d’assurer un travail de veille potentiellement mutualisée pour avoir une vision en temps réel du paysage des robots d’exploration”, et de “systématiser et faire évoluer le standard robots.txt pour y ajouter les finalités d’utilisation des données crawlées”. Les paywalls pour robots, sur le modèle du “pay per crawl” Ils consistent à mettre en place un paywall destiné aux robots crawlers des IA génératives, pour conditionner leur requête de scraping d’un contenu à un paiement. C’est ce que propose la plateforme TollBit, qui a noué des accords avec 1400 sites médias (Huffpost, AP, Newsweek, USA Today, Forbes, Time…). Le système bloque les bots qui n’acceptent pas les conditions imposées, permet un pricing différencié, et gère les paiements. Datadome, une entreprise française créée il y a dix ans, spécialisée dans la détection de la cyberfraude, a annoncé fin juillet un partenariat avec TollBit. Ses solutions, qui servent à détecter et à bloquer les crawlers “mal intentionnés”, s’interfacent ainsi avec l’outil de monétisation de TollBit. “Pour que cela fonctionne, il faut en effet que le contournement par les robots soit impossible”, nous explique Benjamin Barrier, cofondateur et chief strategic officer chez DataDome. Parmi les clients de la société, le trafic IA a plus que triplé sur les six derniers mois, passant de 2,6% à 8,2% de l’ensemble du trafic bot vérifié. Du côté des clients de TollBit, le nombre de bots IA bloqués et redirigés vers le péage a été multiplié par 20 cette année, selon l’américain. Benjamin Fabre (Datadome) : “Les robots représentent souvent plus de 50 % du trafic des sites médias” DataDome, qui nous indique avoir observé une accélération de son activité dans le secteur des médias ces derniers mois, en Europe et aux États-Unis, ne bloque pas tous les crawlers IA par défaut, car “il existe des IA légitimes et illégitimes, pilotés par des humains légitimes et illégitimes ; et tous les médias ne veulent pas gérer ce trafic de la même façon”. A contrario, Cloudflare a annoncé début juillet un projet similaire à celui de TollBit, baptisé “Pay per crawl”, en démarrant par le blocage par défaut des crawlers IA, sans passer par les fichiers robots.txt dont l’efficacité est relative. Ce blocage est déjà effectif sur plus d’un million de sites internet. L’annonce de cette entreprise américaine, qui fournit des solutions d’infrastructure réseau, de connectivité et de cybersécurité, a jeté un pavé dans la mare car ses services sont très largement utilisés, rendant possible très rapidement un passage à l’échelle. Sa plateforme est interfacée avec 20 millions de domaines internet, et 20% des sites web utilisent au moins l’une de sa soixantaine de fonctionnalités (firewall, protection contre les attaques DDOS, DNS, sécurité zero trust…). En France, selon la dernière étude Tech Stack, Cloudflare équipe 24% des éditeurs, qui l’utilisent surtout pour ses fonctionnalités de CDN. En France, l’entreprise compte un peu moins d’une centaine de collaborateurs, et parmi ses clients figurent Décathlon, Doctolib, ou encore Believe. IA générative : face aux robots crawlers, la réponse au cas par cas des éditeurs Cloudflare avait déjà une solution de blocage des crawlers, mais opt-in, et une suite d’outils permettant aux entreprises de surveiller le crawling des robots d’IA générative. Le blocage par défaut est destiné à créer les conditions de lancement de la future marketplace, nous explique Rémi Durand-Gasselin, Area VP Southern Europe de Cloudflare, qui a passé une semaine, début juillet après l’annonce de la maison mère, à répondre aux sollicitations des éditeurs français, pas forcément déjà clients, mais “très intéressés pour tester la plateforme, comprendre l’offre, et anticiper”. “En activant par défaut une protection contre les robots d’IA, on recrée la rareté nécessaire à la valorisation du contenu, qui pourra être fixée par les éditeurs qui reprennent un pouvoir de négociation, et au lancement d’un nouveau modèle économique”, déclare Rémi Durand-Gasselin. En tant que CDN, Cloudflare est bien placé pour savoir que les acteurs de l’IA générative tentent par tous les moyens de contourner les limitations mises en place pour les arrêter. Une liste qui a fuité récemment, répertoriant plusieurs dizaines de milliers de sites ayant servi à entraîner Meta AI, montre que la société de Mark Zuckerberg a allègrement puisé dans les CDN pour y trouver du contenu. Le projet de marketplace de Cloudflare est aujourd’hui en version bêta privée et gratuite, accessible y compris aux clients européens, et n’a pas encore de modèle économique arrêté, ni de calendrier de déploiement. En revanche, la société travaille d’ores et déjà avec un partenaire pour la partie micropaiement, n’ayant pas cette corde à son arc. D’après Rémi Durand-Gasselin, les grands acteurs de l’IA générative – environ 80% des LLM du marché passent par le réseau de Cloudflare – sont ouverts à cette idée, car les règles seraient ainsi les mêmes pour tous. Dans Fortune, le cofondateur de Cloudflare expliquait ainsi qu’OpenAI, par exemple, qui signe des accords de licence avec certains éditeurs pendant que d’autres LLM ne prennent pas cette peine, y voit une condition de marché équitable. Les marketplaces de licences D’autres projets ambitionnent plus simplement de créer des places de marché sur lesquelles les fournisseurs d’IA générative pourraient acheter du contenu proposé sous licence par les éditeurs. Dow Jones, éditeur du Wall Street Journal, mène une initiative de ce type en s’appuyant sur sa base de données Factiva, a révélé Axios en février. Factiva entretient des relations avec 5 000 éditeurs dans 200 pays, qui lui permettent de fournir des services de veille et d’études aux entreprises. La maison mère de Dow Jones, News Corp, a elle-même noué un accord de licence avec OpenAI. La start-up britannique Human Native AI propose quant à elle une base de données de contenus sous licence, pouvant servir de données d’entraînement ou alimenter des recherches en temps réel, avec différents modèles de paiement (one shot, abonnement, partage de revenus…). Cofondée en 2024 par un ancien de Google Deepmind, elle s’adresse aux acteurs de petite et moyenne taille qui n’ont pas les moyens de négocier individuellement des accords de licence. Quelques initiatives basées sur la blockchain D’autres initiatives liées à la protection du copyright font appel aux blockchains, parmi lesquelles on peut citer Verify, une plateforme lancée par Fox début 2024 pour assurer la traçabilité des articles produits par les filiales du groupe ; ou encore Story, une start-up qui a levé 80 millions de dollars fin 2024 et qui permet aux créateurs de contenus d’enregistrer la paternité de leurs oeuvres sur une blockchain, afin d’en tirer des royalties. Cette dernière s’adresse aux secteurs de la mode, de la musique et du graphisme. Les nouveaux protocoles techniques d’opt-out et de communication avec les IA À l’ère de l’IA agentique, les fichiers Robots.txt sont largement dépassés. Le marché a besoin de nouveaux protocoles d’opt-out. C’est le sens de l’initiative annoncée le 10 septembre par Reddit, People Inc. (ex- Dotdash Meredith), Yahoo, Internet Brands, Ziff Davis, Fastly, Quora, O’Reilly Media, wikiHow, The Daily Beast, Miso.AI, Raptive, Ranker, Evolve Media et Medium, qui se sont réunis pour lancer le standard RSL (Really Simple Licensing). L’objectif de ce standard, inspiré du protocole RSS de syndication des contenus, est d’ajouter des termes contractuels aux fichiers robots.txt (avec différents modèles possibles, de la gratuité à l’abonnement, en passant par le pay per crawl et le paiement à la citation), permettant aux éditeurs de fixer leurs conditions de rémunération. Le collectif travaille avec le CDN Fastly, qui en est membre, pour autoriser les crawlers sur les sites en fonction de leur acceptation de la licence, explique The Verge. Les LLM eux-mêmes ont aussi commencé à développer leurs protocoles, pas spécialement dédiés à l’opt-out mais plus largement à rendre les échanges plus transparents avec les producteurs de contenus. On peut citer le protocole open source MCP (model context protocol), d’Anthropic, une sorte d’API pour les IA. Selon Datadome, les serveurs MCP commencent à devenir une norme. Ou encore web-bot-auth, un protocole d’authentification en cours de standardisation à l’IETF (organisme de normalisation des protocoles internet), développé par Cloudflare en partenariat avec Anchor Browser, Browserbase, Block et OpenAI, qui repose sur des signatures cryptographiques et permet de vérifier l’identité des agents IA derrière une requête. “L’idée est que ce standard d’authentification puisse être utilisé par tout le monde”, précise Rémi Durand-Gasselin (Cloudflare). Du côté des instances du secteur, aux États-Unis, dans le but d’accompagner le développement du nouveau marché des licences et de la monétisation des contenus, l’IAB Tech Lab a commencé à travailler sur un nouveau protocole technique, un “framework” baptisé LLM Content Ingest API puis renommé AI Content Monetization Protocols (CoMP), auquel participent déjà une grosse cinquantaine de sociétés, d’après l’IAB. Une première spécification devrait être livrée à l’automne. Ce framework recouvre des protocoles destinés à la monétisation des contenus et à la gestion du trafic des robots crawlers. Un premier atelier de travail a eu lieu en juillet, auquel ont participé plus de 80 représentants de médias américains et européens, a rapporté Digiday, ainsi que Google, Cloudflare et Meta, mais en l’absence d’OpenAI, Perplexity et Anthropic. IA et monétisation des contenus : comment l’IAB Tech Lab veut contrôler les robots crawlers L’IAB Tech Lab privilégie un modèle de paiement à la requête (pay per query), qui permettrait aux éditeurs de fixer le prix de leurs contenus en fonction de la demande, via un accès par API. Ce modèle permettrait de rémunérer les éditeurs sur la base de chaque requête générant une impression. Ce qui implique de mettre en œuvre des mécanismes d’attribution, tels que celui développé par ProRata. Fondée par Bill Gross, qui a inventé le modèle des liens sponsorisés vendus au CPC, cette start-up en fait la démonstration dans son propre moteur de recherche, Gist.ai. Elle a passé des accords avec des éditeurs (dont le Financial Times, The Guardian, Axel Springer, Fortune…), qui lui donnent accès à leur contenu en échange d’un partage des revenus d’abonnement au service à 50-50. En Europe, la Copyright Infrastructure Task Force, qui réunit une quinzaine de pays pilotés par la Finlande et l’Estonie, travaille également sur des standards, qui pourraient servir au futur registre de l’opt-out souhaité par la Direction générale des réseaux de communication, du contenu et des technologies (DG Connect) de la Commission européenne (voir encadré). Philippe Rixhon, qui participe à ce projet avec sa société Valunode, a contribué à mettre au point un MVP de “Copyright data exchange“, un système interopérable de gestion de droits permettant d’attribuer la propriété d’un contenu à un auteur et de déclarer des droits. Ce projet, qui utilise les technologies de la blockchain, a été réalisé en collaboration avec l’EBSI (European Blockchain Services Infrastructure) et le consortium Trace4you. Philippe Rixhon nous indique par ailleurs qu’il travaille aussi pour l’ISO, l’organisation internationale pour la standardisation, “sur la normalisation de la déclaration de droits et de l’attribution de l’auteur”. Le registre européen de l’opt-out Le registre européen de l’opt-out, projet de la Commission européenne, est destiné à centraliser les oppositions des ayants droit à l’utilisation des œuvres pour entraîner les modèles d’IA, dans le but de faciliter le développement d’un marché des licences. Cette idée est rejetée par la plupart des ayants droit, relatait Contexte en octobre 2024. La Commission en a confié récemment l’étude de faisabilité à un consortium regroupant Capgemini et Visionary Analytics, qui devrait la publier en 2026. Le registre pourrait être géré par un tiers de confiance comme l’Office européen de la propriété intellectuelle (EUIPO), ou l’Organisation mondiale de la propriété intellectuelle (Ompi) qui lancera en décembre prochain l’AI Infrastructure Interchange (AIII), une initiative pour “faciliter le dialogue sur les aspects techniques et opérationnels du droit d’auteur dans le contexte de l’intelligence artificielle”. L’ensemble de ces solutions constituent des réponses technologiques à une disruption technologique. Il convient bien évidemment d’élargir la focale, car le passé a montré que ce type de réponse n’était jamais suffisant. “On est face à une révolution dans laquelle il n’y a pas de trucs et astuces. Il va falloir passer par la régulation, pour assurer l’équité et un accès à la visibilité pour toutes les sources, comme la loi a su l’organiser pour l’accès aux kiosques par exemple, ainsi qu’une rémunération”, estime ainsi Virginie Clève, consultante en stratégie chez Largow. Encore une fois, les éditeurs se heurtent à l’urgence de la mise en danger de leur modèle économique, les réponses de la régulation et des enquêtes antitrust arrivant forcément avec un temps de retard sur les innovations du secteur, et tandis que de nouveaux fronts s’ouvrent régulièrement devant les tribunaux. C’est dans ce contexte hautement inflammable que chacun va devoir se positionner pour tester, soutenir, voire créer son propre dispositif de monétisation. Raphaële Karayan BlockchainDroits voisinsEtats-UnisEuropeIA générativeIABInnovationsPaywallSites d'actualitéTechnologies Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire Analyses IA et monétisation des contenus : comment l’IAB Tech Lab veut contrôler les robots crawlers Perplexity rémunérera les éditeurs en fonction de l'usage qu'il fait des contenus Monétisation des contenus et IA : l’IAB Tech Lab avance sur son projet de standardisation Cloudflare lance le "pay per crawl", pour monétiser l'aspiration de contenus par les plateformes d'IA générative Les mutations du search à l'ère de l'IA générative IA générative : l’Apig et le SEPM agissent contre le crawling des bases de données publiques Entretiens Bénédicte Wautelet (Le Figaro) : “Toute solution qui utilise de l’IA en rapport avec nos contenus doit y être autorisée et nous rémunérer” Analyses IA générative : face aux robots crawlers, la réponse au cas par cas des éditeurs Analyses Quels sont les robots des acteurs de l’intelligence artificielle qui convoitent les contenus des éditeurs ? AI Act : éditeurs médias et ayants droit européens fustigent les dernières orientations du Code de bonnes pratiques Droit d’auteur et IA : la Sacem s’oppose à France Digitale essentiels Nos synthèses et chiffres sur les principales thématiques du marché Les mutations du search à l'ère de l'IA générative L'application inaboutie de la loi sur les droits voisins Google vs DOJ : tout ce qu'il faut savoir sur le procès qui pourrait redéfinir l'adtech L’essentiel sur les identifiants publicitaires La transformation du marché publicitaire en 2024 2023 : le marché publicitaire doit se préparer à la fin du tracking utilisateur Comment l’intelligence artificielle générative bouleverse les médias Les enjeux réglementaires des médias en 2023 analyses Les articles d'approfondissement réalisés par la rédaction Info mind Media - L’alliance adtech des médias français Mediasquare peine elle aussi à faire condamner Google en justice IA générative : panorama des solutions techniques de protection et de monétisation des contenus Fermeture de Xandr DSP : qui va gagner la bataille des budgets ? Adtech : les réactions et analyses du secteur à la condamnation de Google par la Commission européenne Hélène Zemmour (TV5Monde) : “TV5MondePlus va devenir notre plateforme unique de streaming vidéo” Pseudonymisation : comment la décision de la CJUE dans l’affaire CRU/CEPD impacte l'industrie de l'adtech AI search : quels changements dans les stratégies de référencement ? Adtech : pourquoi la Commission européenne sanctionne Google de près de 3 milliards d’euros Retail media : une consolidation indispensable des régies pour répondre aux attentes des acheteurs publicitaires IA et monétisation des contenus : comment l’IAB Tech Lab veut contrôler les robots crawlers data Les baromètres, panoramas et chiffres sur l'évolution du marché Le classement des éditeurs français qui ont le plus d'abonnés purs numériques Les données récoltées par les acteurs de la publicité en ligne La liste des sociétés présentes dans les fichiers ads.txt des éditeurs français Les gains de budget des agences médias Opt-out : quels éditeurs français interdisent les robots crawlers de l'IA générative ? Le panorama des sociétés spécialisées dans les technologies de l’e-retail media La liste des outils utilisés par les équipes éditoriales, marketing et techniques des éditeurs français Le détail des aides à la presse, année par année La liste des CMP choisies par les principaux médias en France Digital Ad Trust : quels sites ont été labellisés, pour quelles vagues et sur quel périmètre ?