Accueil > Médias & Audiovisuel > Benjamin Fabre (Datadome) : “Les robots représentent souvent plus de 50 % du trafic des sites médias” Benjamin Fabre (Datadome) : “Les robots représentent souvent plus de 50 % du trafic des sites médias” Datadome, spécialisée dans la lutte contre les robots malveillants et la cybersécurité des sites (scrapping, piratage de comptes, etc.), dont les outils sont utilisés par de nombreux éditeurs, a bouclé une levée de fonds de 42 millions d’euros en 2023. Benjamin Fabre, CEO et cofondateur de la société, analyse l’évolution du secteur, qui a vu apparaître les crawlers alimentant les modèles d’IA, et explique comment protéger les contenus des médias. Par Paul Roy. Publié le 19 janvier 2024 à 10h50 - Mis à jour le 24 janvier 2024 à 17h30 Ressources À quoi servent les solutions développées par Datadome ? Qui sont vos clients ? Aujourd’hui, environ 35 % de nos clients sont des médias, et le reste est concentré sur les sites de e-commerce et de petites annonces. Datadome protège les applications mobiles, les sites web, les API contre tout le trafic bot, d’abord contre les menaces purement liées à la cybersécurité comme la fraude au paiement, le piratage de compte, le credential stuffing (tentatives massives d’identification sur un site, ndlr) ou encore le “vulnerability scanning” (identification des faiblesses d’un site en vue de leur exploitation, ndlr). “Les outils de développement dans les médias vont progressivement se doter de fonctionnalités similaires à celles de ChatGPT” La deuxième partie de nos solutions se concentre sur la protection du contenu, historiquement celui des médias, qui souhaitent qu’il soit consulté exclusivement par des humains et pas par des robots qui chercheraient uniquement à l’aspirer ou le republier pour des enjeux SEO ou publicitaires. Cela se réplique également sur les sites e-commerce pour la protection de listes de produits, de prix, de stocks, afin que ces éléments ne soient pas utilisés dans un but de veille concurrentielle par d’autres sociétés concurrentes. Comment fonctionne concrètement la solution ? Lorsqu’une requête arrive sur un site média – celle d’un navigateur ou d’une application mobile sur une API – il y a un appel sur le CDN ou le serveur de nos clients, qui effectue ensuite un second appel à nos serveurs afin de nous assurer que la requête est légitime : est-ce qu’elle vient d’un vrai navigateur ? Est-ce que ce navigateur est utilisé par un être humain ou un robot qui automatise une séquence d’actions (faux scrolls, clics, déplacements de souris…) ? Nous collectons ces milliards de signaux pour faire du machine learning et déterminer s’il s’agit d’un robot – que nous bloquons instantanément – ou d’un humain. Comment évite-t-on les faux positifs ? Il y a différentes manières de mitiger ou tester une requête pour éviter les faux positifs. On peut déployer des “challengers” invisibles aux yeux de l’utilisateur (car exécutés en quelques dizaines de millisecondes), à savoir bloquer la requête et exécuter une “proof of work” (validant les signaux pour déterminer s’il s’agit d’un terminal réel par exemple, ndlr) côté navigateur. Si jamais un doute subsiste, nous utilisons un Captcha interne : l’utilisateur doit faire glisser une pièce de puzzle dans une autre, par exemple. Ce qui permet de vérifier son authenticité sans altérer son expérience. Les données issues de ce processus nous permettent ainsi de mettre à jour notre machine learning pour ne plus commettre d’erreur de jugement dans le futur, mais aussi traquer le taux de faux positif – essentiel quand on veut avoir le meilleur niveau de sécurité sans impacter l’utilisateur. Comment analysez-vous l’évolution de cette lutte contre les robots sur les dernières années ? C’est devenu une vraie guerre technologique, face à des attaquants, les scrappers, qui mobilisent de plus en plus de moyens. Il y a quelques années, les robots étaient assez simples, et pour lutter contre il suffisait de bloquer des IP très volumétriques en termes de nombre de requêtes, qui venaient souvent de data centers identifiés. Avec le temps, ils ont évolué, et sont distribués sur des centaines de milliers d’adresses IP, qui ne sont plus des IP de data centers, mais résidentielles, avec un identifiant lié à un opérateur télécom. IA générative : quels éditeurs français bloquent les robots d’OpenAI et Google, lesquels ont adopté le protocole TDMRep ? Au même moment, on peut donc avoir une IP qui est utilisée par un utilisateur légitime et par un robot. La détection du trafic illégitime ne se fait donc plus “IP-centric” comme c’était le cas il y a quelques années, mais par requête. Ce qui implique nécessairement de faire du machine learning at the edge (ou en périphérie, à savoir travailler sur les signaux envoyés par le terminal lui-même, ndlr) pour analyser chaque requête. Quelles sont les typologies de robots les plus représentées chez les éditeurs médias ? Chez les éditeurs médias on voit nécessairement beaucoup plus de robots que sur la moyenne des sites, car il y a une grande quantité de contenus à scrapper (les commentaires, les articles, le nom des journalistes), avec un bon nombre d’entreprises ayant fondé leur modèle économique sur leur exploitation. On enregistre donc souvent un volume de robots qui représente au-delà de 50 % du trafic sur le site. Il y a parmi ces derniers des robots légitimes (référencement, par exemple), mais une grande partie sont des scrappers, alimentant des LLM (large language model) mais aussi des bases de données (de journalistes, ou de thématiques et tendances les plus présentes dans les médias par exemple). Quelle a été la position de Datadome face aux robots crawlers des fournisseurs d’IA générative ? Nous avons une philosophie de blocage par défaut : tous les robots non-autorisés sur un site sont bloqués. Ce qui veut dire que lorsque les éditeurs de LLM ont commencé à scrapper le web, que ce soit via leurs robots ou ceux de prestataires, tous étaient bloqués. Cela nous a permis de protéger le contenu de nos clients avant même que ça ne devienne un sujet public. Lorsque ça l’est devenu, nous avons beaucoup échangé avec nos clients pour définir une politique d’autorisation partielle ou totale des robots de différentes sociétés de LLM en fonction de leurs objectifs économiques et stratégiques. Les robots utilisés par les technologies d’intelligence artificielle générative sont-ils plus difficiles à détecter et combattre ? Quelles sont vos relations avec les sociétés qui les utilisent ? Cette partie est effectivement plus complexe. Nous travaillons avant tout à identifier les principaux LLM sur le marché, et faisons du reverse engineering pour comprendre les principales technologies de collecte qu’ils utilisent. À titre d’exemple, OpenAI utilisait et rachetait les données fournies par la société OpenCrawler avant de créer son propre robot. Nous avons toujours bloqué le robot d’OpenCrawler par défaut car nous n’avions à l’époque pas pu avoir de garanties suffisantes quant à l’usage qui serait fait de la donnée. 20 exemples pour utiliser l’intelligence artificielle générative dans les médias Nous avons des échanges avec quelques-uns des acteurs (fournisseurs d’IA générative, base de données). Lorsqu’un nouveau robot arrive sur le site de nos clients, encore une fois, nous le bloquons par défaut et ensuite nous contactons la société éditrice pour obtenir davantage d’informations et permettre à nos clients d’éventuellement les autoriser sur leur site et orienter leur stratégie. Cela nous permet d’authentifier les robots avec plusieurs mécanismes pour ensuite les qualifier : est-ce qu’il s’agit d’un réseau social, quel est l’usage qui va être fait de la donnée, etc. Aujourd’hui, une grande partie des médias français signifient leur opt-out aux robots des fournisseurs d’IA générative (OpenAI, Google). Quels sont les moyens pour un éditeur de protéger son contenu dans ce nouveau contexte ? Le robots.txt est le point de départ, mais c’est un sujet qui se répète depuis les débuts d’internet : il fonctionne uniquement pour les robots bienveillants, ceux qui souhaitent respecter le robots.txt. Le cas d’OpenAI est intéressant, puisqu’ils ont décidé au départ de ne pas respecter robots.txt, puis ont fini par le faire lorsqu’ils se sont retrouvés sous pression. Ce fonctionnement permettra de légitimer les principaux acteurs qui veulent jouer le jeu, ce qui sera le cas des grandes entreprises américaines, mais il y aura toujours un tas d’acteurs qui ne le respecteront pas. AI Act : pourquoi la question des droits d’auteur a empoisonné les négociations Des modèles de seconde catégorie seront imbriqués dans des centaines d’outils, ce qui rendra de toute façon indispensable d’autres dispositifs de protection du contenu que robots.txt. Il est déjà difficile d’établir un lien entre la data et les modèles qui s’en sont nourris, ou entre les modèles et les outils qui les exploitent. Il deviendra donc très compliqué de déceler l’origine de chaque robot. D’où notre philosophie de bloquer tout ce que l’on n’autorise pas. Les médias français ont-ils des lacunes en matière de protection du contenu par rapport à d’autres secteurs ou zones géographiques ? Peuvent-ils s’inspirer d’autres secteurs ? Il y a nécessairement un enjeu financier, les solutions comme la nôtre ayant un certain coût, pas toujours compatible avec le revenu des médias. On voit malgré tout une sensibilisation croissante des entreprises à ces problématiques, avec une explosion de la demande des médias en France et en Europe, là où les Etats-Unis étaient historiquement plus protégés. Certains budgets se sont récemment débloqués pour nos solutions, et les nouveaux enjeux autour de l’IA ont participé à ce phénomène. Des acteurs comme TripAdvisor ou les réseaux sociaux, qui ont beaucoup de contenus générés par les utilisateurs, ont très tôt protégé leurs sites et peuvent servir d’exemple. Datadome a été créée en 2015 par Benjamin Fabre et Fabien Grenier, tous les deux fondateurs de la société Trendybuzz, rachetée par Linkfluence en 2014 pour 6,5 millions d’euros. La société se spécialise dans la protection des sites e-commerçants et médias via l’intelligence artificielle, et a levé 42 millions de dollars en mars 2023 pour asseoir son développement outre-atlantique. Paul Roy cybersécuritéFraudeIA générativeIntelligence artificielle Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire Analyses AI Act : pourquoi la question des droits d'auteur a empoisonné les négociations Une première piste pour déterminer si un texte a été utilisé pour l'entraînement d’une IA générative ? [Etude mind Media] IA générative : 10,4 % des principaux sites médias ont intégré le TDMRep Google confirme que Google extended ne fonctionne pas pour Search generative experience ChatGPT utilise désormais les nouveaux contenus publiés sur le web Plus d'une vingtaine d’éditeurs d’information français bloquent le robot crawler de ChatGPT ou Google sur leurs sites IA générative : Fox Corp. lance une blockchain pour protéger le droit d'auteur Le New York Times attaque en justice OpenAI et Microsoft Axel Springer noue un accord commercial avec OpenAI essentiels Nos synthèses et chiffres sur les principales thématiques du marché L’essentiel sur les identifiants publicitaires La transformation du marché publicitaire en 2024 2023 : le marché publicitaire doit se préparer à la fin du tracking utilisateur Comment l’intelligence artificielle générative bouleverse les médias Les enjeux réglementaires des médias en 2023 Intégrer la transition écologique dans les performances des médias et de la publicité Les enjeux réglementaires de la publicité en ligne en 2023 2023 : la transformation du marché publicitaire analyses Les articles d'approfondissement réalisés par la rédaction Adtech : ce qu’il faut comprendre du procès de Google aux Etats-Unis Recommandation, personnalisation des contenus, services technologiques… Cafeyn veut transformer son offre Le rapport des États généraux de l’information veut concilier économie des médias, indépendance et qualité de l’information Dmitry Shevelenko (Perplexity) : “Nous encourageons les éditeurs français à rejoindre notre programme de partenariats médias” ENQUÊTE - La régie publicitaire du Monde a réduit ses effectifs de 8 % INFO MIND MEDIA - Le CESP va lancer sa certification Retail Data Trust Agence79 officialise la consolidation du budget média numérique de Carrefour Publicis et Omnicom, champions de la croissance au premier semestre 2024 INFO MIND MEDIA - Une levée de fonds d’environ 750 000 euros en vue pour le nouveau média The Big Whale Google reconnu coupable de monopole dans la recherche en ligne : ce qu'il faut retenir data Les baromètres, panoramas et chiffres sur l'évolution du marché IA générative : quels éditeurs français bloquent les robots d’OpenAI et Google, lesquels ont adopté le protocole TDMRep ? Le panorama des sociétés spécialisées dans les technologies de l’e-retail media La liste des outils utilisés par les équipes éditoriales, marketing et techniques des éditeurs français Digital Ad Trust : quels sites ont été labellisés, pour quelles vagues et sur quel périmètre ? Panorama des offres AVOD alternatives Le détail des aides à la presse, année par année Ads.txt : la liste des relations établies entre les éditeurs français et les vendeurs et revendeurs programmatiques Les indicateurs financiers des grands groupes de communication Les levées de fonds des start-up des médias, du marketing et de la culture en France Les principales solutions de paywall dynamique