Accueil > Adtechs & Martechs > Privacy Sandbox : la catégorisation des sites dans Topics interroge toujours Privacy Sandbox : la catégorisation des sites dans Topics interroge toujours mind Media a testé les URL de près de 400 sites pour voir à quelles thématiques de Topics ils ont été associés. Comme le laissaient penser les tests des acteurs de l’industrie, la catégorisation est pour le moment très générique, parfois inexacte, et laisse peu d’opportunités pour les éditeurs de se différencier. Par Aymeric Marolleau et Paul Roy. Publié le 15 septembre 2023 à 20h19 - Mis à jour le 21 septembre 2023 à 18h38 Ressources Fin juillet, après une longue série d’allers-retours entre acteurs du marché et Google, et malgré des doutés latents sur la fiabilité de certaines API, Google a confirmé le déploiement de Privacy Sandbox dans Chrome. Parmi les solutions centrales, le dispositif alternatif au ciblage avec cookies tiers, Topics, dévoilé en janvier 2022 en réponse aux critiques de l’industrie publicitaire sur FloC (faible lisibilité, risque de fingerprinting, problème de précision, etc.), qui se basait sur 33 000 cohortes de centres d’intérêt. Comment fonctionne l’API Topics ? En juillet 2023, Google a déployé les API de Privacy Sandbox auprès de l’ensemble des utilisateurs de son navigateur Chrome, dont Topics, son alternative aux cookies tiers grâce au ciblage publicitaire par centre d’intérêts. Google a établi une taxonomie de 469 thématiques représentatives des intérêts des internautes, et associe les domaines des sites à une ou plusieurs d’entre elles, grâce à un modèle de classification (machine learning), le classifier. Cette classification ne s’appuie pas sur l’URL ou le contenu de la page car selon Google, bien que cela permettrait “des publicités plus pertinentes, cela pourrait aussi réduire la protection de la vie privée”. Le groupe a également rappelé que la taxonomie est provisoire et comprendra, dans le futur, entre plusieurs centaines et plusieurs milliers de catégories. Le 15 juin 2023, le groupe a d’ailleurs annoncé une nouvelle taxonomie comprenant 469 thématiques. Le programme Privacy Sandbox avance : Google a activé ses API dans Chrome Concrètement, pour le ciblage, lorsque l’utilisateur visite un site, les thèmes sont transmis à l’éditeur et à l’annonceur par l’API. Ceux-ci sont enregistrés sur le terminal de l’utilisateur à raison d’un par semaine – choisi aléatoirement parmi les cinq thématiques les plus consultées pour chacune de ces périodes – sur les trois dernières semaines de navigation (voir la fiche explicative de Google). Cela signifie que les catégories dans lesquelles sont catégorisés les sites seront déterminants pour la capacité des éditeurs à attirer les budgets des annonceurs qui utilisent Privacy Sandbox. Mise à jour et éléments du contexte du 21 septembre 2023 : Il est important de noter que Topics est une API qui doit être utilisée en complément d’autres dispositifs par les éditeurs (signaux contextuels, first party data…) et qu’elle est complémentaire de l’ensemble des API de Privacy Sandbox. Contrairement à ce que nous écrivions dans la méthodologie publiée le 20 septembre, notre test s’est appuyé sur la première version de la taxonomie des catégories, et non sur la deuxième version. Pour rappel, Google a étoffé sa taxonomie : 280 catégories ont été ajoutées comme “Athletic Apparel” et 160 retirées, telles que “Equestrian”, comme nous l’avions expliqué dans notre article. Celle-ci est soumise à retour du marché et sera disponible pour test plus tard dans l’année, et on peut donc s’attendre à une catégorisation plus fine et en phase avec les attentes du marché publicitaire. La deuxième partie de l’article a été modifiée en reprécisant ces points. Enfin, une mauvaise catégorisation d’un site n’influence pas nécessairement la publicité montrée à l’utilisateur, les Topics associés à l’utilisateur n’étant pas déterminés en temps réel à partir du site qu’il visite, mais de son historique de navigation. La catégorie /Arts & Entertainment est attribuée à 75,3 % des sites médias Il est donc désormais possible de consulter les catégories associées à chaque domaine. C’est ce que mind Media a fait, vendredi 8 septembre, afin d’identifier les catégories associées le plus couramment aux sites d’information en ligne. Plus précisément, nous avons étudié les “topics”, ou thématiques, de 377 sites appartenant à 160 éditeurs de la presse écrite et en ligne et de l’audiovisuel. Ils relèvent de 14 familles différentes : Presse professionnelle, Magazine & Hebdo, Pure player, PQN, PQR, TV, Radio, Jeunesse, PHR, Presse TV, Podcast, Santé, Sport et Newsletter. Le modèle de Google leur a attribué à chacun cinq domaines, pour un total de 127 topics différents. La catégorie /Arts & Entertainment a été attribuée à 284 sites, soit 75,3 % d’entre eux, devant les catégories /News, (71,9 %) et Unknown (29,7 %). Une catégorisation jugée trop générique Ces données corroborent donc une première critique émise dès 2022 par l’industrie publicitaire, notamment après les tests de Criteo, Xandr et plus tard Google Ads : les catégories associées à certains éditeurs, notamment ceux traitant un grand nombre de thématiques, comme les médias d’information, et aux plateformes (Facebook, YouTube…), sont trop génériques. Privacy Sandbox : ce que nous apprennent les tests de Fledge et Topics En juin 2023, pour y remédier, Google a étoffé sa taxonomie : 280 catégories ont été ajoutées et 160 retirées. Le script mis à disposition par Google ne permet pas encore de tester la nouvelle taxonomie. La sous-régie publicitaire The Moneytizer, qui mène des tests depuis cinq mois sur les 7 000 sites de son réseau d’éditeur – le dernier ayant été réalisé fin juillet -, n’a pas remarqué de changements significatifs des catégories attribuées. “Pour le moment, on a l’impression que le Classifier de Chrome ne revient plus sur le site une fois qu’il a été catégorisé. Il n’essaie pas d’affiner et d’associer plusieurs catégories plus fines à un site”, constate Laurent Vaudoré, CTO de la société. En effet, selon les résultats qui ont pu être consultés par mind Media, si le nombre de Topics attribués aux sites a varié, la répartition est globalement restée la même avec plus de la moitié des Topics attribués concernant les catégories Art & entertainment et News. Privacy sandbox : Google confirme le remplacement de FLoC par Topics La division publicitaire de Google avait d’ailleurs à ce sujet formulé des recommandations dans les résultats de ses tests – déjà évoquées précédemment par Criteo et Xandr : utiliser une URL entière plutôt qu’un nom de domaine pour une catégorisation plus fine dans les Topics et proposer une taxonomie plus granulaire et plus précise. Des thématiques attribuées pas toujours pertinentes Nous avons observé ces résultats en détail pour estimer la pertinence des catégories attribuées à chaque site. Ainsi, le modèle de Google a correctement attribué le sujet “Actualité” à tous les titres de PQN sauf Libération (voir graphique). Un premier test, conduit en juillet, avait soulevé la même limite. Si L’Équipe est correctement associé aux thématiques Sports et Soccer, 20 Minutes est curieusement catégorisée comme “galerie d’images en ligne”. Autre exemple, la catégorie “Actualité locale” n’a été attribuée qu’à 78 % des 77 titres de PQR de notre panel. Parmi les 17 autres figurent La Montagne, Le Progrès ou encore Var Matin. Dans un précédent test, Le Parisien avait également été mal catégorisé. L’API Topics a attribué la sous-catégorie /Arts & Entertainment/Online Video à 13 sites de télévision parmi les 20 du panel, soit 65 % d’entre eux. Voici les sept qui n’ont pas reçu cette catégorie : Euronews, CNews, RMC Découverte, LCI, My TF1, BFM Lyon, BFM Grand Lille. Un précédent test, en juillet, avait donné les mêmes résultats. L’analyse sémantique pour tirer parti des Topics ? L’API ne se basant ni sur l’URL, ni sur le texte de la page visitée, la possibilité pour les éditeurs d’influencer leur catégorisation est quasi nulle. “Sans aller jusqu’à l’analyse de l’URL et du contenu de chaque page, il serait intéressant que l’analyse se fonde au moins sur la catégorie”, regrette Margarita Zlatkova, head of programmatic advertising de Weborama. Une option est éventuellement de bloquer l’API pour envoyer un signal à Google, mais en prenant le risque de se priver d’une partie des investissements publicitaires. Pour elle, côté annonceurs, l’option est de combiner l’usage des Topics à de l’analyse sémantique, une piste d’ailleurs évoquée par Google. Cela peut passer par de la transformation de Topics en segments contextuels. “Nous récupérons les Topics que l’annonceur souhaite cibler, identifions les URLs des pages qui font partie de ces Topics. Le contexte de ces pages est ensuite analysé par notre IA sémantique. Nous créons ensuite des look-a-like URL de ces pages et nous enrichissons les champs sémantiques identifiés via notre moteur de recommandation pour ensuite créer des segments activables par les annonceurs”, explique Margarita Zlatkova (Weborama). Ou par de l’enrichissement des Topics avec l’analyse sémantique, en reprenant le même procédé, mais cette fois en identifiant dans quels Topics sont catégorisées les URL analysés pour ensuite créer des segments de Topics enrichis (plus de Topics que déterminés au départ par l’annonceur). À l’annonce du déploiement des API de Privacy Sandbox dans Chrome, Google avait annoncé qu’il n’y aurait plus de changement majeur dans les API, dont Topics. “Nous sommes confiants en ce qui concerne le cœur des API. Cela ne signifie pas que nous n’allons plus itérer sur la base des retours des tests des acteurs de l’écosystème. Nous continuerons à les prendre en compte, mais il s’agira plus d’une question d’évolution que de changement”, avait expliqué Hanne Tuomisto-Inch, director privacy & Chrome partnerships EMEA de Google à mind Media. Reste que les acteurs du marché programmatique, si ils sont moins critiques quant à la volonté de Google d’échanger avec eux, restent inquiets et dubitatifs concernant le fonctionnement d’une API répondant pourtant à un cas d’usage central. Quel score de confiance ? Le modèle de classification de Google a attribué un score de confiance, compris entre 0 et 1, à chacune des cinq catégories qu’il a attribuées aux domaines de notre panel. Le score moyen est de 0,24, et 50 % des scores sont inférieurs à 0,12. Cela montre que le modèle n’a qu’une confiance modérée dans les catégories qu’il a attribué aux domaines testés. Dans le détail, la catégorie /News a par exemple un score de confiance moyen de 0,42, News/Local News de 0,34. /Arts & Entertainment/Music & Audio est à 0,41, /Arts & Entertainment/Online Video à 0,12. Les 20 sites qui ont le score moyen de leurs cinq catégories le plus élevé – de 0,46 pour Vogue à 0,72 pour PhonAndroid – sont généralement très spécialisés. Il y a là plusieurs sites Tech – Zdnet.fr, macg.co, begeek.fr, tomshardware.fr, presse-citron.net… – ou sportifs – football.fr, football365.fr, footmercato.net, francefootball.fr, sofoot.com, rugbyrama.fr… Cette catégorisation plus fine est essentiellement liée à la présence d’un mot clé dans le nom de domaine permettant très facilement de l’associer à une thématique. A l’inverse, parmi les domaines qui ont le score moyen le plus faible figurent par exemple le site de prospective Usbek et Rica (0,07), celui des professionnels de l’agriculture Réussir (0,07), le site de parentalité Familiscope (0,08) et l’hebdomadaire chrétien La Vie (0,09). Les scores attribués les plus élevés, visibles dans le tableau ci-dessous, sont généralement pertinents. Une exception notable : le mensuel féminin Causette, associé avec beaucoup de certitude aux catégories /Sports/Soccer et /Sports, en plus de /News, /Arts & Entertainment et /Sports/Hockey. Méthodologie Google a mis à disposition un script qui permet à chacun de tester le modèle de classification de l’API Topics. Par défaut, ce script s’appuie sur la première version de la taxonomie de catégories établie par Google, bien que l’entreprise américaine en ait depuis proposé une deuxième version. En attendant que ce script s’appuie sur cette nouvelle version, notre test s’est donc appuyé sur la première taxonomie, contrairement à ce que notre méthodologie indiquait initialement. Au fil des années, nous avons constitué une liste de 377 URL appartenant à 160 des plus grands éditeurs français, que nous avons qualifiées de façon à préciser leur marque, leur éditeur ou encore leur famille (PQN, PQR, magazine & hebdo, TV, radio, etc.). Finalement, nous avons appliqué le modèle de classification de l’API Topics sur cette liste d’URL. Aymeric Marolleau et Paul Roy AdtechCiblage publicitaireCookiesDonnées personnellesGoogleGoogle ChromeMarché publicitaire 2023Publicité programmatique Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire Analyses Le programme Privacy Sandbox avance : Google a activé ses API dans Chrome Privacy Sandbox : Google confirme le déploiement de ses API dès juillet 2023 Analyses Privacy Sandbox : les tests de Google sur le ciblage soulèvent encore des questions Google prend des mesures supplémentaires contre le fingerprinting Google lance la version bêta de Privacy Sandbox sur Android Analyses Comment les professionnels analysent l'évolution de la publicité programmatique Privacy Sandbox : le W3C rejette Topics, la proposition de Google pour le ciblage post-cookies tiers Analyses Dossiers Privacy Sandbox : ce que nous apprennent les tests de Fledge et Topics Seller Defined Audiences est encore en phase d’observation en France Dossiers RGPD : quelles CMP étaient certifiées par l’IAB Europe à l’été 2022 ? Analyses Entretiens Sylvain Le Borgne (MediaMath) : "Les marketplaces représenteront rapidement 50 % des investissements sur notre plateforme" Google intègre le dispositif post-cookies tiers de l’IAB Tech Lab, Sellers defined audiences Privacy Sandbox : Google revendique une vingtaine de partenaires de tests pour ses API essentiels Nos synthèses et chiffres sur les principales thématiques du marché Les mutations du search à l'ère de l'IA générative L'application inaboutie de la loi sur les droits voisins Google vs DOJ : tout ce qu'il faut savoir sur le procès qui pourrait redéfinir l'adtech L’essentiel sur les identifiants publicitaires La transformation du marché publicitaire en 2024 2023 : le marché publicitaire doit se préparer à la fin du tracking utilisateur Comment l’intelligence artificielle générative bouleverse les médias Les enjeux réglementaires des médias en 2023 analyses Les articles d'approfondissement réalisés par la rédaction Adtech : pourquoi la Commission européenne sanctionne Google de près de 3 milliards d’euros Retail media : une consolidation indispensable des régies pour répondre aux attentes des acheteurs publicitaires IA et monétisation des contenus : comment l’IAB Tech Lab veut contrôler les robots crawlers Droits voisins : l’Apig veut introduire une plainte contre Meta devant l'Autorité de la concurrence Paul Boulangé (Starcom France) : "Nous sommes en train de déployer Captiv8 en France, notre solution d'automatisation du marketing d'influence" Claire Léost devient DG de CMA Média, WPP Media promeut Stéphanie Robelus… Comment les SSP généralistes investissent le secteur du retail media Bénédicte Wautelet (Le Figaro) : “Toute solution qui utilise de l’IA en rapport avec nos contenus doit y être autorisée et nous rémunérer” Aides à la presse : combien les éditeurs ont-ils perçu en 2024 ? Le New York Times affiche toujours une croissance très robuste portée par le numérique data Les baromètres, panoramas et chiffres sur l'évolution du marché Le classement des éditeurs français qui ont le plus d'abonnés purs numériques Les données récoltées par les acteurs de la publicité en ligne La liste des sociétés présentes dans les fichiers ads.txt des éditeurs français Les gains de budget des agences médias Opt-out : quels éditeurs français interdisent les robots crawlers de l'IA générative ? Le panorama des sociétés spécialisées dans les technologies de l’e-retail media La liste des outils utilisés par les équipes éditoriales, marketing et techniques des éditeurs français Le détail des aides à la presse, année par année La liste des CMP choisies par les principaux médias en France Digital Ad Trust : quels sites ont été labellisés, pour quelles vagues et sur quel périmètre ?