• Contenus gratuits
  • Notre offre
Menu
  • Ressources
    • Toutes les ressources
  • Infos
    • Toutes les infos
  • Essentiels
    • Tous les essentiels
  • Analyses
    • Toutes les analyses
  • Data
    • Data
  • Newsletters
  • Profil
    • Je teste 15 jours
    • Je me connecte
  • Profil
    • Mon profil
    • Je me déconnecte
CLOSE

Accueil > Adtechs & Martechs > On vous explique : comment fonctionne l’analyse sémantique pour le ciblage contextuel

On vous explique : comment fonctionne l’analyse sémantique pour le ciblage contextuel

Longtemps limité aux listes de mots-clés, le ciblage publicitaire contextuel repose de plus en plus sur l’analyse sémantique du contexte de diffusion grâce aux algorithmes de compréhension du langage naturel. mind Media a interrogé différents acteurs du marketing et des adtechs proposant des solutions de ciblage contextuel sémantique pour comprendre leur fonctionnement. 

Par Paul Roy. Publié le 17 décembre 2021 à 9h48 - Mis à jour le 11 janvier 2022 à 17h34
  • Ressources

Face à la raréfaction des inventaires avec consentement et reliés à un tracker publicitaire (cookies sur les navigateurs, IDFA sur mobile, etc.), une partie du marché de la publicité en ligne entend faire de l’analyse des données contextuelles un socle solide pour le ciblage publicitaire. Une étude de Teads auprès de son réseau d’éditeurs montrait ainsi que 27 % des éditeurs médias envisageaient dans l’immédiat renforcer l’exploitation des données contextuelles, autant que celle des données propriétaires (27 %) et plus que les identifiants unique (19%).

Jusqu’à récemment, la majorité des dispositifs de ciblage contextuel reposaient sur de l’inclusion ou de l’exclusion de mots-clés présents dans les URL et le contenu d’un article, ou le texte de présentation par exemple. Ce qui présentait alors plusieurs limites, comme l’expliquait Yann Le Roux, country manager France d’Integral Ad Science dans une tribune publiée dans mind Media : un mot peut être à la fois positif ou négatif selon le contexte dans lequel il est cité (Covid) ; on note l’existence de “faux négatifs” (explosion liée à un attentat, ou explosion de saveurs) ; et les listes de mots-clés ne sont pas dynamiques, lourdes à opérer, et doivent être actualisées en fonction de l’actualité et du contexte mondial. 

Comment Cofidis a expérimenté le ciblage publicitaire sans cookie avec Weborama

Afin de pallier ces écueils, depuis quelques années, les acteurs de la publicité en ligne (data provider, SSP, DSP, éditeurs…) mettent en avant des solutions d’analyse sémantique du contexte de diffusion. “Il faut distinguer le contextuel de site à site ; le contextuel par mot-clé, qui ne fait pas de nuance sur la tonalité ; et le ciblage contextuel sémantique, qui revient à comprendre le langage naturel sur une page, voire le sentiment sur le sujet”, nous expliquait Baptiste Berger, le directeur commercial de Mediasquare, en octobre 2020. 

Dans le dernier cas, les acteurs de la publicité en ligne revendiquent s’appuyer sur des algorithmes de Natural language processing (NLP), dont fait partie notamment le Natural language understanding (NLU), ou compréhension naturelle du langage, lesquels nécessitent plusieurs étapes de traitement pour fonctionner.

Accéder aux contenus “non-bruités”

Le premier défi est d’alimenter ces modèles avec une donnée de qualité, aussi bien pour les entraîner que pour catégoriser efficacement les contenus. Pour la récupération du texte des pages du site de l’éditeur, les différents acteurs interrogés indiquent utiliser des web crawlers qui lisent une partie du code des pages non connues. Si cette solution technique est en soi peu complexe, plusieurs défis sont à relever. 

Ces robots doivent avant tout être en mesure de ne pas prendre en compte le “bruit” autour du texte à récupérer dans le code html une fois l’URL de la page appelé : fenêtre de consentement, articles recommandés (Outbrain, Taboola, etc.), autres formats publicitaires, etc. Selon Benoît Oberlé, CEO du fournisseurs de données Sirdata, deux stratégies sont envisageables : capter l’ensemble du contenu en exécutant le code javascript pour le ”nettoyer” dans un second temps, ou alors – la démarche la plus répandue – définir en amont les éléments que l’on désire récupérer dans le code html (bloc de l’article, image, etc.).

Pour cela, les acteurs adtechs s’appuient sur des bibliothèque déjà existantes – à l’image de Justext, utilisé par Weborama – ou développent leurs solutions en interne. Cette étape peut s’avérer périlleuse et demander des ajustements réguliers pour certains types de contenus. “Les petites annonces contiennent très peu de texte et tout se situe dans l’image, ce qui peut être une vraie complication étant donné le nombre d’URL à traiter, pour un revenu potentiel faible”, rapporte Arnaud Glaizal, head of product de Smart (SSP, DSP, ad server). 

Après cookie : qui sont les acteurs positionnés sur le ciblage contextuel ?

Mais avant de le capter, le robot doit être autorisé à accéder au contenu de la page. Les éditeurs mettent en effet en place des systèmes de protection de leurs sites : via un fichier Robot.txt, qui définit les zones de contenu exploitables par un acteur ; le recours aux services d’une société externe comme le spécialiste de la cybersécurité DataDome ; mais aussi l’intégration de scripts sur la page, qui empêchent d’accéder à certains contenus (zones loguées par exemple). 

Cela demande généralement un travail de communication auprès des éditeurs des sites et leurs régies pour que les robots passent en liste blanche, lorsque les acteurs n’ont pas de relations directes avec eux, rappelle Benoît Oberlé (Sirdata). “Les routines antibots sont installées par les éditeurs, d’abord pour se protéger du pillage de contenu. Généralement, un éditeur a intérêt à accepter les robots liés au ciblage contextuel car son contexte ne peut pas être vendu sur un autre site et qu’il n’a rien à y perdre”, explique-t-il. Selon lui, la réelle difficulté à faire comprendre ce point aux éditeurs intervient lorsqu’un contrat est signé avec une régie externe opérant de nombreux sites.

Vectoriser pour structurer la donnée

Un ordinateur n’étant pas en capacité de lire et interpréter des mots ni des suites de lettres complexes, leur transformation en une combinaison de chiffres afin qu’ils deviennent exploitables est essentielle. Les modèles s’appuient sur une logique de vectorisation du texte, démocratisée il y a quelques années par des modèles open-source comme word2vec, utilisé par Weborama. 

“Les termes sont transformés en une suite de coordonnées dans un espace mathématique avec environ 300 dimensions, qui est censé montrer que le sens de deux termes est proche si les deux points correspondants le sont dans cet espace”, schématise Hugues de Mazancourt, spécialiste du NLP et président de l’APIL, l’ssociation des professionnels des industries de la langue. 

Pour cette étape, les sociétés adtechs utilisent, pour beaucoup d’entre elles, des modèles disponibles en open source, à l’instar de MUSE (Multilingual unsupervised and supervised embeddings) – utilisé par Smart -, BERT de Google (et ses déclinaison dans d’autres langages comme AraBERT pour l’arabe ou CamemBERT pour le français) – utilisé par la société spécialisée dans la publicité contextuelle Bliink. Cela leur permet de s’affranchir d’une tâche fastidieuse, très demandeuse en ressources techniques et humaines, pour se concentrer sur leurs domaines d’expertise.

“Nous avions besoin d’une solution simple et solide pour démarrer (BERT est déjà pré-entraîné sur une large partie du web, ndlr), dans la mesure ou le NLP n’était pas notre cœur de métier originel, et nous sommes tout à fait pour l’utilisation d’outils existants performants dans certains cas”, souligne Samuel Kerboeuf, CTO de Bliink. 

la tribune de Laurent Nicolas (Implcit) : “Les achats contextuels par panels permettent une publicité ciblée respectueuse de la vie privée”

D’autres sociétés, comme Sirdata ou Qwarry, revendiquent leurs propres modèles de vectorisation, construits en interne, sur des corpus de données plus restreints. “Il est souvent très cher d’entraîner des modèles comme BERT, pour un résultat soit trop précis, soit trop confus pour notre finalité. Nous avons décidé de tout faire nous-mêmes, ce qui prend certes énormément de temps, notamment pour labelliser les URL en amont”, rapporte Julie Walther, COO et cofondatrice de Qwarry. 

Un coût que Samuel Kerboeuf (Bliink) tend à relativiser, BERT étant ré-entraîné avec le contenu de moins de 100 000 URL à chaque fois (pour un total de 11 millions depuis le début). “Au total, nos frais de serveur pour l’ensemble de notre activité (pas seulement le ciblage sémantique), sont de 2 à 3 % de notre chiffre d’affaires, ce qui est relativement faible”, constate-t-il. Il indique néanmoins que Bliink passera à son propre modèle sous peu, BERT étant surdimensionné pour les besoins de la société. 

Dans le cas de Smart, le choix du modèle s’est porté sur MUSE pour des questions de performance plus que de coût, l’une de ses caractéristiques – essentielle pour un acteur international – étant notamment sa disponibilité en 16 langues par défaut. “D’autres modèles peuvent induire un biais lorsque certaines langues sont utilisées. Avec MUSE, le vecteur d’une phrase ou d’une expression sont de la même qualité quel que soit le langage”, indique Arnaud Glaizal, head of product senior de Smart. 

Les différentes sociétés interrogées concèdent que le choix du modèle dépend beaucoup de ce qui faisait office de référence au moment où a été lancée leur offre de ciblage contextuel sémantique (au début des années 2010 pour Weborama et en 2019 pour Smart).

Le défi de la catégorisation du contenu pour son activation 

L’enjeu est ensuite de catégoriser au mieux le contenu dans des catégories activables par les acheteurs en entraînant des modèles d’apprentissage automatique. Ce qui permet en plus de gommer les biais liés au fait que les modèles de vectorisation sont pré-entraînés sur des jeux de données qui ressemblent peu aux contenus d’informations. “Nous entraînons des modèles de similarité. Pour chaque catégorie sémantique, nous avons développé un modèle de machine learning qui permet de déterminer quels vecteurs et in fine quels types de contenus y sont associés”, explique Arnaud Glaizal (Smart).  

À titre d’exemple, Qwarry, pour chaque nouvelle catégorie créée, entraîne son modèle avec quelques milliers de pages en lien avec le sujet (le football, par exemple) labellisées en amont et provenant de 50 sites minimum. “Nous testons ensuite le modèle avec de nouvelles pages. Lorsqu’il arrive à 90 % de précision sur l’attribution d’un contenu à la catégorie, nous la rendons disponible”, détaille Geoffrey Berthon, CEO de Qwarry. Un scoring est ensuite attribué à chaque contenu en fonction de sa pertinence avec une catégorie. 

la tribune de Yann Le Roux (Integral Ad Science) : “Le ciblage contextuel permet aux acteurs de la publicité d’éviter les blocages excessifs de sites par les mots-clés”

Dans un premier temps, les acteurs se reposent sur de l’attribution de contenus aux catégories définies par l’IAB (voir la liste), notamment pour que les segments soient réutilisables en open auction. Le dispositif se complexifie lorsqu’il s’agit de relier des contenus à un segment personnalisé pour une campagne en particulier. 

Pour Arnaud Glaizal (Smart), l’obstacle principal à la construction de segments personnalisés reste la compréhension automatique de l’intention de l’acheteur. “Nous entraînons nos algorithmes à reconnaître l’intention de l’acheteur pour la traduire en segment personnalisé. Aujourd’hui, nous avons une approche algorithmique et humaine (des équipes qui recueillent le besoin de l’acheteur), mais nous n’avons pas encore passé le cap pour avoir une plateforme entièrement self-service”, explique-t-il. 

​​Weborama se repositionne sur la publicité contextuelle avec son outil GoldenFish

Plus globalement, la difficulté réside aussi dans le fait que les acheteurs médias suivent encore beaucoup une logique par mots-clés. “Nous devons leur faire comprendre que le ciblage contextuel sémantique peut être fait sur n’importe quel type de contenus, et pas seulement sur L’Équipe avec des contenus auto ou moto pour cibler les hommes de 35 ans par exemple”, souligne Arnaud Glaizal.

Le but est alors de pouvoir faire des recommandations sémantiques en fonction de termes ciblés par un acheteur, comme le propose Weborama dans son outil Goldenfish. “Si un acheteur obtient un nombre de pages à cibler très faible à cause d’un paramétrage sémantique trop fin, nous pouvons lui recommander des contextes proches. Il s’agit là d’avoir un compromis entre volume et précision”, illustre Mohamed Ibn Alkadi, head of product de Weborama. Car si l’avantage de l’analyse sémantique des contenus dans une ère post-cookies tiers est identifié par les éditeurs, encore reste-t-il à rendre ces données activables sur des inventaires larges, et sur lesquels la performance est mesurable pour convaincre les acheteurs.

Le CESP veut mettre la lumière sur les algorithmes utilisés pour le ciblage contextuel

Depuis quelques années, le Centre d’étude des supports de publicité (CESP) a entamé une démarche d’audit des solutions adtech et martech, notamment sur les technologies de drive-to-store. 

En mars 2021, la société spécialisée dans le ciblage contextuel sémantique Qwarry a choisi l’organisme pour procéder à un audit de sa solution qui se décompose en deux phases : l’analyse du fonctionnement de l’ensemble du dispositif, puis son test technique en utilisant différentes données d’entrée. “Il s’agit d’analyser la façon dont les modèles se comportent en sortie, et de vérifier les indicateurs de performance, afin de déterminer si la promesse faite au moment du recours à ce type de solution est tenue”, explique Olivier Hays, directeur data science du CESP, précisant notamment qu’un expert interne en NLP est en mesure de déterminer si les algorithmes utilisés sont à jour par rapport au niveau de recherche sur le sujet. Qwarry finance l’audit, dont le résultat sera publié en 2022.

Selon Olivier Hays, cet audit s’inscrit davantage dans une logique de compréhension de ces solutions nouvelles pour le marché afin de rassurer les acheteurs que pour remédier à un manque de transparence. Le CESP indique être en discussion avec d’autres acteurs du ciblage contextuel sémantique pour auditer leurs solutions.

Paul Roy
  • Adtech
  • Algorithmes
  • Ciblage contextuel
  • Cookies
  • Données personnelles

Besoin d’informations complémentaires ?

Contactez Mind Research

le service d’études à la demande de mind

À lire

Brand safety : DoubleVerify complète son offre en acquérant une solution de ciblage contextuel

Dossiers

Martech : comment les marques peuvent accélérer sur la collecte et l'usage de données propriétaires

Tribunes gratuit

"Les achats contextuels par panels permettent une publicité ciblée respectueuse de la vie privée"

Tribunes gratuit

"Le ciblage contextuel permet aux acteurs de la publicité d’éviter les blocages excessifs de sites par les mots-clés"

Publicité contextuelle : Seedtag lève 34 millions d’euros pour se développer aux États-Unis

Magnite rachète SpringServe, un adserver pour la TV connectée, pour 31 millions de dollars

Entretiens

Thomas Allemand (Jellyfish) : "Le plus grand défi pour cibler efficacement sans cookie tiers sera de savoir mesurer en quasi temps réel l'impact business des campagnes"

Etude : les éditeurs médias privilégient les données propriétaires et contextuelles comme alternatives aux cookies tiers

essentiels

Nos synthèses et chiffres sur les principales thématiques du marché

Les mutations du search à l'ère de l'IA générative

L'application inaboutie de la loi sur les droits voisins

Google vs DOJ : tout ce qu'il faut savoir sur le procès qui pourrait redéfinir l'adtech

L’essentiel sur les identifiants publicitaires 

La transformation du marché publicitaire en 2024

2023 : le marché publicitaire doit se préparer à la fin du tracking utilisateur

Comment l’intelligence artificielle générative bouleverse les médias

Les enjeux réglementaires des médias en 2023

analyses

Les articles d'approfondissement réalisés par la rédaction

Adtech : pourquoi la Commission européenne sanctionne Google de près de 3 milliards d’euros 

Retail media : une consolidation indispensable des régies pour répondre aux attentes des acheteurs publicitaires 

IA et monétisation des contenus : comment l’IAB Tech Lab veut contrôler les robots crawlers 

Droits voisins : l’Apig veut introduire une plainte contre Meta devant l'Autorité de la concurrence 

Paul Boulangé (Starcom France) : "Nous sommes en train de déployer Captiv8 en France, notre solution d'automatisation du marketing d'influence"

Claire Léost devient DG de CMA Média, WPP Media promeut Stéphanie Robelus…

Comment les SSP généralistes investissent le secteur du retail media

Bénédicte Wautelet (Le Figaro) : “Toute solution qui utilise de l’IA en rapport avec nos contenus doit y être autorisée et nous rémunérer”

Aides à la presse : combien les éditeurs ont-ils perçu en 2024 ? 

Le New York Times affiche toujours une croissance très robuste portée par le numérique 

data

Les baromètres, panoramas et chiffres sur l'évolution du marché

Le classement des éditeurs français qui ont le plus d'abonnés purs numériques

Les données récoltées par les acteurs de la publicité en ligne

La liste des sociétés présentes dans les fichiers ads.txt des éditeurs français

Les gains de budget des agences médias

Opt-out : quels éditeurs français interdisent les robots crawlers de l'IA générative ?

Le panorama des sociétés spécialisées dans les technologies de l’e-retail media

La liste des outils utilisés par les équipes éditoriales, marketing et techniques des éditeurs français

Le détail des aides à la presse, année par année

La liste des CMP choisies par les principaux médias en France

Digital Ad Trust : quels sites ont été labellisés, pour quelles vagues et sur quel périmètre ?

Découvrez nos contenus gratuitement et sans engagement pendant 15 jours J'en profite
  • Le groupe mind
  • Nos activités
  • Notre histoire
  • Notre équipe
  • Nos clients
  • Nos services
  • mind Media
  • mind Fintech
  • mind Health
  • mind Rh
  • mind Retail
  • mind Research
  • Les clubs
  • mind et vous
  • Présentation
  • Nous contacter
  • Vous abonner
  • A savoir
  • Mentions légales
  • CGU
  • CGV
  • CGV publicité
  • Politique des cookies
Tous droits réservés - Frontline MEDIA 2025
Social Media Auto Publish Powered By : XYZScripts.com
  • Twitter
  • LinkedIn
  • Email