Accueil > Adtechs & Martechs > Comment nous avons analysé les technologies installées dans les environnements numériques des éditeurs français Comment nous avons analysé les technologies installées dans les environnements numériques des éditeurs français Pour connaître les outils privilégiés par les éditeurs en matière d’analytics, d’advérification et d’attribution, nous avons analysé la structure technologique de leurs environnements numériques. Nous nous sommes pour cela appuyés sur quelques référentiels propriétaires, deux plateformes - Wappalyzer et Exodus - et deux scripts. Par Aymeric Marolleau. Publié le 18 octobre 2024 à 10h08 - Mis à jour le 08 novembre 2024 à 15h45 Ressources Série Première partie : sur le web desktop et mobile Deuxième partie : dans les applications Android Méthodologie et coulisses L’intérêt de mind Media pour les technologies installées dans les environnements numériques des éditeurs français est ancien. Dès 2018, et de nouveau en 2019, nous avons eu recours à la plateforme ouverte Exodus pour observer les SDK présents dans une quarantaine d’applications médias. En 2020 et 2021, grâce à un partenariat avec la plateforme 42matters, nous avions pu prolonger ce travail et l’étendre à certains SDK non surveillés par Exodus (voir plus loin). Nous avions aussi publié une analyse des technologies identifiées dans les applications bancaires pour mind Fintech, une autre publication du Groupe mind. Lors de ces précédentes études, nous avions essayé de donner une vision aussi exhaustive que possible des finalités poursuivies par les SDK (publicité, engagement, CMP, etc.). Cette année, nous nous sommes concentrés sur les technologies dédiées à la mesure : analytics, advérification et attribution. Nous avons choisi de ne pas intégrer les outils d’AB Testing car la mesure n’est qu’une brique de leur offre de valeur, et parce que les résultats de tests sont mesurés par des outils tiers. Nous avons aussi étendu l’analyse non seulement à l’environnement applicatif, mais aussi, pour la première fois, au web desktop et mobile. Au cours de ces dernières années, nous avons créé et enrichi deux référentiels qui nous ont été précieux pour cette étude, comme pour de nombreuses autres que nous menons : Celui des sites médias français, où sont recensées plus d’un millier de marques avec pour chacune le nom de leur éditeur, la famille de presse à laquelle elles appartiennent (PQN, PQR, magazines et hebdos, etc.), leur URL évidemment ou encore l’identifiant de leur application Android. Celui des services adtech et martech, avec le nom de leur société, celui de leur groupe, leur nationalité, et de plusieurs identifiants vers d’autres listes publiques ou qui nous sont propres comme celle des SDK, des prestataires de la Global Vendor List ou encore des CMP autorisées par l’IAB Europe. Quels sont les principaux enseignements ? Il ressort notamment de l’étude que nous venons de publier que la quasi-totalité des sites et des applications de nos panels ont au moins un outil dédié à l’analytics, ce qui en fait la catégorie la plus représentée, devant la publicité, l’engagement ou encore les CMP. Les outils d’advérification et d’attribution sont plus rares. Au total, nous avons identifié 36 services dédiés à la mesure sur les sites et 32 dans les applications mobiles. Dans les deux environnements, ceux de Google et d’AT Internet sont les plus fréquents. Sites web desktop et mobile Qu’est-ce que Wappalyzer et comment fonctionne-t-il ? Nous nous sommes appuyés, pour mener la partie de notre étude dédiée au web, sur la plateforme Wappalyzer, qui a été fondée en 2008 en Australie par Elbert Alias. Elle s’appuie sur une base de données de modèles de détection des technologies les plus courantes, qu’elle recherche notamment dans le code HTML, les scripts JavaScript, les cookies ou encore les requêtes réseaux des sites visités par les internautes qui ont installé son plugin pour navigateur. Quelles sont les limites ? Cette méthode implique que Wappalyzer ne peut identifier que les outils qu’il a appris à reconnaître. Interrogé par mind Media, Elbert Alias précise : “Nous surveillons les technologies les plus populaires, mais pas toutes. Intégrer de nouvelles technologies à nos systèmes de suivi demande un effort et nous en ajoutons chaque jour. Les chiffres d’utilisation que vous observez sur les sites sont fondés sur notre base de 2,5 millions d’utilisateurs actifs et sur les sites web qu’ils visitent, ce qui constitue un échantillon suffisamment large pour être représentatif de l’utilisation globale, mais qui n’est pas complet à 100 %.” En outre, ce n’est pas parce qu’une technologie a été identifiée sur un site qu’un éditeur l’utilise activement. Des faux-positifs sont possibles. Cela peut être dû au fait que son code n’a pas été retiré après la fin d’un test ou d’une collaboration, ou bien parce que, pour améliorer l’efficacité d’un site, les développeurs installent des fichiers qui intègrent plusieurs technologies, sans les utiliser toutes. Compte tenu de ces limites, nous ne publions que des données agrégées, plutôt que la liste des technologies identifiées site par site. Malgré ces limites, ces données sont un précieux indicateur des acteurs qui prospectent auprès des éditeurs français et de l’empreinte de chacun sur le marché. Comment nous avons récupéré et analysé les données Via Wappalyzer, mind Media a donc récupéré fin juillet la liste des technologies identifiées sur 149 des 150 sites médias qui ont reçu le plus de visites selon le classement ACPM daté de juin 2024. Ils appartiennent à 69 éditeurs différents. Grâce à notre propre référentiel des sites et éditeurs français, nous savons que 49 d’entre eux appartiennent à des titres de PQR, 43 des magazines et hebdomadaires, 23 des pure players, et neuf des titres de PQN. Pour classer les technologies identifiées par Wappalyzer par grandes catégories, nous ne nous sommes pas reposés sur celles établies par Wappalyzer, mais sur notre propre référentiel des solutions adtech – martech, déjà évoqué. Nous avons développé un script Python qui nous a permis de nettoyer et fusionner ces différents référentiels et de faire les analyses. Applications mobiles Qu’est-ce qu’Exodus et comment fonctionne-t-il ? Pour la deuxième partie de notre étude, consacrée aux applications mobiles, nous nous sommes appuyés sur Exodus, une plateforme d’audit des applications Android, créée en 2017 par l’association Exodus Privacy, “animée par des hacktivistes dont le but est la protection de la vie privée”. Pour assurer le bon fonctionnement de leurs applications mobiles, collecter des données sur l’usage de leurs clients, et les monétiser, les éditeurs médias y incorporent parfois des SDK (pour “software development kit”), un ensemble d’outils d’aide à la programmation qui peuvent gérer aussi bien les analytics que le KYC ou l’envoi de notifications push. La méthode la plus certaine pour identifier les SDK installés au sein d’une application mobile consiste à en “décompiler” le code, c’est-à-dire reconstituer le code source par de la rétro-ingénierie. Mais cette méthode est illégale si les résultats sont publiés, car le code source relève du droit d’auteur. Exodus Privacy a donc trouvé une autre technique : l’association liste tous les noms des objets Java embarqués dans un APK (collection qui contient tous les fichiers nécessaires à l’installation d’une application sur Android) grâce à l’outil dexdump, fourni par Google. Puis elle compare cette liste avec celle qu’elle détient sur les noms Java des trackers qu’elle a déjà identifiés. Quelles sont les limites ?“Nous pouvons parfois ne pas être exhaustifs, car nous ne cherchons que les traqueurs que nous avons préalablement identifiés et nous n’avons pas la prétention de tous les connaître”, indiquait en 2018 à mind Media Esther Onfroy, l’ex-présidente de l’association. La plateforme privée “d’app intelligence” 42matters, récemment rachetée par Similarweb et avec laquelle mind Media a fait deux études en 2020 et 2021, en recense un peu plus de 4 000, contre 432 seulement pour Exodus. Cette différence tient notamment au fait qu’Exodus, qui s’intéresse surtout aux “traqueurs” susceptibles de collecter des données des utilisateurs, fait peu de cas des outils de développement, moins invasifs mais très répandus et très nombreux. En 2020, le fondateur de 42matters Andrea Girardello expliquait à mind Media que ces outils “permettent au créateur de l’application d’y ajouter des briques fonctionnelles, comme des lecteurs multimédias (ExoPlayer), des gestionnaires d’images (Picasso) ou encore des lecteurs de code barre (ZXing), sans qu’il ait à tout développer depuis zéro”. Comme Wappalyzer pour les technologies identifiées sur les sites web, cette méthode est aussi susceptible d’afficher des faux-positifs, car tous les SDK identifiés par Exodus au sein des applications ne sont pas nécessairement utilisés activement par les éditeurs. Certains peuvent être pré-embarqués par des partenaires, et activés ou non au gré des besoins. En 2018, certains éditeurs nous ont assuré ignorer la présence de certains SDK. Ils pourraient avoir été installés par des partenaires tiers sans qu’ils en aient été avertis, ou ils pourraient faire partie d’un code générique utilisé par le prestataire qui a développé l’application. Compte tenu de ces limites, comme pour les sites, nous ne publions que des données agrégées, plutôt que la liste des technologies identifiées application par application. Comment nous avons récupéré et analysé les donnéesNous avons d’abord établi une liste de 174 applications mobiles appartenant aux principaux éditeurs français, qui figurent dans notre propre référentiel des sites et éditeurs français où, pour la plupart des marques média majeures qui possèdent une application, nous avons associé son identifiant Android (handle) et sa famille de presse (PQN, PQR, magazines et hebdos, etc.). Puis, via l’API d’Exodus, nous avons récupéré deux listes : Celle des 432 SDK connus de lui (avec leur nom, leur description, une ou plusieurs catégories, un site web, etc.). Celle de l’ensemble des rapports générés par Exodus depuis 2017 sur ces 174 applications, dont nous n’avons retenu que les plus récents. Ces rapports contiennent notamment la liste des SDK identifiés dans chaque application. Pour classer les SDK par catégories (publicité, analytics, CMP, etc.), comme pour Wappalyzer, nous ne nous sommes pas reposés sur celles établies par Exodus, mais sur celles de notre référentiel adtech – martech. A ce référentiel s’en ajoute un propre aux SDK. Nous appuyer sur ces référentiels qui nous sont propres nous permet notamment de nous assurer que la catégorie que nous associons à une technologie est la même pour l’analyse des données des sites via Wappalyzer et celle des applications via Exodus. Comme pour Wappalyzer, nous avons développé un script Python qui nous a permis d’interroger l’API d’Exodus, de nettoyer et fusionner ces différents référentiels et de faire les analyses. Consultez la liste des SDK identifiés dans les applications des principaux éditeurs français dans notre rubrique Data. Un commentaire, une question ? Contactez-nous : datalab@mind.eu.comPour ne pas rater nos articles conduits par les données et la mise à jour de nos ressources, abonnez-vous à notre newsletter data trimestrielle. Aymeric Marolleau AdvérificationAnalyticsAttributionMesure Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire Dossiers Quels acteurs de la mesure figurent dans les sites web des éditeurs français ? Analyses Dossiers Quels acteurs de la mesure figurent dans les applications Android des éditeurs français ? La liste des SDK présents dans les applications mobiles des éditeurs français essentiels Nos synthèses et chiffres sur les principales thématiques du marché Les mutations du search à l'ère de l'IA générative L'application inaboutie de la loi sur les droits voisins Google vs DOJ : tout ce qu'il faut savoir sur le procès qui pourrait redéfinir l'adtech L’essentiel sur les identifiants publicitaires La transformation du marché publicitaire en 2024 2023 : le marché publicitaire doit se préparer à la fin du tracking utilisateur Comment l’intelligence artificielle générative bouleverse les médias Les enjeux réglementaires des médias en 2023 analyses Les articles d'approfondissement réalisés par la rédaction Adtech : pourquoi la Commission européenne sanctionne Google de près de 3 milliards d’euros Retail media : une consolidation indispensable des régies pour répondre aux attentes des acheteurs publicitaires IA et monétisation des contenus : comment l’IAB Tech Lab veut contrôler les robots crawlers Droits voisins : l’Apig veut introduire une plainte contre Meta devant l'Autorité de la concurrence Paul Boulangé (Starcom France) : "Nous sommes en train de déployer Captiv8 en France, notre solution d'automatisation du marketing d'influence" Claire Léost devient DG de CMA Média, WPP Media promeut Stéphanie Robelus… Comment les SSP généralistes investissent le secteur du retail media Bénédicte Wautelet (Le Figaro) : “Toute solution qui utilise de l’IA en rapport avec nos contenus doit y être autorisée et nous rémunérer” Aides à la presse : combien les éditeurs ont-ils perçu en 2024 ? Le New York Times affiche toujours une croissance très robuste portée par le numérique data Les baromètres, panoramas et chiffres sur l'évolution du marché Le classement des éditeurs français qui ont le plus d'abonnés purs numériques Les données récoltées par les acteurs de la publicité en ligne La liste des sociétés présentes dans les fichiers ads.txt des éditeurs français Les gains de budget des agences médias Opt-out : quels éditeurs français interdisent les robots crawlers de l'IA générative ? Le panorama des sociétés spécialisées dans les technologies de l’e-retail media La liste des outils utilisés par les équipes éditoriales, marketing et techniques des éditeurs français Le détail des aides à la presse, année par année La liste des CMP choisies par les principaux médias en France Digital Ad Trust : quels sites ont été labellisés, pour quelles vagues et sur quel périmètre ?