Accueil > Médias & Audiovisuel > Text-to-speech (1/2) : les outils s’installent dans le paysage média français Text-to-speech (1/2) : les outils s’installent dans le paysage média français La lecture vocale automatisée des articles de presse se développe depuis deux ans sur les sites et applications d'informations. Sous la forme d’un player audio, l’outil de text-to-speech permet aux médias d'offrir un nouveau service aux internautes, voire de créer un nouveau levier publicitaire. Cinq acteurs spécialisés sont présents en France. S'ils s'appuient tous sur le même socle technologique (Microsoft), leurs positionnements, qualités vocales et modèles économiques diffèrent. mind Media effectue l'analyse du marché et dresse un comparatif. Par Jean-Michel De Marchi. Publié le 08 juillet 2023 à 11h13 - Mis à jour le 13 juillet 2023 à 21h34 Ressources La synthèse vocale, c’est-à-dire la transformation de mots ou d’expressions en audio en imitant la voix humaine, s’est développée progressivement tout au long du 20e siècle avant une accélération technologique ces 20 derniers années se concrétisant par différentes applications : service aux mal-voyants et aveugles, GPS, fonctionnalités dans les smartphones, assistants vocaux et connectés… Les progrès de l’intelligence artificielle permettent depuis trois-quatre ans d’aller encore plus loin avec les outils dédiés au text-to-speech. Ces solutions, qui prennent la forme d’un player vidéo placé en haut des articles, proposent une lecture vocale automatisée de contenus textuels. Elles s’inscrivent dans les usages. La hausse continue ces dernières années des usages audio en mobilité, y compris pour l’information, a conduit de nombreux éditeurs médias à lancer des podcasts, natifs ou en replay (l’ACPM en a effectué un bilan chiffré en avril). Les audiences audio digitales sont fortes et en progression : les podcasts totalisent 20 millions d’auditeurs mensuels, et plus largement 40 millions de Français (79 % des 15-80 ans) écoutent chaque mois au moins une fois un contenu audio en ligne, selon des chiffres de Médiamétrie//NetRatings en mai 2023. Moins couteux à produire que les podcasts natifs Si les usages audio progressent, les éditeurs médias ne réussissent souvent pas à monétiser correctement leurs offres, en particulier le podcast, couteux à produire et dont les audiences de chaque épisode sont souvent modestes en France ; quelques dizaines de milliers d’écoutes au mieux. Des éditeurs de podcasts français testent les offres d’abonnement sur les plateformes Le text-to-speech apparaît comme une aubaine pour les éditeurs de presse afin de transformer leurs articles en un nouveau format audio pour un coût modéré. Les promesses sont multiples : offrir un nouveau format éditorial pour fidéliser et/ou conquérir des audiences, développer de nouveaux inventaires publicitaires, ou encore se positionner sur l’innovation marketing. “Des progrès importants ont été réalisés sur la langue française depuis l’été 2021 par Microsoft, une solution plus fluide et plus agréable” Bertrand Boulandet (Podle) Le Figaro, Prisma Media, Numerama, Le Point, Le Monde, Challenges, 20 Minutes, La Tribune, Brief.me, Sud-Ouest, La Dépêche du Midi, plus récemment L’Express… Nous avons identifié une quinzaine de groupes médias ayant déployé une solution audio automatisée durant ces deux dernières sur une trentaine de sites. Ces éditeurs ont installé leur service de text-to-speech en s’appuyant essentiellement sur l’une des quatre sociétés françaises proposant un outil dédié : ETX Studio, Audion, Odia et Podle. S’y ajoute la société britannique Global Player, dont l’outil Remixd est certes utilisé par Numerama depuis avril 2021 – c’est Numerama qui l’a contactée -mais cette entreprise n’a pas d’autres client ni même d’ambitions commerciales dans l’Hexagone (consultez plus bas notre panorama des solutions et leurs clients médias). “5 éléments-clés pour lancer et rentabiliser son podcast” Un apprentissage technologique essentiel Aucune ne développe ex nihilo leur dispositif ; toutes les solutions de text-to-speech s’appuient sur les technologies neuronales des fournisseurs de synthèse vocale que sont principalement Google, Amazon et Microsoft : ce sont elles qui possèdent et entretiennent les compétences et l’infrastructure technologique pour créer les bases de la lecture vocale automatisée. Elles commercialisent ensuite sur étagère leur solution aux sociétés spécialisées de text-to-speech – mais aussi à n’importe quel individu ou société – avec une facturation au mot qui varie selon la langue parmi les dizaines proposées. Le principal enjeu technologique porte sur la qualité vocale. Jusqu’à ces dernières années, la synthèse vocale de Google était la plus utilisée. “Mais son rendu audio en français était très mitigé pour les contenus d’actualités et ne soutenait pas l’exigence d’une écoute sur la durée, ses voix étaient robotiques et monocordes. Des progrès importants ont été réalisés depuis sur la langue française, en particulier depuis l’été 2021 par Microsoft, une solution plus fluide et plus agréable”, souligne Bertrand Boulandet, cofondateur de Podle, société qui commercialise une solution auprès des médias depuis fin 2020. Parmi ses clients : Brief.me, Tourmag et Satellifacts. L’Express abandonne la lecture humaine pour le text-to-speech Depuis l’été 2021, c’est donc désormais la solution Speech de la suite Microsoft Azur qui est utilisée par tous les prestataires de text-to-speech français. Son coût est variable selon la langue, les API sollicitées, la finesse du rendu vocal souhaité et le volume de texte transformé. Contacté par mind Media, le service commercial mentionne, pour un forfait de 1 000 heures de lecture audio, un accès gratuit pendant 12 mois puis un tarif de 910 euros HT par mois. Mais ce socle technologique fourni par les plateformes ne suffit pas. “Il y a ensuite tout un travail d’amélioration et d’entrainement de la voix à faire de façon humaine pour améliorer la qualité vocale et la rendre plus fluide, comme il y aussi un travail d’apprentissage de mots et de sigles précis propres aux médias pour enrichir et alimenter les bases de données que nous détenons”, explique Arthur Larray, cofondateur d’Audion. La société de technologies et de monétisation de l’audio numérique pour les médias et les marques, s’est positionnée sur le text-to-speech depuis deux ans et demi. Parmi les clients de son outil : des sites de Prisma Media, Terrafemina (Webedia), 20 Minutes, Sud-Ouest et Marianne. Il faut un apprentissage d’au moins plusieurs centaines de phrases lues par un humain (un comédien ou un journaliste) pour améliorer la qualité de la synthèse vocale par une bonne prosodie, cet ensemble de régles spécifiques à la voix humaine : ton, intonation, rythme et débit de la voix, notamment. Les sociétés spécialisées en text-to-speech jouent un rôle important en tant qu’intermédiaire technologique, mais elles ne sont pas un passage obligé, pour peu que le client final dispose d’une très solide équipe technique. C’est le cas du Monde, qui a agit en direct en s’appuyant lui aussi sur la suite de Microsoft. Fidèle à sa volonté de maîtriser totalement les socles techniques utilisés à chaque fois que c’est possible, c’est le seul média français identifié par mind Media à travailler en direct avec un fournisseur de synthèse vocale, sans intermédiaire, depuis le déploiement de son outil amorcé à l’automne 2022. [Info mind Media] Le Monde déploie son dispositif de text-to-speech dans son application A noter que Google semble vouloir se positionner davantage sur ce service aux éditeurs. Selon nos informations, le groupe dont jusqu’à présent l’outil de text-to-speech n’est pas jugé suffisamment bon en langue française par les sociétés spécialisées et les éditeurs, a approché ces dernières semaines des petits sites médias français pour tester l’intégration en direct d’un service amélioré. Des approches stratégiques différentes Les modèles économiques comme les positionnements sont encore balbutiants, à la fois chez les prestataires technologiques et chez les médias. Audion, dont l’activité principale demeure la régie audio digitale, est la seule société française à proposer gratuitement sa solution – avec la société britannique Remixd – via un partage de revenus publicitaires dont elle assure la commercialisation. Ce qui peut parfois heurter la stratégie commerciale de l’éditeur quand il opère déjà avec une autre régie pour ses podcasts. “Notre objectif est d’associer étroitement le text-to-speech avec le podcast, explique Arthur Larrey (Audion). Les inventaires vont s’additionner et la prochaine étape consistera à linéariser les contenus audio du text-to-speech pour en faire des podcasts thématiques”. “On entre à peine dans la phase de transformation industrielle de l’audio en mobilité. Le potentiel pour producteurs de contenus et éditeurs d’information est très grand” Jérôme Doncieux (ETX Studio) Podle, Odia et ETX Studio privilégient eux le modèle payant, avec des outils facturés aux éditeurs plusieurs milliers d’euros pas mois. “Je ne crois pas au modèle publicitaire, le marché audio digital est trop petit et incertain. C’est plutôt un service aux éditeurs, qui, pour quelques milliers d’euros par mois, peuvent s’offrir un nouveau canal de distribution innovant”, estime Jérôme Doncieux, CEO et confondateur d’ETX Studio. Le service est d’ailleurs éligible aux aides à la presse réservées au développement et à l’innovation. ETX Studio – l’ex-agence Relaxnews – qui s’est positionné fin 2020 sur les services audio, propose son outil pour quelques milliers d’euros par mois (set-up et licences). Il y ajoute éventuellement de façon complémentaire un partage des revenus publicitaires via un partenariat avec les régies Soundcast et Targetspot/Azerion. Usages audio : Apple est de plus en plus challengé par les autres applications de podcasts Des enjeux de qualité et de mobilité Les technologies utilisés s’améliorent. Odia nous indique avoir identifié une dizaine de nouveaux outils qui offrent un rendu supérieur à celui de Microsoft. De l’avis de tous nos interlocuteurs, l’amélioration continue de la qualité vocale est la priorité du marché. “L’apport technologique des sociétés intermédiaires sera essentielle pour que le grand public utilise massivement ce type de service en ligne. Non seulement on s’adresse à des éditeurs premium, mais l’écoute audio d’un article est également très exigeante, souligne Philippe Jannet, cofondateur d’Odia. Ce qui explique pourquoi nous avons d’abord travaillé sur notre apport technologique pour avoir une qualité optimale avant de la commercialiser.” Parmi les cofondateurs d’Odia – dont les clients sont le groupe Challenges, Worldcrunch et Livres Hebdo – figure Luc Julia, spécialiste en intelligence artificielle ayant dirigé le projet Siri chez Apple, avant de superviser l’innovation chez Samsung et désormais chez Renault. Si Audion veut positionner son offre à la fois comme instrument de nouveaux revenus publicitaires et comme outil de relinéarisation audio thématiques via des podcasts, Odia et ETX Studio travaillent à l’intégration de leurs outils dans les nouveaux services embarqués dans les prochaines voitures. Après plusieurs effets d’annonces ou projets avortés (entre 2017 et 2020 entre Challenges et Renault), différents constructeurs (Mercedes, Renault…) travaillent toujours sur ces dispositifs. L’Equipe fournit des contenus audio pour des véhicules connectés de Renault (2022) A cet effet, Odia a noué un partenariat avec le fournisseur mondial d’assistants pour automobile Cerence, tandis qu’ETX Studio discute d’un dispositif intégré avec un constructeur. “On entre à peine dans la phase de transformation industrielle de l’audio en mobilité. Le potentiel pour producteurs de contenus et éditeurs d’information est très grand”, estime son CEO Jérôme Doncieux. ________ Un tableau comparatif des sociétés spécialisées complète cet article (ci-dessous). La semaine prochaine, la deuxième partie de notre dossier dressera un premier bilan du text-to-speech pour les éditeurs d’informations. La lecture humaine chez Mediapart Mi-juin, L’Express a annoncé changer de stratégie pour passer au text-to speech. Depuis 2019, le titre proposait l’écoute en ligne des articles de son magazine (initialement la totalité, puis une poignée chaque semaine) via leur lecture vocale par des comédiens. La société recourrait à l’intermittence via une société de portage, NextProd, avec un tarif à la journée. Ce dispositif nécessitait un investissement de plusieurs centaines de milliers d’euros quand l’ensemble du magazine papier était vocalisé entre 2019 et 2021. Puis il a été réduit à 6 articles par semaine, avant d’être stoppé en juin pour être remplacé pour l’outil de text-to-speech d’ETX Studio. Mediapart et Le Monde Diplomatique sont désormais les deux seuls grands médias d’informations à proposer une lecture humaine de leurs articles. A la différence de la solution automatisée du text-to-speech, ce sont des comédiens qui lisent les articles. Mediapart propose le service depuis début 2014. Deux articles étaient lus chaque semaine jusqu’en septembre 2021 et cinq depuis, du lundi au vendredi. Le service, qui s’appuie sur le player d’Audiomeans, est réservé aux abonnés. Interrogé par mind Media, Mediapart indique que la prestation est effectuée en alternance par deux comédiens (un homme, une femme), rémunérés sous forme de salaires et en direct, sans passer par une société spécialisée. Le coût total pour Mediapart s’élève à 2 000 euros chaque mois, pour 20 articles lus. Soit un coût moyen de 100 euros par article. Autre modèle possible – mais pas appliqué par Mediapart -, un forfait de longue durée en portage peut coûter environ 200 euros par jour. Mediapart n’étudie pas le passage à la technologie du text-to-speech. “C’est un moyen de répondre à la problématique du manque temps pour lire nos articles qui nous a été remontée comme étant une cause du désabonnement. C’est un outil de fidélisation de nos abonnés plutôt que d’acquisition”, nous indique la société. Jean-Michel De Marchi Audio digitalDiversificationsInnovationsModèles économiquesPublicité programmatiqueSites d'actualitéStart-upTechnologiesTransformation des médias Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire Les radios privées s'attaquent à la publicité numérique de Radio France Audiences et diffusion ACPM : le top 20 des marques de podcasts les plus téléchargées en mai 2023 L’Express modifie son offre audio Confidentiels [Info mind Media] Le Monde déploie son dispositif de text-to-speech dans son application [Info mind Media] L'Obs utilise Spotl pour sous-titrer ses vidéos Analyses Les tests se développent dans la production d'informations via l'intelligence artificielle Audion boucle un nouveau financement de 6 millions d’euros Le Monde expérimente le text-to-speech sur son application la Matinale Analyses 10 façons de lutter contre la résiliation des abonnements dans les médias en ligne ETX Studio acquiert Majelan, l’application de podcasts payante qui peine à trouver son modèle Text-to-speech : Sud Ouest installe la solution d'Audion [Social Media Club] Audio numérique : quelles data pour les marques ? Confidentiels Prisma Media déploie l'outil de text-to-speech de la société Audion Les articles du Figaro disponibles en version audio Brief.me rend sa newsletter d’actualités disponible en lecture audio Audion lance un outil de text-to-speech L’agence ETX Studio lance une plateforme de contenus audio à partir de text-to-speech Analyses Dossiers Abonnements numériques (1/2) : les lecteurs sont de plus en plus difficiles à convaincre Analyses Digital News Report 2023 : 3 enseignements pour les éditeurs d'informations français Audiences et diffusion ACPM : les 20 radios ayant connu les plus fortes progressions entre avril et mai 2023 essentiels Nos synthèses et chiffres sur les principales thématiques du marché Les mutations du search à l'ère de l'IA générative L'application inaboutie de la loi sur les droits voisins Google vs DOJ : tout ce qu'il faut savoir sur le procès qui pourrait redéfinir l'adtech L’essentiel sur les identifiants publicitaires La transformation du marché publicitaire en 2024 2023 : le marché publicitaire doit se préparer à la fin du tracking utilisateur Comment l’intelligence artificielle générative bouleverse les médias Les enjeux réglementaires des médias en 2023 analyses Les articles d'approfondissement réalisés par la rédaction L’IA intégrée dans les rédactions : les exemples de l’AFP, Ouest-France et Humanoid Synthèse de l'étude mind Media-366 sur l’IA générative appliquée à la recherche, aux médias et à la publicité INFO MIND MEDIA - Yahoo lance un plan social en France pour se séparer de son équipe éditoriale Baromètre RECMA - mind Media : le bilan des gains de budgets en France depuis début 2025 Heikel Manai (France Télévisions) : “En matière d’IT, un dogmatisme 100% européen serait contre-productif” INFO MIND MEDIA - L’Équipe gagne son match judiciaire contre Fedcom Media CGV 2026 des régies TV : un pas supplémentaire vers la simplification du trading Mara Negri (EBX) : “Notre objectif est de proposer des inventaires BVOD et CTV dans l’ensemble des pays européens" INFO MIND MEDIA - L’alliance adtech des médias français Mediasquare peine elle aussi à faire condamner Google en justice IA générative : panorama des solutions techniques de protection et de monétisation des contenus data Les baromètres, panoramas et chiffres sur l'évolution du marché Le classement des éditeurs français qui ont le plus d'abonnés purs numériques Les données récoltées par les acteurs de la publicité en ligne La liste des sociétés présentes dans les fichiers ads.txt des éditeurs français Les gains de budget des agences médias Opt-out : quels éditeurs français interdisent les robots crawlers de l'IA générative ? Le panorama des sociétés spécialisées dans les technologies de l’e-retail media La liste des outils utilisés par les équipes éditoriales, marketing et techniques des éditeurs français Le détail des aides à la presse, année par année La liste des CMP choisies par les principaux médias en France Digital Ad Trust : quels sites ont été labellisés, pour quelles vagues et sur quel périmètre ?