Accueil > Médias & Audiovisuel > Panorama 2025 des outils de text-to-speech pour les médias en France Panorama 2025 des outils de text-to-speech pour les médias en France La lecture vocale automatisée des articles, le text-to-speech, est sans doute l’utilisation la plus répandue et la plus visible de l’IA générative dans les médias en ligne. mind Media a examiné les positionnements et stratégies des six solutions actuellement disponibles sur le marché Français : ETX Majelan, Audion, Odia, Saooti, Podle et Edisound, qui ont des positionnements distincts mais des ambitions similaires pour innover davantage et créer de nouvelles expériences audio. Un tableau comparatif complète notre article mis à jour. Par Jean-Michel De Marchi. Publié le 17 janvier 2025 à 17h58 - Mis à jour le 02 avril 2025 à 12h55 Ressources Dans le sillage du développement des smartphones, puis des offres de streaming musical ces dix dernières années, l’audio a pris une place importante dans les usages numériques. Ces nouvelles pratiques s’appliquent aussi à l’information. Les éditeurs s’y sont adaptés via différents formats et supports : podcasts de replay, podcasts natifs, enceintes connectées, et, depuis trois ans, lecture vocale automatisée de leurs articles en ligne, ou “text-to-speech”. Soit la capacité à transformer en contenu audio un article textuel. La lecture vocale automatisée des articles de presse est d’ailleurs fortement valorisée par les jeunes audiences, une cible que les médias ont du mal à toucher et à engager sur la durée. 34 % des Français âgés de 18 à 24 ans actuellement abonnés à un ou plusieurs médias d’information expriment ainsi un intérêt marqué pour la fonctionnalité (16 % pour l’ensemble de la population), selon notre étude sur les attentes des Français envers les abonnements en ligne, réalisée avec 366 et Kantar, et publiée en novembre dernier. Etude mind Media-366 (3/5) : Le comportement et les attentes des jeunes envers les abonnements numériques Lors de notre précédent benchmark en juillet 2023, nous avions identifié plusieurs solutions de text-to-speech utilisées en France. 18 mois plus tard, l’outil Remixd, proposée par le groupe britannique Global Player et alors employé sur le site Numerama, ne l’est plus. Text-to-speech : les outils s’installent dans le paysage média français (2023) Text-to-speech : les éditeurs d’informations dressent un premier bilan satisfaisant (2023) Un nouvel acteur est en revanche apparu : Edisound, solution de la régie publicitaire audio éponyme, fondée en 2021 par Reworld Media avec Julien Mosse et François Pacot, qui a lancé son offre de text-to-speech à la fin du printemps 2023. Edisound a ainsi rejoint Podle, Odia, ETX Majelan, Audion, et Saooti. Tous sont français. Deux types de stratégie Tous ces acteurs font reposer leurs solutions sur les grands modèles de voix pour le text-to-speech proposés sur étagère par les grandes plateformes technologiques (Microsoft, Amazon et Google). Les fournisseurs d’IA générative peuvent cependant représenter une alternative parfois plus performante. Odia indique ainsi utiliser aujourd’hui les grands LLM existants (OpenAI et d’autres). Parmi les clients de cette société : Cafeyn, Les Echos, Le Télégramme, et le groupe Challenges. Voix de synthèse des plateformes technologiques ou LLM des fournisseurs d’IA générative, les acteurs spécialisés utilisent leurs assets et les customisent via une surcouche technologique propriétaire pour “humaniser” et enrichir les voix, activables ensuite sur les supports numériques des médias via un player audio. Ils interviennent donc comme intermédiaires entre plateformes technologiques et éditeurs médias. La qualité finale des fonctionnalités de text-to-speech proposées par les éditeurs dépend du choix du modèle initial, de l’expertise du prestataire et du travail technique que l’éditeur est prêt à réaliser avec lui pour personnaliser son offre, l’améliorer et l’adapter à ses besoins. Deux stratégies différentes peuvent être observées chez ces prestataires. Les acteurs dont le cœur de métier porte sur les technologies autour de la voix et le contenu audio, comme Podle, Saooti, Odia et ETX Majelan, cohabitent avec d’autres qui sont d’abord des régies publicitaires audio, comme Audion et Edison. Ceux-là voient dans le text-to-speech un outil supplémentaire au sein d’une offre complète. “Les éditeurs se dirigent vers une stratégie audio globale et ont besoin d’un partenaire unique pour simplifier et rationaliser l’ensemble de la chaîne audio : hébergement, monétisation publicitaire audio classique, sponsoring, audio lineaire, podcast, etc. Le text-to-speech est une réponse parmi d’autres autour de l’audio numérique, et il est particulièrement utile sur les longs contenus”, explique Elodie Bui, head of publishers chez Audion. Parmi les clients de la société : 20 Minutes, Sud-Ouest, Marianne et Prisma Media. Cela n’empêche pas l’hybridation des activités. Pour répondre aux besoins de monétisation exprimés par certains clients, Saooti, ETX Majelan, Podle et Odia mettent d’ailleurs en avant des partenariats avec des régies audio (Soundcast, Targetspot/Azerion…), ou une connexion avec elles pour leur permettre de commercialiser leurs inventaires s’ils le souhaitent. Matthieu Stefani (Génération Do It Yourself) : “Ma stratégie de monétisation des podcasts : des annonceurs les moins nombreux possible, mais sur des longues durées” Une transformation des offres en cours L’émergence et le développement rapide des technologies d’IA audio pourraient (déjà) bouleverser le secteur et les positionnements. L’accessibilité, la simplicité et la qualité de ces nouveaux outils “rendent un peu désuet le text-to-speech pure, d’autant que l’audio, certes en progression, demeure un petit marché”, estime ainsi Grégoire Gaffié, directeur monétisation et audience de Reworld Media – principal actionnaire de la structure – qui a succédé à Julien Mosse à la direction d’Edisound. “Le vrai sujet autour de l’audio pour les éditeurs, à mon sens, c’est la génération automatique de podcasts permise par les nouvelles technologies d’IA, avec des revues de presse, des rendez-vous d’actualité, des résumés d’actualités, etc., qui vont plus loin que la simple lecture vocale des articles plus ou moins de bonne qualité”, affirme-t-il. Reworld Media a entamé plusieurs tests en ce sens, via ChatGPT et ElevenLabs, notamment. Des IA qui créent du contenu audio, un danger pour le text-to-speech ? En parallèle aux acteurs du text-to-speech, de nombreuses sociétés se positionnent sur les offres audio automatisées en recourant aux IA génératives. Elles se positionnent de façon différente, souvent en BtoC, et parfois en BtoB également. C’est le cas d’ElevenLabs, qui propose en accès freemium du text-to-speech et de la traduction audio sur ces deux marchés. NotebookLM, application gratuite de Google qui utilise l’assistant IA Gemini, propose pour sa part la création automatique de podcasts à partir de tout type de contenus fournis par l’utilisateur. Elle est pour l’instant disponible en anglais. Google teste également l’outil Daily Listen aux Etats-Unis : les utilisateurs peuvent accéder, via son moteur de recherche, à la création automatique de podcasts d’environ cinq minutes basés sur leur recherches et historiques de navigation. Ces acteurs ne proposent pas d’accompagnement à leurs clients et ne sont pas totalement dédiés aux éditeurs médias, comme le sont les prestataires du text-to-speech. Les spécialistes du contenu audio (Podle, Odia, ETX Majelan) veulent croire en leur spécificité et considèrent ces nouveaux outils comme des partenaires et des appuis, et pas des concurrents. Des usages modestes Chez Odia, on observe en moyenne environ 500 clics par semaine sur les articles de ses clients sur lesquels son player est affiché. “C’est surtout le taux de complétion qui est intéressant, désormais de l’ordre de 98 %, et qui tient beaucoup à la qualité vocale proposée”, indique Mathieu Capcarrere, cofondateur et directeur des opérations d’Odia. Le taux de clic n’a guère évolué en 18 mois et demeure modeste. Il est compris entre 0,5 % et 1 %. “Parfois jusqu’à 3 à 4 %, affirme Matthieu Weider, chief sales officer d’ETX Majelan, mais la marge de progression est réelle. Il faut que les médias s’emparent davantage de la fonctionnalité.” Cela peut s’expliquer en effet par une UX souvent pauvre dans les offres audio des éditeurs et une politique marketing quasi-inexistante autour du text-to-speech. Les éditeurs doivent mieux la promouvoir. Ce qu’a commencé à faire Les Echos à l’automne 2024, avec un onglet dédié, une playlist audio automatisée et des notifications push. Le titre a opté pour la solution d’Odia. Une partie des éditeurs doivent aussi réaliser les investissements et développements techniques nécessaires pour mettre à jour leur fonctionnalité avec les dernières générations de voix disponibles, plus qualitatives que les précédentes. Les usages sont malgré tout suffisants pour générer des revenus publicitaires, si l’éditeur le souhaite, et ce sont des revenus incrémentaux, relèvent plusieurs interlocuteurs. Plus de personnalisation et d’innovations Quel futur pour les acteurs voulant se focaliser sur le text-to-speech ? Les technologies sur étagère proposées par les grandes plateformes vont continuer à s’améliorer rapidement. “La personnalisation des voix et le clonage amélioré vont également permettre d’améliorer l’expérience et offrir de nouvelles perspectives”, estime Elodie Bui (Audion), qui prend l’exemple de la personnalisation des campagnes publicitaires à grande échelle via la dynamic creative optimization (DCO). Plusieurs acteurs présentent en effet le clonage de voix comme la première étape de l’amélioration des produits, autrement dit la lecture vocale automatisée d’un article avec la voix de son auteur, après apprentissage. C’est le cas notamment de Saaoti, société spécialisée dans les offres audio, acquise par le groupe SIPA-Ouest-France. “Cela offre un potentiel important, les technologies sont déjà efficaces. Nous travaillons sur le clonage de voix de journalistes avec Le Soir (du groupe Rossel, en Belgique, ndlr), mais aussi sur la création de voix sur mesure pour les marques et les médias ; et sur la traduction automatisée en plusieurs langues”, affirme Laurent Hué, fondateur de Saaoti et toujours directeur exécutif. Pour convaincre davantage les médias d’investir sur l’audio et maximiser les usages, ETX Majelan veut proposer une gamme de produits globale, avec de nouvelles offres qui vont au-delà du text-to-speech : retranscription, résumé audio, composition de playlists, recommandation de contenus audio… “Nous voulons passer de la lecture vocale à la création d’expériences audio multiples pour créer des médias conversationnels”, explique Matthieu Weider. Des premiers déploiements sont prévus dans les prochains mois. Parmi ses clients actuels figurent Le Figaro, La Tribune, L’Equipe et Le Parisien, L’Express, Le Point, le groupe la Dépêche du Midi. Un travail autour des données et métadonnées sera indispensable chez les éditeurs pour tendre vers ce type de produits. “La prochaine étape, ce sera également d’embarquer l’audio de qualité sans connexion internet et de l’intégrer dans l’internet des objets”, estime pour sa part Mathieu Capcarrere (Odia). L’intégration de la commande vocale dans les interfaces des offres des médias, tout comme des partenariats avec des agrégateurs mondiaux pour viser l’international, sont également des pistes de travail pour les 18 mois qui viennent. D’ici-là, l’application, fin juin 2025, de la directive européenne sur l’accessibilité pourrait favoriser l’implémentation du text-to-speech : elle prévoit de rendre les offres numériques d’une large partie des entreprises accessibles aux personnes handicapées, par exemple en offrant aux malvoyants la lecture audio d’un contenu. Jean-Michel De Marchi Audio digitalIA générativeInnovationsIntelligence artificiellePodcastsSites d'actualitéStart-upTechnologiesTransformation des médias Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire Matthieu Stefani (Génération Do It Yourself) : “Ma stratégie de monétisation des podcasts : des annonceurs les moins nombreux possible, mais sur des longues durées” Analyses Dossiers IA générative : comment les rédactions françaises amorcent les premiers usages éditoriaux Analyses Dossiers Text-to-speech (2/2) : les éditeurs d'informations dressent un premier bilan satisfaisant Analyses Recommandation, personnalisation des contenus, services technologiques… Cafeyn veut transformer son offre Analyses Etudes de cas Comment le média danois Zetland utilise les articles audio pour fidéliser ses abonnés Dossiers Etude mind Media - 366 (3/5) : Le comportement et les attentes des jeunes envers les abonnements numériques ETX Majelan se sépare de son activité presse pour se concentrer sur l’audio automatisé Les Échos teste un nouveau format de briefing audio en text-to-speech Le Temps décline ses articles en récits audio lus par ses journalistes Le Washington Post lance à son tour un chatbot reposant sur l’IA générative Analyses Dossiers 20 exemples pour utiliser l’intelligence artificielle générative dans les médias L’Express modifie son offre audio essentiels Nos synthèses et chiffres sur les principales thématiques du marché Les mutations du search à l'ère de l'IA générative L'application inaboutie de la loi sur les droits voisins Google vs DOJ : tout ce qu'il faut savoir sur le procès qui pourrait redéfinir l'adtech L’essentiel sur les identifiants publicitaires La transformation du marché publicitaire en 2024 2023 : le marché publicitaire doit se préparer à la fin du tracking utilisateur Comment l’intelligence artificielle générative bouleverse les médias Les enjeux réglementaires des médias en 2023 analyses Les articles d'approfondissement réalisés par la rédaction Adtech : pourquoi la Commission européenne sanctionne Google de près de 3 milliards d’euros Retail media : une consolidation indispensable des régies pour répondre aux attentes des acheteurs publicitaires IA et monétisation des contenus : comment l’IAB Tech Lab veut contrôler les robots crawlers Droits voisins : l’Apig veut introduire une plainte contre Meta devant l'Autorité de la concurrence Paul Boulangé (Starcom France) : "Nous sommes en train de déployer Captiv8 en France, notre solution d'automatisation du marketing d'influence" Claire Léost devient DG de CMA Média, WPP Media promeut Stéphanie Robelus… Comment les SSP généralistes investissent le secteur du retail media Bénédicte Wautelet (Le Figaro) : “Toute solution qui utilise de l’IA en rapport avec nos contenus doit y être autorisée et nous rémunérer” Aides à la presse : combien les éditeurs ont-ils perçu en 2024 ? Le New York Times affiche toujours une croissance très robuste portée par le numérique data Les baromètres, panoramas et chiffres sur l'évolution du marché Le classement des éditeurs français qui ont le plus d'abonnés purs numériques Les données récoltées par les acteurs de la publicité en ligne La liste des sociétés présentes dans les fichiers ads.txt des éditeurs français Les gains de budget des agences médias Opt-out : quels éditeurs français interdisent les robots crawlers de l'IA générative ? Le panorama des sociétés spécialisées dans les technologies de l’e-retail media La liste des outils utilisés par les équipes éditoriales, marketing et techniques des éditeurs français Le détail des aides à la presse, année par année La liste des CMP choisies par les principaux médias en France Digital Ad Trust : quels sites ont été labellisés, pour quelles vagues et sur quel périmètre ?