Accueil > Médias & Audiovisuel > Patrick Pérez (Kyutai) : “Synthèse vocale, traduction, transcription… plusieurs de nos projets IA sont applicables aux médias”

Patrick Pérez (Kyutai) : “Synthèse vocale, traduction, transcription… plusieurs de nos projets IA sont applicables aux médias”

mind Media a interrogé Patrick Pérez, CEO de Kyutai, laboratoire d’IA créé en novembre 2023 par Xavier Niel, Rodolphe Saadé et Eric Schmidt, doté de plusieurs centaines de millions d’euros de financement, pour présenter son positionnement, dresser un premier bilan des projets amorcés et évoquer ses perspectives. Après avoir collaboré au nouveau dispositif audio de La Provence, Kyutai discute avec d’autres éditeurs pour des applications de ses travaux.

Par Jean-Michel De Marchi. Publié le 30 octobre 2025 à 16h29 - Mis à jour le 30 octobre 2025 à 16h29

Ressources

Comment se positionne Kyutai au sein du secteur de l’IA, très foisonnant et très concurrentiel ? Quels sont le rôle et l’implication de vos fondateurs ?

Kyutai est un laboratoire d’intelligence artificielle (IA) lancé il y a quasiment deux ans. C’est une structure indépendante, privée, mais à but non lucratif, dédiée à la recherche en intelligence artificielle ouverte. Elle a été créée non pas sur la base d’un investissement, mais de donations provenant de mécènes fondateurs, que sont Xavier Niel, Rodolphe Saadé et Eric Schmidt (respectivement fondateur du groupe Iliad, créateur de 42 et actionnaire de référence du groupe Le Monde ; PDG de CMA CGM ; et ancien président de Google, ndlr), qui partageaient la conviction qu’il est nécessaire de faire émerger un grand acteur de l’IA en Europe, différent des grandes entreprises que nous connaissons (les fondateurs-donateurs avaient évoqué la nécessité de développer une souveraineté française et européenne en matière d’IA, ndlr). Nos projets ne portent pas sur la recherche fondamentale, c’est de la recherche très appliquée. Nous développons des modèles IA généralistes de fondation, que nous mettons ensuite à disposition. Cela implique énormément d’ingénierie. Nous avons donc des ingénieurs et nous créons des briques technologiques qui peuvent servir à d’autres structures, ou à nous-mêmes, pour aboutir à des produits. L’objectif est d’ouvrir une voie nouvelle, en ayant un laboratoire au meilleur niveau mondial, doté de moyens importants, et pratiquant la recherche ouverte. Nous espérons inspirer d’autres initiatives. Son impact doit se mesurer sur l’écosystème français et européen, dans un contexte de très forte compétition et d’enjeux géopolitiques autour de l’IA. Leur vision était donc fondée, et elle l’est plus que jamais.

Patrick Pérez

Depuis 2023 : CEO, Kyutai
2018-2023 : Director, Valeo.ai
2009-2018 : Distinguished Scientist, Technicolor
2004-2009 : Senior Scientist, Inria
2000-2004 : Researcher, Microsoft
1994-2000 : Researcher, Inria

De quels moyens disposez-vous ? Est-ce suffisant, ou vos activités appellent-elles déjà la nécessité d’un nouveau financement ?

Les fondateurs se sont engagés à donner 300 millions d’euros à Kyutai, avec un financement qui arrive par tranche. Comme c’est une somme finie et que nous ne développons pas de revenus, elle n’est pas nécessairement suffisante pour durer éternellement, d’autant qu’une grande partie est destinée à louer les machines de calcul et à s’assurer que nous ayons les moyens suffisants, en termes de puissance de calcul, pour développer le type de projets ambitieux qui nous intéressent et qui ont l’impact recherché. C’est énormément de ressources allouées uniquement à la recherche. Nous avons une bonne marge de manœuvre et avons encore plusieurs années devant nous avec le financement actuel, mais nous avons effectivement vocation à réfléchir à des pistes pour aller au-delà de ces ressources initiales. L’idée est d’abord d’embarquer de nouveaux donateurs, et ensuite d’explorer d’autres pistes pour compléter ce financement par donation. Mais le cœur du modèle repose sur notre statut à but non lucratif, puisque nous sommes une fondation – et nous pourrions devenir une fondation reconnue d’utilité publique, c’est en tout cas notre vœu. Et si nous développons des revenus, cela doit rester minoritaire dans nos ressources.

François Loviton (Google France) : “Les annonceurs ont plus de chance d’apparaître en lien sponsorisé sur AI Overviews s’ils utilisent AI Max”

Il y a une course au recrutement parmi les champions de l’IA. Quels sont les profils de vos collaborateurs et avez-vous vocation à grandir en taille ?

L’effectif fluctue en fonction des moments de l’année et des travaux de recherche de certains étudiants chercheurs que l’on intègre, mais Kyutai rassemble près de 25 personnes. C’est donc un petit labo, avec un nombre restreint de projets, mais où il y a beaucoup d’implication. L’organisation est assez plate, ce qui est cohérent pour une petite équipe. Nous avons trois types de collaborateurs : une équipe de salariés que l’on peut qualifier de fondateurs, qui sont des chercheurs très seniors ; ensuite le personnel technique – des chercheurs, des ingénieurs et des post-doctorants – et des fonctions supports, comme les ressources humaines ; enfin, et c’est très important, nous avons de jeunes chercheurs en devenir : des stagiaires de master et des doctorants. Nous avons donc des thèses en cours dans le labo. Cela contribue à la formation des futurs ingénieurs et chercheurs. Certains pourraient rester chez nous après leurs travaux, ou faire d’autres choses brillantes : c’est une façon de contribuer à l’écosystème IA et de créer une certaine dynamique dans le labo. Et quand il y a une thèse, il y a un projet et une collaboration académique associée, puisque toute thèse est menée en lien avec un laboratoire public.

“Plusieurs de nos projets sont applicables aux médias”

Quels sont les projets ou les secteurs d’activités sur lesquels vous travaillez, et les orientations que vous voulez prendre ?

Nous ne raisonnons pas en secteur d’activité, plutôt en impact. L’un de nos partis pris importants est de se positionner sur des modèles d’IA généralistes, car ils ont vocation à être repris dans tout l’écosystème. Nous voulons que les briques que nous développons soient les plus utiles possible pour toutes les industries, et même pour la société. Sur les types de tâches, nous nous intéressons tout particulièrement à un type d’IA généraliste qui adresse une chose particulière : l’interaction homme-machine fluide via la parole. Autrement dit, l’utilisateur parle et la machine parle. C’est un gros travail et c’est très important dans un contexte d’impact sociétal positif. Cela permet de faciliter l’accès au plus grand nombre à la connaissance, y compris dans le contexte du handicap, car ce sont des interfaces très inclusives et pratiques. Chemin faisant, cela nous a permis de développer une compétence technique unique autour de modèles d’IA adaptés à percevoir et interagir en temps réel, dans une interface fluide, avec des modèles qui peuvent être suffisamment petits pour tourner en local.

Cela ouvre des champs très vastes, comme les assistants personnels embarqués dans des objets – téléphone, lunettes – ou la robotique. Cette capacité à comprendre l’environnement et à générer une connexion fluide avec l’utilisateur, éventuellement sans passer par le cloud, est très puissante. Parmi les applications possibles, il y a l’aide aux malvoyants ou à des personnes qui ne peuvent plus parler : la machine les aiderait à parler en écoutant et en prenant la parole pour eux. C’est un cas d’usage sur lequel nous nous penchons autour de certaines maladies. Nous pensons pouvoir sortir bientôt des prototypes sous forme de recherche. Par ailleurs, nous travaillons beaucoup sur l’efficacité en général : comment être efficace à l’entraînement, avec moins de données ou moins de calcul. Ce sont des travaux méthodologiques. Et aussi comment être efficace à l’usage, particulièrement pour les IA conversationnelles, écrites ou parlées. Donc comment faire, sans exploser le coût du calcul, pour qu’elles puissent garder une mémoire importante, soit parce que l’interaction est longue, soit parce qu’on a injecté beaucoup de documents. La mémoire efficace est un enjeu clé pour que la machine soit plus intelligente et utile.

Les mutations du search à l’ère de l’IA générative

Quels sont vos projets applicables aux médias ?

Plusieurs de nos projets sont applicables aux médias. Par exemple sur la problématique de faire accéder un modèle à une connaissance extérieure, notamment des bibliothèques de documents écrits ou multimédias, qu’il n’a pas vus lors de son entraînement, mais auxquels il peut accéder au moment de l’usage. C’est compliqué techniquement, car avec de gros volumes, il faut que cela tienne dans les contraintes de mémoire et de calcul. C’est un enjeu très intéressant notamment pour les gens qui doivent chercher des informations dans de gros volumes propriétaires qui n’ont pas été utilisés à l’entraînement, typiquement les journalistes, les médias, ou les chercheurs. C’est l’une des promesses les plus intéressantes de l’IA contemporaine, mais elle vient avec son lot de problèmes techniques liés à efficacité.

Un autre projet applicable aux médias, sur lequel nous sommes très actifs, concerne l’IA vocale. Nous avons d’ailleurs participé au dispositif de synthèse vocale La Provence Audio, que le journal vient de lancer. Toujours sur ce registre de la voix, nous travaillons sur un autre enjeu qui peut intéresser les médias ; celui de la traduction en temps réel. Nous avons présenté un premier dispositif en février, baptisé Hibiki. C’est l’une de nos fiertés : il permet une traduction vocale simultanée en temps réel, avec préservation de la voix du locuteur, et peut tourner sur un téléphone portable. Ce modèle a déjà été open-sourcé et a généré énormément de sollicitations à travers le monde, de la part d’acteurs privés, notamment des groupes médias français et européens, et d’institutionnels, car il y a évidemment beaucoup d’enjeux de traduction dans le service public. Nous discutons actuellement avec tous ces acteurs pour voir comment répondre à leurs besoins.

L’IA dans les rédactions : les exemples de l’AFP, Ouest-France et Humanoid

Vous avez évoqué la fonctionnalité de text-to-speech développée pour La Provence, officiellement lancée en septembre. Quelles sont les difficultés de ce type de projet et vos atouts pour y répondre ?

La Provence voulait créer un dispositif qui permette à ses lecteurs de consulter ses contenus via la voix. L’idée était de s’appuyer sur les articles de La Provence et d’en faire des versions plus appropriées pour être mises en voix, c’est-à-dire plus compactes et plus dynamiques qu’un simple speech-to-text, donc plus simple qu’une lecture vocale automatique de texte. La synthèse vocale expressive qui est utilisée dans ce produit est l’une de nos briques technologiques, avec un clonage vocal à partir de voix fournies par La Provence. Mistral AI a créé la voix, et le cabinet BCGX assurait la coordination du projet et l’intégration. La technologie que nous avons développée – du prompting dans notre jargon – posait plusieurs défis. L’un des enjeux techniques était de générer une voix de très grande qualité et très expressive, en temps réel et à la volée, c’est-à-dire au fur et à mesure que le texte arrive. Dans certains cas d’usage, ce n’est pas très important, mais dans d’autres, comme lorsqu’un texte sort d’un chatbot, c’est essentiel. Techniquement, c’est difficile à mettre en œuvre. L’autre difficulté, liée à la première, tient à l’efficacité : non seulement le rendu doit être produit rapidement, mais aussi de façon très efficace en calcul. Si c’est fait sur des serveurs dans le cloud, on peut utiliser la même carte graphique, le même GPU, pour générer énormément de voix en parallèle, ce qui permet d’avoir des coûts de déploiement et d’exploitation faibles. C’est très important quand on sert beaucoup de clients simultanément. L’expérience de ce travail avec La Provence nous a permis d’avoir leurs retours sur un cas d’usage réel, et donc d’imaginer des pistes d’amélioration, par exemple sur la façon de bien prononcer les entités ou les sigles pour un public francophone.

“Tous nos travaux sont open-sourcés et chacun peut s’en saisir”

Cette technologie est donc désormais open-sourcée ?

Oui, nous l’avons open-sourcée, comme tous nos travaux achevés, et chacun peut s’en saisir. Cette brique peut être très utile pour les projets de synthèse vocale expressive, en temps réel et à bas coût. Notre partage open-source est réalisé sur la plateforme spécialisée GitHub, et sur celle de Hugging Face, un laboratoire privé fondé par des Français (Hugging Face met à disposition du code et a toujours une grande partie de ses activités à Paris, ndlr). Toute notre démarche est gratuite, en libre accès et en libre utilisation, au sens classique de l’open sourcing, avec des licences extrêmement permissives. Les individus, comme les laboratoires et les entreprises, peuvent en faire ce qu’ils veulent. C’est mieux quand ceux qui les utilisent mentionnent Kyutai comme auteur du code, ce qui n’est pas toujours le cas, mais ce n’est pas obligatoire. Nous savons que certaines de nos briques partagées sont très utilisées par certains grands groupes.

Dans un projet comme celui de La Provence Audio ou d’autres, vos modèles sont-ils auto-apprenants ? Vont-ils évoluer ?

Non, ils ne vont pas évoluer tout seuls. En revanche, ce sont des sujets sur lesquels nous continuons à travailler. Mais s’il y a des marques d’intérêt à La Provence ou dans d’autres médias ou structures pour aller plus loin, nous pourrons remplacer et prolonger les modèles. C’est vrai d’ailleurs de beaucoup de modèles d’IA accessibles via des API : lorsque la version change, il y a une modification, mais les modèles n’évoluent pas eux-mêmes. Ce serait peut-être désirable pour l’IA du futur, mais il y a beaucoup d’autres considérations. Et puis il y a des mises à jour, qui changent le modèle pour tout le monde.

Pierre Louette (Apig / Les Échos-Le Parisien) : “Nous devons rendre les textes législatifs plus contraignants pour les plateformes”

Avez-vous d’autres projets en cours avec des médias ou susceptibles de les intéresser ?

J’ai parlé de la synthèse vocale, mais il y a aussi la transcription, pour laquelle nous avons développé des briques open-source très performantes. La transcription et la synthèse sont un peu les deux faces d’une même pièce et servent beaucoup pour les IA vocales. Nous avons montré et partagé publiquement un prototype appelé Unmute, qui permet de donner une dimension vocale à une IA textuelle. Autrement dit, on prend une IA textuelle open-source, on met en entrée une transcription vocale de la parole de l’utilisateur, et à la sortie un synthétiseur vocal qui rend la réponse du modèle. Cela permet une approche extrêmement modulaire de l’IA conversationnelle rendue vocale, tout en ayant un modèle de texte au milieu que l’on peut continuer à améliorer de façon textuelle. C’est très intéressant si la latence est faible, ce que nous avons réussi à faire. Nous l’avons fait pour l’instant en français et en anglais, mais il y a des besoins dans d’autres langues, que nous regardons avec certains partenaires. Il y a des médias audiovisuels, notamment francophones visant l’international, qui ont ce type de besoin, notamment pour la traduction. C’est un autre type de projet sur lequel nous travaillons. Plus généralement, nous discutons avec différents médias sur l’IA vocale ; avec certains cela débute, avec d’autres, c’est déjà plus avancé. Comme nous sommes une entité à but non lucratif, le partenariat ne se fait pas sur la même base qu’avec des fournisseurs et clients commerciaux. C’est avantageux pour les médias.

La puissance de calcul est clé dans les projets IA. Quels sont vos choix techniques de serveurs et de puces ? Est-ce suffisant ?

Depuis la création du labo, nous utilisons des machines de calcul chez Scaleway (détenu par Iliad / Xavier Niel, ndlr). L’entreprise venait d’acquérir un supercalculateur dédié à l’IA basé sur l’infrastructure NVIDIA DGX H100. C’est ce SuperPod que nous utilisons intégralement depuis le début. C’est notre principale machine. Nous louons parfois du “compute” supplémentaire pour des besoins ponctuels de calcul en plus, mais c’est le même genre de puces, des NVIDIA H100 ou H200. Est-ce toujours suffisant ? Pour une équipe de chercheurs ambitieux, ce n’est jamais assez. Mais, ramené à la taille de notre équipe, c’est très confortable. Nos projets sont aussi pensés en fonction des ressources dont nous disposons. Il y a deux choses à garder à l’esprit : premièrement, nos machines ne servent qu’à entraîner et concevoir des modèles, pas à les déployer et les servir, ce qui fait une grande différence dans les besoins réels de calcul. Deuxièmement, suivant les types de données et les fonctionnalités, tous les modèles ne réclament pas des centaines de millions de GPU (pour Graphics Processing Unit, un type de processeur, ndlr) pour être entraînés. Nous faisons beaucoup d’audio et d’images, ce qui est sans doute moins gourmand en ressources de calcul que le texte, contrairement aux grands modèles de langage. Nous avons donc de quoi faire.

“Nous voulons aussi donner envie à de nouveaux mécènes de rejoindre l’aventure. Il y a des discussions en cours qui pourraient déboucher en 2026”

Votre effectif de 25 personnes est-il suffisant pour réaliser vos projets ? Voulez-vous construire une organisation plus grande ?

Ce n’est pas une fin en soi d’augmenter la taille de la structure. D’abord, parce que si l’équipe grossit sensiblement, il faut s’assurer que les ressources en calcul grossissent proportionnellement. Ensuite, parce qu’il est important de s’assurer que l’équipe reste au meilleur niveau. Par ailleurs, il y a une compétition mondiale farouche pour attirer les talents dans tous les hubs d’IA, dont Paris. Nous avons des atouts et nous attirons déjà des profils, du fait de notre mission et de l’environnement de travail que nous proposons. Notre expérience sur ces deux premières années montre qu’il n’est pas nécessaire d’être 200 pour mener des projets IA dans l’état de l’art, et même pour être à l’origine de premières mondiales. Dans l’histoire récente de l’IA, des projets extrêmement impactants ont d’ailleurs été menés par des équipes de 5, 10 ou 20 personnes, comme l’équipe à l’origine du papier des Transformers en 2017-2018, qui a révolutionné l’IA générative.

On assiste à une très forte concurrence dans le secteur de l’intelligence artificielle, en matière de recrutement, de financement et de projets. Que pensez-vous de l’écosystème français de l’IA ?

En France, nous avons parfois tendance à nous auto-flageller, à considérer que nous sommes petits, dépassés, etc., et nous le faisons aussi pour l’IA. Je pense au contraire que l’écosystème parisien de l’IA, et l’écosystème français en général, est exceptionnel et extrêmement impressionnant. Il va des académiques aux labos privés, en passant par les start-up et les acteurs atypiques comme nous. C’est un écosystème très dynamique, que les pouvoirs publics, les investisseurs privés et les donateurs devraient soutenir davantage. Cela vaut aussi pour les labos académiques et la recherche publique : on ne souligne pas assez le très bon travail des équipes qu’il y a dans certains labos académiques, et ils n’ont pas toujours les moyens à la hauteur de leurs ambitions.

Synthèse de l’étude mind Media-366 sur l’IA générative appliquée à la recherche, aux médias et à la publicité

Quels sont vos projets pour 2026 ?

Les priorités sont de recruter au meilleur niveau, de poursuivre et développer les projets que j’ai mentionnés autour de modèles généralistes multimodaux, légers et en temps réel, et de décliner des cas d’usage intéressants d’un point de vue sociétal. Nous voulons le faire avec des acteurs pertinents : des spécialistes, des organisations et des utilisateurs. Nous voulons aussi donner envie à de nouveaux mécènes de rejoindre l’aventure. Il y a des discussions en cours qui pourraient déboucher en 2026.

Jean-Michel De Marchi

Besoin d’informations complémentaires ?

Contactez

le service d’études à la demande de mind