🎤 Interview – L’IA qui parle (et écoute) en temps réel (Patrick Pérez, Kyutai)

29.10.2025

Monde Numérique (Actu Tech)

0:00

33:54

Le patron du laboratoire français Kyutai détaille les avancées spectaculaires de ses IA vocales open source : interaction fluide, traduction en temps réel et synthèse vocale à la volée.

Interview : Patrick Pérez, directeur général de Kyutai

Un laboratoire à but non lucratif pour une IA ouverte

Kyutai est un centre de recherche sur l’intelligence artificielle à but non lucratif, fondé en 2023 grâce au mécénat de Xavier Niel, Rodolphe Saadé et Eric Schmidt, ancien CEO de Google.
L’objectif : faire progresser la recherche fondamentale sur les grands modèles d’IA et partager les résultats en open source, du code aux modèles, pour stimuler l’écosystème scientifique mondial.
Patrick Pérez, son directeur, le souligne : « nous ne faisons pas de produit, mais de la science ».

Moshi : la première IA vocale vraiment naturelle

Le premier projet emblématique de Kyutai, Moshi, est une IA conversationnelle sans tour de parole imposé. Elle comprend et répond en temps réel, peut couper la parole à bon escient et saisit les nuances émotionnelles de la voix.
Une innovation majeure : Moshi ne passe pas par une transcription textuelle, préservant ainsi le timbre, l’émotion et les intonations. Open-sourcé en 2024, le modèle a déjà été téléchargé plusieurs millions de fois et inspire de nouveaux projets comme Sésame, qui réutilise certaines de ses briques.

Ibiki : la traduction simultanée façon interprète

Dévoilé au Sommet mondial de l’IA au Grand Palais en 2025, Ibiki traduit une conversation en simultané, tout en préservant la voix originale de l’orateur.
Ce modèle, capable de fonctionner sur un smartphone, représente une avancée majeure face aux systèmes propriétaires comme Meta AI ou OpenAI.
Encore au stade de prototype, Ibiki démontre la maturité de la recherche française en matière d’IA vocale temps réel et de traduction instantanée expressive.

Unmute : la synthèse vocale à la volée

Avec Unmute, Kyutai repousse encore les limites : la synthèse vocale s’effectue en même temps que le texte est généré par un modèle de langage (LLM).
Ce procédé permet une réponse instantanée et naturelle, sans latence perceptible. Ces avancées ouvrent la voie à de nouvelles expériences immersives — assistants vocaux, médias parlants ou interfaces interactives.
C’est aussi l’un des chantiers clés de l’IA « multimodale », qui marie texte, son et vision dans un même flux de communication.

Le futur : multimodalité et accessibilité

Kyutai poursuit ses recherches sur la multimodalité, visant à créer des IA capables d’interpréter voix, texte, images et vidéos en temps réel.
Certaines de ces briques sont déjà utilisées par le média La Provence pour convertir ses articles en audio expressif.
Une application concrète de la mission de Kyutai : rendre la recherche ouverte, utile et inclusive, tout en démontrant que l’innovation européenne peut rivaliser avec les géants américains.

-----------
♥️ Soutien
https://donorbox.org/monde-numerique
🗞️ Newsletter
https://mondenumerique.substack.com
📹 Chaîne YouTube
https://www.youtube.com/@mondenumerique

Hébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.

Więcej odcinków z kanału "Monde Numérique (Actu Tech)"

Więcej odcinków

Odkrywaj najlepsze podcasty dzięki bezpłatnej aplikacji GetPodcast.

Subskrybuj ulubione podcasty, słuchaj odcinków offline i sprawdzaj najlepsze polecane podcasty.

🎤 Interview – L’IA qui parle (et écoute) en temps réel (Patrick Pérez, Kyutai)

Monde Numérique (Actu Tech)

Interview : Patrick Pérez, directeur général de Kyutai

Un laboratoire à but non lucratif pour une IA ouverte

Moshi : la première IA vocale vraiment naturelle

Ibiki : la traduction simultanée façon interprète

Unmute : la synthèse vocale à la volée

Le futur : multimodalité et accessibilité

Więcej odcinków z kanału "Monde Numérique (Actu Tech)"

🎤 Interview – L’IA qui parle (et écoute) en temps réel (Patrick Pérez, Kyutai)

🎤 L'humeur de Luc Julia - « Nous avons mis tous nos œufs dans le même cloud »

🇫🇷🇨🇦 Debrief Transat – Amazon robotise ses livreurs, OpenAI attaque Google, Apple recule sur l’iPhone Air

☕️ GRAND DEBRIEF (oct. 25) - San Francisco, robotaxis et humanoïdes : on n'est pas sortis de l'auberge !

📆 L'HEBDO 25/10 - La bataille des navigateurs IA

✍️ Edito - Faut-il freiner la course à l’intelligence artificielle ?

📰 Actu - Free veut réinventer la télé avec une appli gratuite

🎤 Interview - Dans les coulisses du nucléaire de demain (Julien Villeret, EDF)

🎤 Interview - GITEX Dubaï 2025 : l’autre grand salon mondial de la tech (Florent Roulier, Niji)

🇫🇷🇨🇦 Debrief Transat - IA générative : Google, Microsoft, OpenAI… la surenchère continue