En France, la relation au téléphone est particulière. Les entreprises françaises reçoivent encore une grande part de leurs demandes clients par appel vocal. Le standard téléphonique reste un poste de dépense réel pour les PME, les cabinets médicaux, les agences immobilières. Et quand une IA prend le relais, la qualité de la voix fait toute la différence entre un appelant qui reste en ligne et un qui raccroche immédiatement.
En mars 2025, Cartesia a lancé Sonic 2, un modèle de synthèse vocale (TTS), en même temps qu’une levée de fonds de 64 millions de dollars en Série A. Ce modèle a changé ce qui était possible en termes de rapidité et de naturel pour les voix IA au téléphone.
Cartesia Sonic 2 : Ce que ce modèle apporte de nouveau
Cartesia est une entreprise basée à San Francisco qui développe des modèles d’IA en temps réel. Leur gamme TTS, appelée Sonic, se concentre sur la génération vocale à faible latence. Sonic 2 n’est pas une mise à jour progressive. C’est une refonte du modèle avec un changement d’architecture.
La plupart des fournisseurs TTS utilisent des architectures transformer. C’est la même famille de modèles que GPT. Les transformers traitent les séquences en comparant chaque élément à tous les précédents. Pour l’audio, ça devient coûteux en calcul parce que le coût augmente de manière quadratique avec la longueur de la séquence.
Cartesia a choisi les State Space Models (SSMs). Au lieu de revoir toute la séquence à chaque étape, un SSM maintient un état comprimé qui s’actualise à chaque nouveau point de données. Le résultat concret : une génération audio plus rapide avec moins de puissance de calcul. C’est ce qui permet à Cartesia de produire de la parole aussi vite.
Lors de tests en aveugle, Sonic 2 a affiché un taux de préférence de 1,5x par rapport au meilleur concurrent suivant. La qualité vocale est meilleure en prosodie (le rythme et l’intonation du discours) et les hallucinations (ces moments où le TTS prononce des mots absents du texte original) sont fortement réduites.
Pour voir comment les principaux fournisseurs TTS se comparent en coût et en qualité, nous avons préparé un guide comparatif détaillé.
Pourquoi 90 millisecondes changent tout
Au téléphone, chaque milliseconde de silence compte. Il n’y a pas de visage à regarder, pas de geste pour signaler qu’on réfléchit. Juste de l’audio. Les études sur les tours de parole en conversation montrent que les pauses au-delà de 200 millisecondes commencent à sembler anormales. Au-delà de 400ms, la conversation paraît cassée.
Les systèmes TTS traditionnels fonctionnent entre 200 et 500ms de latence. C’est le temps entre la réception du texte et la production des premiers octets audio. En ajoutant la reconnaissance vocale et le traitement par le modèle de langage, le délai total dans un appel IA atteint 800ms ou plus. A ce stade, l’appelant répète sa question ou parle en même temps que l’IA.
Sonic 2 ramène la latence du modèle à 90 millisecondes. La variante Sonic Turbo descend à 40ms. En dessous de 100ms de latence TTS, cette étape cesse d’être le goulet d’étranglement du pipeline. La réponse arrive avant que le silence ne devienne gênant.
Ce n’est pas un avantage théorique visible uniquement sur un benchmark. C’est ce qui fait qu’un appelant reste en ligne au lieu de raccrocher. Pour une explication technique de la place du TTS dans le pipeline vocal complet, lisez notre plongée dans l’approche TTS de Safina.
Clonage vocal et 15 langues
Sonic 2 a été lancé avec la prise en charge de 15 langues : anglais, français, allemand, espagnol, portugais, chinois, japonais, hindi, italien, coréen, néerlandais, polonais, russe, suédois et turc. Le fait que le français figure parmi les langues de lancement est une bonne nouvelle pour le marché francophone.
Le clonage vocal fonctionne à partir de seulement 3 secondes d’audio. On enregistre un court échantillon, et le modèle peut générer de la parole avec cette voix dans les 15 langues disponibles. Pour une entreprise française, ça signifie qu’on peut avoir la même identité vocale pour les clients francophones, anglophones et germanophones.
Prenons un exemple concret. Un hôtel à Nice reçoit des appels en français, en anglais et en italien. Un cabinet de conseil à Paris traite des demandes en français et en anglais quotidiennement. Une clinique à Bruxelles jongle entre le français et le néerlandais. Pouvoir répondre dans la langue de l’appelant, avec une prononciation naturelle et une voix de marque cohérente, change la perception que les gens ont d’un système téléphonique automatisé.
Nous avons écrit séparément sur les agents vocaux IA en 2026 et sur l’importance du support multilingue pour les assistants téléphoniques.
Ce que cela signifie pour les assistants téléphoniques IA
Un appel téléphonique, c’est uniquement du son. Pas d’écran. Pas d’interface visuelle. Pas d’indicateur qui montre que le système “réfléchit”. La voix est l’expérience produit dans sa totalité. Si cette voix sonne plate, si elle met trop de temps à répondre, si elle paraît mécanique, l’appelant perd confiance dans les premières secondes.
Les recherches sur la psychologie derrière les voix IA montrent que les appelants forment un jugement de crédibilité presque instantanément. Une voix qui sonne humaine maintient l’engagement. Une voix qui sonne artificielle donne une raison de raccrocher.
La faible latence crée un flux de conversation naturel. La bonne prosodie donne l’impression que l’IA comprend ce qu’elle dit. Le clonage vocal permet à une entreprise d’avoir un ton reconnaissable et professionnel que les clients associent à la marque.
Des produits comme Safina utilisent le TTS comme dernière étape d’un pipeline qui comprend la reconnaissance vocale, le traitement par modèle de langage et la génération audio. Chaque étape ajoute de la latence. Quand le modèle TTS fait sa part en moins de 100 millisecondes, le temps de réponse total reste dans une fourchette qui ressemble à une vraie conversation.
Cartesia Sonic 2 a fixé un nouveau standard. 90ms de latence, 15 langues, clonage vocal à partir de 3 secondes d’enregistrement, au prix de 46,70 dollars par million de caractères. Pour tous ceux qui construisent des produits vocaux IA destinés à des conversations téléphoniques réelles, mars 2025 a marqué un tournant dans ce qui est techniquement possible.