Cartesia Sonic 2 : Le modele TTS qui rend les voix IA naturelles au telephone

Cartesia Sonic 2 propose la synthese vocale en 90ms, 15 langues et le clonage vocal. Pourquoi c'est important pour les assistants telephoniques IA.

David Schemm David Schemm

En France, la relation au téléphone est particulière. Les entreprises françaises reçoivent encore une grande part de leurs demandes clients par appel vocal. Le standard téléphonique reste un poste de dépense réel pour les PME, les cabinets médicaux, les agences immobilières. Et quand une IA prend le relais, la qualité de la voix fait toute la différence entre un appelant qui reste en ligne et un qui raccroche immédiatement.

En mars 2025, Cartesia a lancé Sonic 2, un modèle de synthèse vocale (TTS), en même temps qu’une levée de fonds de 64 millions de dollars en Série A. Ce modèle a changé ce qui était possible en termes de rapidité et de naturel pour les voix IA au téléphone.

Cartesia Sonic 2 : Ce que ce modèle apporte de nouveau

Cartesia est une entreprise basée à San Francisco qui développe des modèles d’IA en temps réel. Leur gamme TTS, appelée Sonic, se concentre sur la génération vocale à faible latence. Sonic 2 n’est pas une mise à jour progressive. C’est une refonte du modèle avec un changement d’architecture.

La plupart des fournisseurs TTS utilisent des architectures transformer. C’est la même famille de modèles que GPT. Les transformers traitent les séquences en comparant chaque élément à tous les précédents. Pour l’audio, ça devient coûteux en calcul parce que le coût augmente de manière quadratique avec la longueur de la séquence.

Cartesia a choisi les State Space Models (SSMs). Au lieu de revoir toute la séquence à chaque étape, un SSM maintient un état comprimé qui s’actualise à chaque nouveau point de données. Le résultat concret : une génération audio plus rapide avec moins de puissance de calcul. C’est ce qui permet à Cartesia de produire de la parole aussi vite.

Lors de tests en aveugle, Sonic 2 a affiché un taux de préférence de 1,5x par rapport au meilleur concurrent suivant. La qualité vocale est meilleure en prosodie (le rythme et l’intonation du discours) et les hallucinations (ces moments où le TTS prononce des mots absents du texte original) sont fortement réduites.

Pour voir comment les principaux fournisseurs TTS se comparent en coût et en qualité, nous avons préparé un guide comparatif détaillé.

Pourquoi 90 millisecondes changent tout

Au téléphone, chaque milliseconde de silence compte. Il n’y a pas de visage à regarder, pas de geste pour signaler qu’on réfléchit. Juste de l’audio. Les études sur les tours de parole en conversation montrent que les pauses au-delà de 200 millisecondes commencent à sembler anormales. Au-delà de 400ms, la conversation paraît cassée.

Les systèmes TTS traditionnels fonctionnent entre 200 et 500ms de latence. C’est le temps entre la réception du texte et la production des premiers octets audio. En ajoutant la reconnaissance vocale et le traitement par le modèle de langage, le délai total dans un appel IA atteint 800ms ou plus. A ce stade, l’appelant répète sa question ou parle en même temps que l’IA.

Sonic 2 ramène la latence du modèle à 90 millisecondes. La variante Sonic Turbo descend à 40ms. En dessous de 100ms de latence TTS, cette étape cesse d’être le goulet d’étranglement du pipeline. La réponse arrive avant que le silence ne devienne gênant.

Ce n’est pas un avantage théorique visible uniquement sur un benchmark. C’est ce qui fait qu’un appelant reste en ligne au lieu de raccrocher. Pour une explication technique de la place du TTS dans le pipeline vocal complet, lisez notre plongée dans l’approche TTS de Safina.

Clonage vocal et 15 langues

Sonic 2 a été lancé avec la prise en charge de 15 langues : anglais, français, allemand, espagnol, portugais, chinois, japonais, hindi, italien, coréen, néerlandais, polonais, russe, suédois et turc. Le fait que le français figure parmi les langues de lancement est une bonne nouvelle pour le marché francophone.

Le clonage vocal fonctionne à partir de seulement 3 secondes d’audio. On enregistre un court échantillon, et le modèle peut générer de la parole avec cette voix dans les 15 langues disponibles. Pour une entreprise française, ça signifie qu’on peut avoir la même identité vocale pour les clients francophones, anglophones et germanophones.

Prenons un exemple concret. Un hôtel à Nice reçoit des appels en français, en anglais et en italien. Un cabinet de conseil à Paris traite des demandes en français et en anglais quotidiennement. Une clinique à Bruxelles jongle entre le français et le néerlandais. Pouvoir répondre dans la langue de l’appelant, avec une prononciation naturelle et une voix de marque cohérente, change la perception que les gens ont d’un système téléphonique automatisé.

Nous avons écrit séparément sur les agents vocaux IA en 2026 et sur l’importance du support multilingue pour les assistants téléphoniques.

Ce que cela signifie pour les assistants téléphoniques IA

Un appel téléphonique, c’est uniquement du son. Pas d’écran. Pas d’interface visuelle. Pas d’indicateur qui montre que le système “réfléchit”. La voix est l’expérience produit dans sa totalité. Si cette voix sonne plate, si elle met trop de temps à répondre, si elle paraît mécanique, l’appelant perd confiance dans les premières secondes.

Les recherches sur la psychologie derrière les voix IA montrent que les appelants forment un jugement de crédibilité presque instantanément. Une voix qui sonne humaine maintient l’engagement. Une voix qui sonne artificielle donne une raison de raccrocher.

La faible latence crée un flux de conversation naturel. La bonne prosodie donne l’impression que l’IA comprend ce qu’elle dit. Le clonage vocal permet à une entreprise d’avoir un ton reconnaissable et professionnel que les clients associent à la marque.

Des produits comme Safina utilisent le TTS comme dernière étape d’un pipeline qui comprend la reconnaissance vocale, le traitement par modèle de langage et la génération audio. Chaque étape ajoute de la latence. Quand le modèle TTS fait sa part en moins de 100 millisecondes, le temps de réponse total reste dans une fourchette qui ressemble à une vraie conversation.

Cartesia Sonic 2 a fixé un nouveau standard. 90ms de latence, 15 langues, clonage vocal à partir de 3 secondes d’enregistrement, au prix de 46,70 dollars par million de caractères. Pour tous ceux qui construisent des produits vocaux IA destinés à des conversations téléphoniques réelles, mars 2025 a marqué un tournant dans ce qui est techniquement possible.

Sources

9:41

Safina a traité 51 appels cette semaine

46

Fiable

4

Suspect

1

Dangereux

7 derniers jours
Filter
EB
Emma Martin 67s 15:30

Souhaite discuter de l'offre pour la nouvelle campagne et a des questions sur le calendrier.

LS
Laura Dupont 54s 14:45

Demande le statut de la commande et la date de livraison.

TH
Thomas Petit 34s 13:10

Planifier une réunion pour la discussion projet la semaine prochaine.

Inconnu 44s 11:30

Promesse de gain – probablement du spam.

SM
Sophie Moreau 10s 09:15

Réclamation sur la dernière commande, demande un rappel.

MM
Michel Mercier 95s 13 déc.

Souhaite discuter d'une collaboration potentielle.

AR
Amélie Robert 85s 13 déc.

C'est votre collègue et elle souhaite discuter du projet.

JK
Julien Keller 42s 12 déc.

Se renseigne sur les créneaux disponibles la semaine prochaine.

LB
Louise Bernard 68s 12 déc.

A des questions sur la facture et demande des éclaircissements.

Appels
Safina
Contacts
Profil
9:41
Appel d'Emma Martin
12 déc.
11:30
67s
+33612345678

Souhaite discuter de l'offre pour la nouvelle campagne et a des questions sur le calendrier.

Points clés

  • Rappeler Emma Martin
  • Clarifier les questions de calendrier et de tarifs
Rappeler
Modifier le contact

Aperçus IA

Humeur de l'appelant Très bon

L'appelant était coopératif et a fourni les informations nécessaires.

Urgence Faible

L'appelant peut attendre une réponse.

Audio et transcription

0:16

Bonjour, ici Safina AI, l'assistante digitale de Peter. Comment puis-je vous aider ?

Bonjour Safina, ici Emma Martin. Je voulais discuter de l'offre et du calendrier.

Merci Emma. Hésitez-vous surtout entre le forfait Standard et le forfait Pro pour le lancement ?

Exactement. Nous avons besoin du forfait Pro et nous aimerions démarrer le mois prochain si l'onboarding est possible la première semaine.

Dites adieu à votre messagerie vocale dépassée.

Essayez Safina gratuitement et commencez à gérer vos appels intelligemment.