Cartesia Sonic 3 : Des voix IA avec emotion et plus de 40 langues

Cartesia Sonic 3 ajoute emotion, rire et 40+ langues a la synthese vocale IA en moins de 100ms. Ce que cela signifie pour les assistants telephoniques.

David Schemm David Schemm

Il y a un test simple pour savoir si une voix synthétique fonctionne au téléphone. Appelez votre propre système, annoncez un problème urgent, et écoutez la réponse. Si le ton est identique à celui d’une confirmation de rendez-vous banal, vous avez un problème. Les appelants le remarquent en quelques secondes.

Cartesia vient de publier Sonic 3, et c’est exactement ce genre de problème que le modèle cherche à résoudre. Disponible depuis fin 2025 (snapshot sonic-3-2025-10-27), cette mise à jour conserve la latence sous les 100 millisecondes tout en ajoutant deux capacités majeures : l’expression émotionnelle et le support de plus de 40 langues. Par rapport à Sonic 2, qui couvrait 15 langues sans contrôle émotionnel, le saut est considérable.

L’émotion dans la voix : un enjeu concret pour le téléphone

En France, les attentes téléphoniques sont élevées. Les Français passent en moyenne plus de temps au téléphone que leurs voisins européens pour les interactions commerciales, et la qualité perçue du service dépend fortement du ton employé. Un ton chaleureux pour un rappel. Un ton sérieux pour une réclamation. Un ton rassurant pour un patient inquiet.

Les systèmes TTS précédents ne pouvaient pas faire cette distinction. Le même ton servait pour “votre commande est en route” et “je comprends votre frustration.” Les mots étaient adaptés, mais la voix restait plate.

Sonic 3 change la donne avec des capacités d’expression qui incluent :

  • La chaleur et l’empathie face à un appelant en difficulté
  • L’enthousiasme pour annoncer une bonne nouvelle
  • Un ton calme et posé pour rassurer les appelants anxieux
  • Le rire naturel quand le contexte s’y prête

Le contrôle passe par des balises SSML et des paramètres API. Volume, débit, et tonalité émotionnelle se règlent au niveau de la phrase. Une même réponse peut commencer sur un ton informatif et se terminer avec de la chaleur, selon ce que le contenu demande.

Pour les entreprises françaises qui utilisent des assistants téléphoniques IA, cette avancée est notable. La communication téléphonique en France accorde beaucoup d’importance au ton. Un “bonjour” sans chaleur suffit parfois à orienter toute la conversation vers le négatif.

Plus de 40 langues : du local au mondial

Sonic 2 supportait 15 langues. Le français était inclus, ainsi que les principales langues européennes. Mais pour les entreprises françaises qui travaillent avec l’Afrique francophone, le Maghreb, l’Asie du Sud-Est ou le Moyen-Orient, les lacunes étaient réelles.

Sonic 3 passe à plus de 40 langues, couvrant environ 95% de la population mondiale. Quelques ajouts qui comptent pour le marché français :

L’arabe ouvre des portes pour les entreprises qui travaillent avec le Maghreb et le Moyen-Orient. Les échanges commerciaux entre la France et ces régions sont importants, et pouvoir gérer des appels en arabe avec le même moteur TTS qu’en français simplifie l’infrastructure.

Le vietnamien intéresse les entreprises avec des liens historiques en Asie du Sud-Est.

Les neuf langues indiennes (hindi, bengali, tamoul, télougou, gujarati, kannada, malayalam, marathi et panjabi) concernent les entreprises avec des équipes ou des clients en Inde, un cas de plus en plus fréquent dans le secteur technologique.

Pour les entreprises multilingues, un seul fournisseur TTS peut maintenant gérer des appels en français, anglais, arabe, mandarin et hindi sans assemblage de moteurs différents. C’est un gain de temps et une source d’erreurs en moins. Nous avons analysé en détail le paysage des agents vocaux IA en 2026.

Conformité réglementaire : SOC 2, HIPAA, PCI

En France et en Europe, la conformité n’est pas optionnelle. Le RGPD impose des exigences strictes sur le traitement des données personnelles, et les secteurs réglementés (santé, finance, juridique) ajoutent leurs propres contraintes.

Sonic 3 arrive avec trois certifications qui couvrent les cas d’usage les plus sensibles :

SOC 2 Type II atteste que les systèmes de Cartesia maintiennent des pratiques de sécurité sur la durée, pas uniquement lors d’un audit ponctuel. HIPAA permet l’utilisation dans des contextes médicaux où les données de patients transitent par le moteur TTS. PCI Level 1 autorise les conversations liées aux paiements (montants de commande, confirmations de transactions) au plus haut niveau de sécurité.

Pour un cabinet médical qui envisage un assistant téléphonique IA, ou un cabinet d’avocats qui traite des informations confidentielles par téléphone, ces certifications font passer le dossier de “à étudier” à “techniquement recevable.” La différence est importante dans des cycles de décision qui peuvent durer des mois.

Clonage vocal rapide

Sonic 3 réduit le temps nécessaire pour cloner une voix. L’option instantanée fonctionne avec seulement 10 secondes d’audio de référence. Un échantillon court suffit pour générer un clone qui reproduit les caractéristiques du locuteur.

Pour une entreprise qui souhaite que son assistant téléphonique IA utilise la voix d’une personne connue des clients (le fondateur, la secrétaire, un porte-parole), la barrière d’entrée baisse. Dix secondes, c’est un enregistrement sur smartphone. Pour des besoins plus exigeants, le clonage professionnel avec des échantillons plus longs reste disponible.

Ce que Sonic 3 change pour les assistants téléphoniques IA

Chaque progrès en synthèse vocale améliore directement la qualité des appels IA. Sonic 3 cible les points qui comptent le plus pour les applications téléphoniques.

L’émotion modifie le comportement des appelants. Quand une voix exprime de l’intérêt ou de la préoccupation au bon moment, les appelants restent plus longtemps en ligne. Ils partagent plus d’informations, se sentent mieux écoutés, et gardent une meilleure impression de l’échange. Pour des produits comme Safina qui gèrent de vrais appels professionnels, cela se traduit par plus de contacts qualifiés, une meilleure satisfaction, et moins de plaintes sur “la machine qui répond.”

Plus de langues ouvrent plus de marchés. Avec 15 langues, certains marchés restaient inaccessibles. Avec 40+, la question devient “veut-on y aller?” plutôt que “peut-on le faire?”

La conformité accélère les décisions. Les établissements de santé, cabinets juridiques et conseillers financiers peuvent évaluer des solutions IA téléphoniques sans un processus de validation qui dure des mois.

Pour comprendre comment ces avancées s’inscrivent dans le contexte plus large de la synthèse vocale, consultez notre comparatif des fournisseurs TTS 2025. Et pour voir comment Safina utilise le TTS dans sa propre architecture, nous l’expliquons dans notre série technique.

Sources

9:41

Safina a traité 51 appels cette semaine

46

Fiable

4

Suspect

1

Dangereux

7 derniers jours
Filter
EB
Emma Martin 67s 15:30

Souhaite discuter de l'offre pour la nouvelle campagne et a des questions sur le calendrier.

LS
Laura Dupont 54s 14:45

Demande le statut de la commande et la date de livraison.

TH
Thomas Petit 34s 13:10

Planifier une réunion pour la discussion projet la semaine prochaine.

Inconnu 44s 11:30

Promesse de gain – probablement du spam.

SM
Sophie Moreau 10s 09:15

Réclamation sur la dernière commande, demande un rappel.

MM
Michel Mercier 95s 13 déc.

Souhaite discuter d'une collaboration potentielle.

AR
Amélie Robert 85s 13 déc.

C'est votre collègue et elle souhaite discuter du projet.

JK
Julien Keller 42s 12 déc.

Se renseigne sur les créneaux disponibles la semaine prochaine.

LB
Louise Bernard 68s 12 déc.

A des questions sur la facture et demande des éclaircissements.

Appels
Safina
Contacts
Profil
9:41
Appel d'Emma Martin
12 déc.
11:30
67s
+33612345678

Souhaite discuter de l'offre pour la nouvelle campagne et a des questions sur le calendrier.

Points clés

  • Rappeler Emma Martin
  • Clarifier les questions de calendrier et de tarifs
Rappeler
Modifier le contact

Aperçus IA

Humeur de l'appelant Très bon

L'appelant était coopératif et a fourni les informations nécessaires.

Urgence Faible

L'appelant peut attendre une réponse.

Audio et transcription

0:16

Bonjour, ici Safina AI, l'assistante digitale de Peter. Comment puis-je vous aider ?

Bonjour Safina, ici Emma Martin. Je voulais discuter de l'offre et du calendrier.

Merci Emma. Hésitez-vous surtout entre le forfait Standard et le forfait Pro pour le lancement ?

Exactement. Nous avons besoin du forfait Pro et nous aimerions démarrer le mois prochain si l'onboarding est possible la première semaine.

Dites adieu à votre messagerie vocale dépassée.

Essayez Safina gratuitement et commencez à gérer vos appels intelligemment.