Cartesia Sonic 3: Voces IA con emocion y mas de 40 idiomas

Cartesia Sonic 3 anade emocion, risa y 40+ idiomas a la sintesis de voz IA con menos de 100ms de latencia. Que significa para los asistentes telefonicos.

David Schemm David Schemm

Hay un momento en cada llamada telefónica con una IA que te saca de la conversación. El asistente dice las palabras correctas, pero el tono no encaja. Te quejas de un problema urgente y recibes una respuesta con la misma energía de alguien leyendo los ingredientes de una caja de cereales.

Cartesia acaba de lanzar Sonic 3, y ataca directamente este problema. El modelo, disponible desde finales de 2025 con el snapshot sonic-3-2025-10-27, mantiene la latencia por debajo de 100 milisegundos mientras añade capacidades de expresión emocional y soporte para más de 40 idiomas. Es una actualización considerable respecto a Sonic 2, que soportaba 15 idiomas y no tenía control emocional.

Emoción en la voz: por qué importa en el teléfono

Las llamadas telefónicas son interacciones con carga emocional. Un paciente que llama a una clínica con preocupación. Un cliente que reclama por un pedido incorrecto. Un potencial comprador entusiasmado con un producto.

En cada caso, la persona al otro lado del teléfono espera una respuesta que coincida con su estado emocional. No solo en el contenido, sino en el tono. Los estudios sobre comunicación telefónica muestran que la calidez vocal y la adaptación al tono del interlocutor aumentan la confianza y la satisfacción del llamante. Una respuesta plana a “estoy muy preocupado por esto” hace que la persona se sienta ignorada.

Sonic 3 introduce herramientas para ajustar el tono emocional de la voz sintetizada:

  • Empatía y calidez cuando el llamante está angustiado
  • Entusiasmo al comunicar buenas noticias
  • Calma tranquilizadora para llamantes nerviosos
  • Risa natural en momentos ligeros de la conversación

El control se realiza mediante etiquetas SSML y parámetros de la API. Los desarrolladores pueden ajustar volumen, velocidad y emoción a nivel de frase. Una respuesta puede empezar informativa y terminar con tono reconfortante, según lo que requiera el contenido.

Para el mercado hispanohablante, donde la comunicación telefónica tiende a ser más expresiva y personal que en otros mercados, esta capacidad es particularmente relevante. Una voz fría no solo resulta extraña, resulta grosera.

Más de 40 idiomas: cobertura casi global

El salto de 15 a más de 40 idiomas cambia lo que puedes hacer con un solo proveedor de TTS.

Para América Latina y España, el español ya estaba soportado. Pero ahora el conjunto de idiomas disponibles permite construir sistemas que atiendan llamadas en portugués brasileño, francés, árabe, mandarín e hindi sin cambiar de motor de síntesis. Para empresas que operan en mercados diversos (que en 2026 son la mayoría), esto simplifica la arquitectura de forma significativa.

La expansión más notable es la incorporación de nueve idiomas de India: hindi, bengalí, tamil, telugu, gujarati, canarés, malayalam, maratí y punyabí. India es el mercado de crecimiento más rápido para muchos sectores tecnológicos, y tener soporte nativo para sus principales idiomas abre posibilidades que antes requerían integraciones con proveedores locales especializados.

También se amplía la cobertura en Asia Oriental, Sudeste Asiático, Oriente Medio y África. La cifra de 40+ idiomas cubre la gran mayoría de mercados comercialmente relevantes del planeta.

Si te interesa cómo funcionan los asistentes telefónicos multilingües en la práctica, tenemos un análisis detallado sobre agentes de voz IA en 2026.

Certificaciones de seguridad para empresas

Las certificaciones de seguridad son de esas cosas que nadie busca hasta que las necesita. Y entonces se convierten en requisito eliminatorio.

Sonic 3 viene con SOC 2 Type II, HIPAA y PCI Level 1. En términos prácticos:

SOC 2 Type II demuestra que los sistemas de Cartesia manejan datos de forma segura de manera continua, no solo en una auditoría puntual. HIPAA abre la puerta a aplicaciones sanitarias donde la información de pacientes pasa por el motor de TTS. PCI Level 1 cubre conversaciones relacionadas con pagos, como confirmar montos de pedidos o datos de tarjetas.

En España y América Latina, donde la regulación de protección de datos se ha endurecido en los últimos años (GDPR en Europa, leyes locales en países como México y Argentina), contar con un proveedor que ya cumple con estándares internacionales simplifica el proceso de evaluación. Los departamentos legales pueden revisar las certificaciones en lugar de exigir auditorías propias.

Clonación de voz en 10 segundos

Otra novedad de Sonic 3: la clonación instantánea de voz ahora funciona con solo 10 segundos de audio de referencia. Grabas una muestra corta y el modelo genera un clon que captura las características del hablante.

Para negocios que quieren que su asistente telefónico suene como una persona específica (el fundador, la recepcionista cuya voz los clientes ya reconocen), esto reduce la barrera de entrada. Antes hacía falta sesiones de grabación más largas. Diez segundos se pueden grabar con un móvil.

Para necesidades más exigentes, Cartesia sigue ofreciendo clonación profesional con muestras más extensas. Pero la opción rápida hace que probar sea sencillo.

Qué significa esto para los asistentes telefónicos IA

Cada mejora en la síntesis de voz se traduce directamente en mejor calidad de llamadas. Sonic 3 apunta a las áreas que más importan para aplicaciones telefónicas.

La emoción cambia cómo responden los llamantes. Cuando una voz puede expresar preocupación o alegría de forma apropiada, las personas se sienten más cómodas. Se quedan más tiempo en la línea, comparten más información y terminan la conversación con mejor impresión. Para productos como Safina que gestionan llamadas de negocio reales, esto significa más leads capturados, llamantes más satisfechos y menos quejas sobre “hablar con un robot.”

Más idiomas abren más mercados. Un asistente telefónico IA limitado a 15 idiomas deja oportunidades sobre la mesa. Con 40+, la pregunta pasa de “¿podemos soportar este idioma?” a “¿queremos entrar en este mercado?”

Las certificaciones eliminan obstáculos. Clínicas, bufetes de abogados y asesores financieros pueden evaluar soluciones de IA telefónica sin un proceso de revisión de meses.

Para ver cómo encajan estos avances en el contexto más amplio del TTS, consulta nuestra guía comparativa de proveedores TTS 2025. Y si quieres entender cómo Safina trabaja con la síntesis de voz a nivel técnico, lo explicamos en nuestra serie técnica.

Fuentes

9:41

Safina gestionó 51 llamadas esta semana

46

De confianza

4

Sospechoso

1

Peligroso

Últimos 7 días
Filter
EM
Emma Martin 67s 15:30

Quiere hablar sobre la oferta de la nueva campaña y tiene preguntas sobre el calendario.

LS
Laura Sánchez 54s 14:45

Pregunta por el estado del pedido y cuándo llegará la entrega.

TH
Tomás Herrera 34s 13:10

Concertar una reunión para la revisión del proyecto la próxima semana.

Desconocido 44s 11:30

Promesa de premio: probablemente spam.

SM
Sofía Martínez 10s 09:15

Reclamación sobre el último pedido, solicita que le devuelvan la llamada.

MN
Martín Navarro 95s 13 dic

Quiere hablar sobre una posible colaboración.

AR
Ana Rodríguez 85s 13 dic

Es su compañera y quiere hablar sobre el proyecto.

JC
Javier Campos 42s 12 dic

Pregunta por las citas disponibles la próxima semana.

LB
Lucía Bermejo 68s 12 dic

Tiene preguntas sobre la factura y pide aclaración.

Llamadas
Safina
Contactos
Perfil
9:41
Llamada de Emma Martin
12 dic
11:30
67s
+34612345678

Quiere hablar sobre la oferta de la nueva campaña y tiene preguntas sobre el calendario.

Puntos clave

  • Devolver llamada a Emma Martin
  • Aclarar dudas sobre plazos y precios
Devolver llamada
Editar contacto

Perspectivas IA

Estado de ánimo del llamante Muy bueno

La persona que llamó fue colaboradora y proporcionó la información necesaria.

Urgencia Baja

La persona puede esperar una respuesta.

Audio y transcripción

0:16

Hola, soy Safina AI, la asistente digital de Peter. ¿En qué puedo ayudarle?

Hola Safina, soy Emma Martin. Quería hablar sobre la oferta y el calendario.

Gracias, Emma. ¿Están valorando principalmente el paquete Standard o el Pro para el lanzamiento?

Exacto. Necesitamos el paquete Pro y nos gustaría empezar el próximo mes si la incorporación puede hacerse en la primera semana.

Diga adiós a su buzón de voz anticuado.

Pruebe Safina gratis y empiece a gestionar sus llamadas de forma inteligente.