Hay un momento en cada llamada telefónica con una IA que te saca de la conversación. El asistente dice las palabras correctas, pero el tono no encaja. Te quejas de un problema urgente y recibes una respuesta con la misma energía de alguien leyendo los ingredientes de una caja de cereales.
Cartesia acaba de lanzar Sonic 3, y ataca directamente este problema. El modelo, disponible desde finales de 2025 con el snapshot sonic-3-2025-10-27, mantiene la latencia por debajo de 100 milisegundos mientras añade capacidades de expresión emocional y soporte para más de 40 idiomas. Es una actualización considerable respecto a Sonic 2, que soportaba 15 idiomas y no tenía control emocional.
Emoción en la voz: por qué importa en el teléfono
Las llamadas telefónicas son interacciones con carga emocional. Un paciente que llama a una clínica con preocupación. Un cliente que reclama por un pedido incorrecto. Un potencial comprador entusiasmado con un producto.
En cada caso, la persona al otro lado del teléfono espera una respuesta que coincida con su estado emocional. No solo en el contenido, sino en el tono. Los estudios sobre comunicación telefónica muestran que la calidez vocal y la adaptación al tono del interlocutor aumentan la confianza y la satisfacción del llamante. Una respuesta plana a “estoy muy preocupado por esto” hace que la persona se sienta ignorada.
Sonic 3 introduce herramientas para ajustar el tono emocional de la voz sintetizada:
- Empatía y calidez cuando el llamante está angustiado
- Entusiasmo al comunicar buenas noticias
- Calma tranquilizadora para llamantes nerviosos
- Risa natural en momentos ligeros de la conversación
El control se realiza mediante etiquetas SSML y parámetros de la API. Los desarrolladores pueden ajustar volumen, velocidad y emoción a nivel de frase. Una respuesta puede empezar informativa y terminar con tono reconfortante, según lo que requiera el contenido.
Para el mercado hispanohablante, donde la comunicación telefónica tiende a ser más expresiva y personal que en otros mercados, esta capacidad es particularmente relevante. Una voz fría no solo resulta extraña, resulta grosera.
Más de 40 idiomas: cobertura casi global
El salto de 15 a más de 40 idiomas cambia lo que puedes hacer con un solo proveedor de TTS.
Para América Latina y España, el español ya estaba soportado. Pero ahora el conjunto de idiomas disponibles permite construir sistemas que atiendan llamadas en portugués brasileño, francés, árabe, mandarín e hindi sin cambiar de motor de síntesis. Para empresas que operan en mercados diversos (que en 2026 son la mayoría), esto simplifica la arquitectura de forma significativa.
La expansión más notable es la incorporación de nueve idiomas de India: hindi, bengalí, tamil, telugu, gujarati, canarés, malayalam, maratí y punyabí. India es el mercado de crecimiento más rápido para muchos sectores tecnológicos, y tener soporte nativo para sus principales idiomas abre posibilidades que antes requerían integraciones con proveedores locales especializados.
También se amplía la cobertura en Asia Oriental, Sudeste Asiático, Oriente Medio y África. La cifra de 40+ idiomas cubre la gran mayoría de mercados comercialmente relevantes del planeta.
Si te interesa cómo funcionan los asistentes telefónicos multilingües en la práctica, tenemos un análisis detallado sobre agentes de voz IA en 2026.
Certificaciones de seguridad para empresas
Las certificaciones de seguridad son de esas cosas que nadie busca hasta que las necesita. Y entonces se convierten en requisito eliminatorio.
Sonic 3 viene con SOC 2 Type II, HIPAA y PCI Level 1. En términos prácticos:
SOC 2 Type II demuestra que los sistemas de Cartesia manejan datos de forma segura de manera continua, no solo en una auditoría puntual. HIPAA abre la puerta a aplicaciones sanitarias donde la información de pacientes pasa por el motor de TTS. PCI Level 1 cubre conversaciones relacionadas con pagos, como confirmar montos de pedidos o datos de tarjetas.
En España y América Latina, donde la regulación de protección de datos se ha endurecido en los últimos años (GDPR en Europa, leyes locales en países como México y Argentina), contar con un proveedor que ya cumple con estándares internacionales simplifica el proceso de evaluación. Los departamentos legales pueden revisar las certificaciones en lugar de exigir auditorías propias.
Clonación de voz en 10 segundos
Otra novedad de Sonic 3: la clonación instantánea de voz ahora funciona con solo 10 segundos de audio de referencia. Grabas una muestra corta y el modelo genera un clon que captura las características del hablante.
Para negocios que quieren que su asistente telefónico suene como una persona específica (el fundador, la recepcionista cuya voz los clientes ya reconocen), esto reduce la barrera de entrada. Antes hacía falta sesiones de grabación más largas. Diez segundos se pueden grabar con un móvil.
Para necesidades más exigentes, Cartesia sigue ofreciendo clonación profesional con muestras más extensas. Pero la opción rápida hace que probar sea sencillo.
Qué significa esto para los asistentes telefónicos IA
Cada mejora en la síntesis de voz se traduce directamente en mejor calidad de llamadas. Sonic 3 apunta a las áreas que más importan para aplicaciones telefónicas.
La emoción cambia cómo responden los llamantes. Cuando una voz puede expresar preocupación o alegría de forma apropiada, las personas se sienten más cómodas. Se quedan más tiempo en la línea, comparten más información y terminan la conversación con mejor impresión. Para productos como Safina que gestionan llamadas de negocio reales, esto significa más leads capturados, llamantes más satisfechos y menos quejas sobre “hablar con un robot.”
Más idiomas abren más mercados. Un asistente telefónico IA limitado a 15 idiomas deja oportunidades sobre la mesa. Con 40+, la pregunta pasa de “¿podemos soportar este idioma?” a “¿queremos entrar en este mercado?”
Las certificaciones eliminan obstáculos. Clínicas, bufetes de abogados y asesores financieros pueden evaluar soluciones de IA telefónica sin un proceso de revisión de meses.
Para ver cómo encajan estos avances en el contexto más amplio del TTS, consulta nuestra guía comparativa de proveedores TTS 2025. Y si quieres entender cómo Safina trabaja con la síntesis de voz a nivel técnico, lo explicamos en nuestra serie técnica.