Cuando llamas a un negocio y te atiende una IA, hay un momento que define toda la experiencia. No es lo que dice la IA. Es cuánto tarda en decirlo. Un segundo y medio de silencio al teléfono se siente como una eternidad. No hay pantalla, no hay indicador de carga, no hay nada que te diga “espera, estoy procesando.” Solo silencio. Y en ese silencio, la mayoría de personas decide si confía en el sistema o cuelga.
OpenAI acaba de abrir al público su modelo GPT-Realtime, y el cambio que propone es estructural. En lugar de convertir audio a texto, procesar el texto con un modelo de lenguaje y convertir la respuesta de nuevo a audio (tres pasos, tres modelos, tres fuentes de latencia), GPT-Realtime procesa el audio directamente. Un solo modelo, de principio a fin. La Realtime API ya está disponible para producción.
Qué cambia con voz a voz directa
El pipeline tradicional de voz IA funciona así: Speech-to-Text (STT) convierte la voz del llamante en texto. Un modelo de lenguaje (LLM) genera una respuesta escrita. Text-to-Speech (TTS) transforma esa respuesta en audio. Cada paso añade entre 100 y 300 milisegundos. El total: entre 1 y 2 segundos desde que el llamante termina de hablar hasta que escucha la respuesta.
Pero el tiempo no es el único problema. Cada conversión pierde información. Cuando el audio se transcribe, desaparece el tono. La frustración en la voz del llamante. La urgencia. El alivio. La transcripción dice “de acuerdo” tanto si el llamante lo dijo con resignación como con entusiasmo. El LLM responde a la palabra, no al sentimiento.
GPT-Realtime procesa la señal de audio tal cual. El modelo detecta el tono, el ritmo y la emoción del hablante, y genera una respuesta que tiene en cuenta todo eso. OpenAI reporta una latencia de 250-500ms de punta a punta. Eso coloca la respuesta dentro del rango donde las conversaciones se sienten naturales.
Para mercados hispanohablantes, donde las conversaciones telefónicas comerciales tienden a ser más expresivas que en mercados anglosajones, la capacidad de captar y responder al tono emocional no es un detalle menor. Es la diferencia entre una interacción que funciona y una que irrita.
El pipeline clásico vs. Realtime: por qué la arquitectura importa
Hay tres niveles de latencia en una llamada telefónica, y cada uno produce una experiencia distinta:
Menos de 500ms: La conversación fluye. El llamante apenas percibe retraso. Se siente como hablar con alguien que piensa antes de responder.
500ms a 1 segundo: Perceptible pero tolerable. Los llamantes empiezan a ajustar su ritmo, hacen pausas más largas, hablan más despacio.
Más de 1 segundo: La conversación se rompe. El llamante habla encima de la IA, repite preguntas, se frustra. Algunos cuelgan directamente.
El pipeline tradicional suele caer en el rango de 1-2 segundos. Implementaciones bien optimizadas con streaming pueden bajarlo a menos de un segundo. GPT-Realtime apunta a 250-500ms, lo que lo pone en la categoría de “se siente como hablar con una persona.”
Hay otra ventaja más allá de la velocidad. Como el modelo procesa audio de forma nativa, puede captar señales que la transcripción pierde. Un suspiro. Una risa. Un cambio en la velocidad del habla que indica confusión. Estas señales influyen en cómo responde el modelo, tanto en contenido como en tono.
Para entender cómo se construye un pipeline de voz IA en la práctica, hemos explicado la arquitectura de Safina, incluyendo las decisiones sobre reconocimiento de voz y síntesis de voz.
Llamadas SIP: IA conectada a la red telefónica
Una de las adiciones más prácticas de la Realtime API es el soporte SIP. SIP (Session Initiation Protocol) es el estándar que usan las redes telefónicas para establecer y gestionar llamadas. En España y América Latina, la telefonía empresarial funciona mayoritariamente sobre SIP.
Antes de este soporte, conectar un agente de voz IA a la red telefónica requería intermediarios. Un proveedor de telefonía como Twilio, un puente WebSocket y código propio para enrutar audio entre la red telefónica y la IA. Funcionaba, pero sumaba complejidad, costo y latencia.
Con soporte SIP nativo, el agente IA se conecta directamente al sistema telefónico. Asignar números, configurar enrutamiento de llamadas, gestionar llamadas entrantes y salientes sin construir una capa de telefonía desde cero. Para empresas que evalúan automatización telefónica, esto elimina una barrera de ingeniería considerable.
En mercados donde la llamada telefónica sigue siendo el canal principal de contacto comercial (y en España y buena parte de Latinoamérica lo es), tener IA que se integre directamente con infraestructura SIP existente simplifica mucho la adopción.
Mejoras en los benchmarks
El modelo GPT-Realtime actualizado muestra avances medibles respecto a la versión de diciembre 2024:
Inteligencia (BigBench Audio): De 65,6% a 82,8%. El modelo entiende lo que los llamantes dicen y preguntan con mayor precisión.
Seguimiento de instrucciones (MultiChallenge Audio): De 20,6% a 30,5%. Cuando recibe instrucciones específicas (pedir un nombre, confirmar una cita, recoger información), las cumple de forma más fiable.
Llamadas a funciones (ComplexFuncBench Audio): De 49,7% a 66,5%. El modelo puede activar acciones externas (agendar citas, buscar registros, enviar notificaciones) basándose en la conversación.
También se introducen dos nuevas voces, Cedar y Marin, exclusivas de la Realtime API. Y una variante optimizada en costo llamada gpt-realtime-mini para aplicaciones donde la latencia baja y el costo reducido importan más que la capacidad máxima.
Una limitación conocida: el modelo a veces identifica incorrectamente el idioma de hablantes con acentos marcados. Para el mercado hispanohablante, con su enorme variedad de acentos entre países y regiones, esto merece pruebas cuidadosas antes de desplegar en producción.
Compensaciones: Realtime vs. Pipeline para asistentes telefónicos
GPT-Realtime es un avance claro, pero no es el único enfoque válido. La arquitectura pipeline (STT + LLM + TTS), como la que usa Safina, tiene ventajas concretas.
Control sobre cada componente. En un pipeline puedes intercambiar cualquier pieza. Un modelo STT mejor llega al mercado, lo integras. Una nueva voz TTS te gusta más, la cambias. Quieres usar un LLM diferente para ciertos tipos de llamadas, ajustas el enrutamiento. Con un modelo único de punta a punta, recibes lo que el modelo produce.
Visibilidad. En un pipeline puedes inspeccionar qué pasó en cada etapa. Ver la transcripción, leer el razonamiento del LLM, evaluar la salida TTS por separado. Con un modelo voz a voz, los pasos intermedios quedan ocultos. Diagnosticar problemas es más difícil.
Independencia de proveedor. Un pipeline te permite mezclar proveedores. Deepgram para STT, Claude para razonamiento, Cartesia para TTS. Si cualquier proveedor tiene una caída o sube precios, cambias ese componente. Con un modelo integral, dependes de un solo proveedor para toda la experiencia de voz.
Optimización por paso. Cada componente se puede ajustar individualmente. Un modelo STT rápido para consultas simples, uno más preciso para las complejas. Parámetros TTS que se adaptan según el contexto emocional que el LLM identifica.
El enfoque realtime gana en latencia y continuidad emocional. El pipeline gana en flexibilidad y control. Los dos tienen sentido. La industria probablemente se mueva hacia una combinación: modelos end-to-end para el camino rápido, componentes pipeline para necesidades especializadas.
Para un panorama más amplio del estado de la voz IA, consulta nuestro análisis de agentes de voz IA en 2026. Y para otro modelo que aborda el reto de la voz en tiempo real, hemos analizado Gemini 3.1 Flash Live.