OpenAI GPT-Realtime: IA voz a voz para agentes y llamadas telefonicas [2026]

GPT-Realtime de OpenAI procesa audio directamente con 250-500ms de latencia. Llamadas SIP, nuevas voces y que significa para asistentes telefonicos IA.

David Schemm David Schemm

Cuando llamas a un negocio y te atiende una IA, hay un momento que define toda la experiencia. No es lo que dice la IA. Es cuánto tarda en decirlo. Un segundo y medio de silencio al teléfono se siente como una eternidad. No hay pantalla, no hay indicador de carga, no hay nada que te diga “espera, estoy procesando.” Solo silencio. Y en ese silencio, la mayoría de personas decide si confía en el sistema o cuelga.

OpenAI acaba de abrir al público su modelo GPT-Realtime, y el cambio que propone es estructural. En lugar de convertir audio a texto, procesar el texto con un modelo de lenguaje y convertir la respuesta de nuevo a audio (tres pasos, tres modelos, tres fuentes de latencia), GPT-Realtime procesa el audio directamente. Un solo modelo, de principio a fin. La Realtime API ya está disponible para producción.

Qué cambia con voz a voz directa

El pipeline tradicional de voz IA funciona así: Speech-to-Text (STT) convierte la voz del llamante en texto. Un modelo de lenguaje (LLM) genera una respuesta escrita. Text-to-Speech (TTS) transforma esa respuesta en audio. Cada paso añade entre 100 y 300 milisegundos. El total: entre 1 y 2 segundos desde que el llamante termina de hablar hasta que escucha la respuesta.

Pero el tiempo no es el único problema. Cada conversión pierde información. Cuando el audio se transcribe, desaparece el tono. La frustración en la voz del llamante. La urgencia. El alivio. La transcripción dice “de acuerdo” tanto si el llamante lo dijo con resignación como con entusiasmo. El LLM responde a la palabra, no al sentimiento.

GPT-Realtime procesa la señal de audio tal cual. El modelo detecta el tono, el ritmo y la emoción del hablante, y genera una respuesta que tiene en cuenta todo eso. OpenAI reporta una latencia de 250-500ms de punta a punta. Eso coloca la respuesta dentro del rango donde las conversaciones se sienten naturales.

Para mercados hispanohablantes, donde las conversaciones telefónicas comerciales tienden a ser más expresivas que en mercados anglosajones, la capacidad de captar y responder al tono emocional no es un detalle menor. Es la diferencia entre una interacción que funciona y una que irrita.

El pipeline clásico vs. Realtime: por qué la arquitectura importa

Hay tres niveles de latencia en una llamada telefónica, y cada uno produce una experiencia distinta:

Menos de 500ms: La conversación fluye. El llamante apenas percibe retraso. Se siente como hablar con alguien que piensa antes de responder.

500ms a 1 segundo: Perceptible pero tolerable. Los llamantes empiezan a ajustar su ritmo, hacen pausas más largas, hablan más despacio.

Más de 1 segundo: La conversación se rompe. El llamante habla encima de la IA, repite preguntas, se frustra. Algunos cuelgan directamente.

El pipeline tradicional suele caer en el rango de 1-2 segundos. Implementaciones bien optimizadas con streaming pueden bajarlo a menos de un segundo. GPT-Realtime apunta a 250-500ms, lo que lo pone en la categoría de “se siente como hablar con una persona.”

Hay otra ventaja más allá de la velocidad. Como el modelo procesa audio de forma nativa, puede captar señales que la transcripción pierde. Un suspiro. Una risa. Un cambio en la velocidad del habla que indica confusión. Estas señales influyen en cómo responde el modelo, tanto en contenido como en tono.

Para entender cómo se construye un pipeline de voz IA en la práctica, hemos explicado la arquitectura de Safina, incluyendo las decisiones sobre reconocimiento de voz y síntesis de voz.

Llamadas SIP: IA conectada a la red telefónica

Una de las adiciones más prácticas de la Realtime API es el soporte SIP. SIP (Session Initiation Protocol) es el estándar que usan las redes telefónicas para establecer y gestionar llamadas. En España y América Latina, la telefonía empresarial funciona mayoritariamente sobre SIP.

Antes de este soporte, conectar un agente de voz IA a la red telefónica requería intermediarios. Un proveedor de telefonía como Twilio, un puente WebSocket y código propio para enrutar audio entre la red telefónica y la IA. Funcionaba, pero sumaba complejidad, costo y latencia.

Con soporte SIP nativo, el agente IA se conecta directamente al sistema telefónico. Asignar números, configurar enrutamiento de llamadas, gestionar llamadas entrantes y salientes sin construir una capa de telefonía desde cero. Para empresas que evalúan automatización telefónica, esto elimina una barrera de ingeniería considerable.

En mercados donde la llamada telefónica sigue siendo el canal principal de contacto comercial (y en España y buena parte de Latinoamérica lo es), tener IA que se integre directamente con infraestructura SIP existente simplifica mucho la adopción.

Mejoras en los benchmarks

El modelo GPT-Realtime actualizado muestra avances medibles respecto a la versión de diciembre 2024:

Inteligencia (BigBench Audio): De 65,6% a 82,8%. El modelo entiende lo que los llamantes dicen y preguntan con mayor precisión.

Seguimiento de instrucciones (MultiChallenge Audio): De 20,6% a 30,5%. Cuando recibe instrucciones específicas (pedir un nombre, confirmar una cita, recoger información), las cumple de forma más fiable.

Llamadas a funciones (ComplexFuncBench Audio): De 49,7% a 66,5%. El modelo puede activar acciones externas (agendar citas, buscar registros, enviar notificaciones) basándose en la conversación.

También se introducen dos nuevas voces, Cedar y Marin, exclusivas de la Realtime API. Y una variante optimizada en costo llamada gpt-realtime-mini para aplicaciones donde la latencia baja y el costo reducido importan más que la capacidad máxima.

Una limitación conocida: el modelo a veces identifica incorrectamente el idioma de hablantes con acentos marcados. Para el mercado hispanohablante, con su enorme variedad de acentos entre países y regiones, esto merece pruebas cuidadosas antes de desplegar en producción.

Compensaciones: Realtime vs. Pipeline para asistentes telefónicos

GPT-Realtime es un avance claro, pero no es el único enfoque válido. La arquitectura pipeline (STT + LLM + TTS), como la que usa Safina, tiene ventajas concretas.

Control sobre cada componente. En un pipeline puedes intercambiar cualquier pieza. Un modelo STT mejor llega al mercado, lo integras. Una nueva voz TTS te gusta más, la cambias. Quieres usar un LLM diferente para ciertos tipos de llamadas, ajustas el enrutamiento. Con un modelo único de punta a punta, recibes lo que el modelo produce.

Visibilidad. En un pipeline puedes inspeccionar qué pasó en cada etapa. Ver la transcripción, leer el razonamiento del LLM, evaluar la salida TTS por separado. Con un modelo voz a voz, los pasos intermedios quedan ocultos. Diagnosticar problemas es más difícil.

Independencia de proveedor. Un pipeline te permite mezclar proveedores. Deepgram para STT, Claude para razonamiento, Cartesia para TTS. Si cualquier proveedor tiene una caída o sube precios, cambias ese componente. Con un modelo integral, dependes de un solo proveedor para toda la experiencia de voz.

Optimización por paso. Cada componente se puede ajustar individualmente. Un modelo STT rápido para consultas simples, uno más preciso para las complejas. Parámetros TTS que se adaptan según el contexto emocional que el LLM identifica.

El enfoque realtime gana en latencia y continuidad emocional. El pipeline gana en flexibilidad y control. Los dos tienen sentido. La industria probablemente se mueva hacia una combinación: modelos end-to-end para el camino rápido, componentes pipeline para necesidades especializadas.

Para un panorama más amplio del estado de la voz IA, consulta nuestro análisis de agentes de voz IA en 2026. Y para otro modelo que aborda el reto de la voz en tiempo real, hemos analizado Gemini 3.1 Flash Live.

Fuentes

9:41

Safina gestionó 51 llamadas esta semana

46

De confianza

4

Sospechoso

1

Peligroso

Últimos 7 días
Filter
EM
Emma Martin 67s 15:30

Quiere hablar sobre la oferta de la nueva campaña y tiene preguntas sobre el calendario.

LS
Laura Sánchez 54s 14:45

Pregunta por el estado del pedido y cuándo llegará la entrega.

TH
Tomás Herrera 34s 13:10

Concertar una reunión para la revisión del proyecto la próxima semana.

Desconocido 44s 11:30

Promesa de premio: probablemente spam.

SM
Sofía Martínez 10s 09:15

Reclamación sobre el último pedido, solicita que le devuelvan la llamada.

MN
Martín Navarro 95s 13 dic

Quiere hablar sobre una posible colaboración.

AR
Ana Rodríguez 85s 13 dic

Es su compañera y quiere hablar sobre el proyecto.

JC
Javier Campos 42s 12 dic

Pregunta por las citas disponibles la próxima semana.

LB
Lucía Bermejo 68s 12 dic

Tiene preguntas sobre la factura y pide aclaración.

Llamadas
Safina
Contactos
Perfil
9:41
Llamada de Emma Martin
12 dic
11:30
67s
+34612345678

Quiere hablar sobre la oferta de la nueva campaña y tiene preguntas sobre el calendario.

Puntos clave

  • Devolver llamada a Emma Martin
  • Aclarar dudas sobre plazos y precios
Devolver llamada
Editar contacto

Perspectivas IA

Estado de ánimo del llamante Muy bueno

La persona que llamó fue colaboradora y proporcionó la información necesaria.

Urgencia Baja

La persona puede esperar una respuesta.

Audio y transcripción

0:16

Hola, soy Safina AI, la asistente digital de Peter. ¿En qué puedo ayudarle?

Hola Safina, soy Emma Martin. Quería hablar sobre la oferta y el calendario.

Gracias, Emma. ¿Están valorando principalmente el paquete Standard o el Pro para el lanzamiento?

Exacto. Necesitamos el paquete Pro y nos gustaría empezar el próximo mes si la incorporación puede hacerse en la primera semana.

Diga adiós a su buzón de voz anticuado.

Pruebe Safina gratis y empiece a gestionar sus llamadas de forma inteligente.