Stell dir vor, du rufst bei einem Unternehmen an und beschwerst dich. Deine Stimme ist angespannt, du sprichst schneller als sonst. Die KI am anderen Ende hört das, aber nicht wirklich. Denn das, was sie “hört”, ist ein transkribierter Text: “Ich bin unzufrieden mit dem Produkt.” Die Anspannung? Verloren bei der Transkription. Die Antwort kommt in neutralem Ton, 1,5 Sekunden zu spät.
OpenAI hat mit GPT-Realtime ein Modell vorgestellt, das dieses Problem an der Wurzel packt. Statt Audio in Text umzuwandeln, mit einem Sprachmodell zu verarbeiten und dann wieder in Sprache zu verwandeln, verarbeitet GPT-Realtime den Audiostream direkt. Ein Modell für den gesamten Weg. Die Realtime API ist jetzt allgemein verfügbar, und für alle, die mit KI-Telefonie arbeiten, lohnt sich ein genauer Blick.
Warum ein einzelnes Modell einen Unterschied macht
Die klassische Voice-AI-Pipeline besteht aus drei Stufen. Speech-to-Text (STT) wandelt die Sprache des Anrufers in Text um. Ein Large Language Model (LLM) generiert eine Antwort als Text. Text-to-Speech (TTS) macht daraus wieder Audio. Jeder Schritt braucht Zeit: STT 100-300ms, LLM seine eigene Verarbeitungszeit, TTS nochmal 100-300ms. In der Summe landest du bei 1 bis 2 Sekunden Gesamtlatenz.
Aber die Verzögerung ist nicht das einzige Problem. Bei jedem Übergang gehen Informationen verloren. Die Transkription erfasst Wörter, aber nicht den Tonfall. Ob jemand “Ja, klar” genervt oder begeistert sagt, sieht im transkribierten Text gleich aus. Das LLM antwortet auf das Wort, nicht auf das Gefühl. Und die TTS-Engine generiert Audio in ihrem vorgegebenen Stimmprofil, ohne Bezug zur emotionalen Lage des Gesprächs.
GPT-Realtime verarbeitet das Audiosignal direkt. Das Modell erkennt Ton, Tempo und Emotion des Anrufers und generiert eine Antwort, die all das berücksichtigt. OpenAI gibt eine Ende-zu-Ende-Latenz von 250-500ms an. Das liegt in dem Bereich, in dem Gespräche sich natürlich anfühlen.
Wir haben in unserer technischen Serie beschrieben, wie Safinas Architektur aufgebaut ist, einschließlich der Entscheidungen bei Speech-to-Text und Text-to-Speech. Der Pipeline-Ansatz hat eigene Vorteile, dazu gleich mehr.
Was Anrufer bei verschiedenen Latenzzeiten erleben
Am Telefon gibt es keinen Bildschirm, keine Ladeanimation, keine visuelle Rückmeldung. Nur Stille. Und Stille hat am Telefon ein anderes Gewicht als in einem Chat.
Unter 500ms: Das Gespräch fließt. Der Anrufer nimmt kaum eine Verzögerung wahr. Es fühlt sich an wie ein Gesprächspartner, der kurz nachdenkt, bevor er antwortet.
500ms bis 1 Sekunde: Spürbar, aber erträglich. Anrufer beginnen, ihr eigenes Sprechtempo anzupassen. Sie machen längere Pausen zwischen Sätzen.
Über 1 Sekunde: Das Gespräch kippt. Anrufer reden der KI dazwischen, wiederholen sich, werden ungeduldig. Manche legen auf.
Die traditionelle Pipeline landet typischerweise bei 1-2 Sekunden. Gut optimierte Implementierungen mit Streaming schaffen unter eine Sekunde. GPT-Realtime zielt auf 250-500ms, also den Bereich, der sich wie ein echtes Gespräch anfühlt.
SIP-Telefonie: KI im Telefonnetz
Eine der praktischsten Neuerungen der Realtime API ist SIP-Unterstützung. SIP (Session Initiation Protocol) ist der Standard, über den Telefonnetze Verbindungen aufbauen und verwalten. Wer im DACH-Raum mit Geschäftstelefonie arbeitet, kennt SIP von der eigenen Telefonanlage.
Bisher brauchte man Middleware, um einen KI-Sprachagenten ans Telefonnetz anzuschließen. Ein Telefonie-Provider wie Twilio, eine WebSocket-Brücke, eigener Code für das Audio-Routing. Das funktionierte, aber es war aufwendig und fügte zusätzliche Latenz hinzu.
Mit nativer SIP-Unterstützung kann ein KI-Agent direkt ins Telefonsystem eingebunden werden. Rufnummern zuweisen, Anrufweiterleitung einrichten, eingehende und ausgehende Anrufe abwickeln, ohne eine eigene Telefonie-Schicht zu bauen. Für deutsche Unternehmen, die Anrufautomatisierung evaluieren, senkt das die Einstiegshürde deutlich.
Die Benchmark-Verbesserungen im Detail
Das aktuelle GPT-Realtime-Modell zeigt messbare Fortschritte gegenüber der Dezember-2024-Version in drei Bereichen, die für Telefonanwendungen zählen:
Intelligenz (BigBench Audio): Von 65,6% auf 82,8%. Das Modell versteht, was Anrufer sagen und fragen, mit höherer Genauigkeit.
Instruktionsbefolgung (MultiChallenge Audio): Von 20,6% auf 30,5%. Wenn das Modell bestimmte Anweisungen bekommt (nach dem Namen fragen, einen Termin bestätigen, Informationen erfassen), folgt es ihnen zuverlässiger.
Funktionsaufrufe (ComplexFuncBench Audio): Von 49,7% auf 66,5%. Das Modell kann externe Aktionen auslösen (Termine buchen, Datensätze nachschlagen, Benachrichtigungen versenden) basierend auf dem Gesprächsverlauf.
Dazu kommen zwei neue Stimmen: Cedar und Marin, exklusiv für die Realtime API. Und eine kostenoptimierte Variante namens gpt-realtime-mini für Anwendungen, bei denen niedrigere Latenz und reduzierte Kosten wichtiger sind als maximale Leistungsfähigkeit.
Eine bekannte Einschränkung: Das Modell erkennt manchmal die Sprache von Sprechern mit starkem Akzent falsch. Für den DACH-Raum, wo viele Anrufer Deutsch mit verschiedenen regionalen Akzenten oder als Fremdsprache sprechen, sollte man das gründlich testen.
Pipeline vs. Realtime: Welcher Ansatz passt wann?
GPT-Realtime ist beeindruckend, aber nicht der einzige sinnvolle Weg. Der Pipeline-Ansatz (STT + LLM + TTS), den Produkte wie Safina verwenden, hat handfeste Vorteile.
Kontrolle über jede Komponente. Du kannst jedes Teil einzeln austauschen. Besseres STT-Modell? Einbauen. Neue TTS-Stimme, die besser passt? Wechseln. Anderes LLM für bestimmte Anruftypen? Routing anpassen. Bei einem einzelnen Ende-zu-Ende-Modell bekommst du, was das Modell liefert.
Nachvollziehbarkeit. In einer Pipeline kannst du jeden Schritt inspizieren. Die Transkription lesen, die Antwort des LLM prüfen, die TTS-Ausgabe einzeln bewerten. Bei einem Speech-to-Speech-Modell passiert alles im Verborgenen. Fehlersuche wird schwieriger.
Anbieterunabhängigkeit. Eine Pipeline erlaubt dir, Provider zu mischen. Deepgram für STT, Claude für die Textverarbeitung, Cartesia für TTS. Fällt ein Anbieter aus oder erhöht die Preise, tauschst du diesen einen Baustein aus.
Optimierung pro Schritt. Jede Komponente lässt sich individuell tunen. Du kannst ein schnelleres STT-Modell für einfache Anfragen nutzen und ein genaueres für komplexe. TTS-Parameter lassen sich anhand des emotionalen Kontexts anpassen, den das LLM erkennt.
Der Realtime-Ansatz gewinnt bei Latenz und emotionaler Durchgängigkeit. Der Pipeline-Ansatz gewinnt bei Flexibilität und Kontrolle. Beide haben ihre Berechtigung. Die Branche bewegt sich wahrscheinlich in Richtung einer Kombination: End-to-End-Modelle für den schnellen Pfad, Pipeline-Komponenten für spezialisierte Anforderungen.
Einen breiteren Überblick über die verschiedenen Ansätze in der Sprach-KI findest du in unserem Überblick über KI-Sprachagenten 2026. Und warum Stimmqualität die Wahrnehmung von Anrufern beeinflusst, behandelt unser Artikel über die Psychologie hinter einer guten KI-Stimme.