OpenAI GPT-Realtime: Sprache-zu-Sprache-KI fuer Sprachagenten und Telefonie [2026]

OpenAIs GPT-Realtime verarbeitet Audio direkt fuer 250-500ms Latenz. SIP-Telefonie, neue Stimmen und was es fuer KI-Telefonassistenten bedeutet.

David Schemm David Schemm

Stell dir vor, du rufst bei einem Unternehmen an und beschwerst dich. Deine Stimme ist angespannt, du sprichst schneller als sonst. Die KI am anderen Ende hört das, aber nicht wirklich. Denn das, was sie “hört”, ist ein transkribierter Text: “Ich bin unzufrieden mit dem Produkt.” Die Anspannung? Verloren bei der Transkription. Die Antwort kommt in neutralem Ton, 1,5 Sekunden zu spät.

OpenAI hat mit GPT-Realtime ein Modell vorgestellt, das dieses Problem an der Wurzel packt. Statt Audio in Text umzuwandeln, mit einem Sprachmodell zu verarbeiten und dann wieder in Sprache zu verwandeln, verarbeitet GPT-Realtime den Audiostream direkt. Ein Modell für den gesamten Weg. Die Realtime API ist jetzt allgemein verfügbar, und für alle, die mit KI-Telefonie arbeiten, lohnt sich ein genauer Blick.

Warum ein einzelnes Modell einen Unterschied macht

Die klassische Voice-AI-Pipeline besteht aus drei Stufen. Speech-to-Text (STT) wandelt die Sprache des Anrufers in Text um. Ein Large Language Model (LLM) generiert eine Antwort als Text. Text-to-Speech (TTS) macht daraus wieder Audio. Jeder Schritt braucht Zeit: STT 100-300ms, LLM seine eigene Verarbeitungszeit, TTS nochmal 100-300ms. In der Summe landest du bei 1 bis 2 Sekunden Gesamtlatenz.

Aber die Verzögerung ist nicht das einzige Problem. Bei jedem Übergang gehen Informationen verloren. Die Transkription erfasst Wörter, aber nicht den Tonfall. Ob jemand “Ja, klar” genervt oder begeistert sagt, sieht im transkribierten Text gleich aus. Das LLM antwortet auf das Wort, nicht auf das Gefühl. Und die TTS-Engine generiert Audio in ihrem vorgegebenen Stimmprofil, ohne Bezug zur emotionalen Lage des Gesprächs.

GPT-Realtime verarbeitet das Audiosignal direkt. Das Modell erkennt Ton, Tempo und Emotion des Anrufers und generiert eine Antwort, die all das berücksichtigt. OpenAI gibt eine Ende-zu-Ende-Latenz von 250-500ms an. Das liegt in dem Bereich, in dem Gespräche sich natürlich anfühlen.

Wir haben in unserer technischen Serie beschrieben, wie Safinas Architektur aufgebaut ist, einschließlich der Entscheidungen bei Speech-to-Text und Text-to-Speech. Der Pipeline-Ansatz hat eigene Vorteile, dazu gleich mehr.

Was Anrufer bei verschiedenen Latenzzeiten erleben

Am Telefon gibt es keinen Bildschirm, keine Ladeanimation, keine visuelle Rückmeldung. Nur Stille. Und Stille hat am Telefon ein anderes Gewicht als in einem Chat.

Unter 500ms: Das Gespräch fließt. Der Anrufer nimmt kaum eine Verzögerung wahr. Es fühlt sich an wie ein Gesprächspartner, der kurz nachdenkt, bevor er antwortet.

500ms bis 1 Sekunde: Spürbar, aber erträglich. Anrufer beginnen, ihr eigenes Sprechtempo anzupassen. Sie machen längere Pausen zwischen Sätzen.

Über 1 Sekunde: Das Gespräch kippt. Anrufer reden der KI dazwischen, wiederholen sich, werden ungeduldig. Manche legen auf.

Die traditionelle Pipeline landet typischerweise bei 1-2 Sekunden. Gut optimierte Implementierungen mit Streaming schaffen unter eine Sekunde. GPT-Realtime zielt auf 250-500ms, also den Bereich, der sich wie ein echtes Gespräch anfühlt.

SIP-Telefonie: KI im Telefonnetz

Eine der praktischsten Neuerungen der Realtime API ist SIP-Unterstützung. SIP (Session Initiation Protocol) ist der Standard, über den Telefonnetze Verbindungen aufbauen und verwalten. Wer im DACH-Raum mit Geschäftstelefonie arbeitet, kennt SIP von der eigenen Telefonanlage.

Bisher brauchte man Middleware, um einen KI-Sprachagenten ans Telefonnetz anzuschließen. Ein Telefonie-Provider wie Twilio, eine WebSocket-Brücke, eigener Code für das Audio-Routing. Das funktionierte, aber es war aufwendig und fügte zusätzliche Latenz hinzu.

Mit nativer SIP-Unterstützung kann ein KI-Agent direkt ins Telefonsystem eingebunden werden. Rufnummern zuweisen, Anrufweiterleitung einrichten, eingehende und ausgehende Anrufe abwickeln, ohne eine eigene Telefonie-Schicht zu bauen. Für deutsche Unternehmen, die Anrufautomatisierung evaluieren, senkt das die Einstiegshürde deutlich.

Die Benchmark-Verbesserungen im Detail

Das aktuelle GPT-Realtime-Modell zeigt messbare Fortschritte gegenüber der Dezember-2024-Version in drei Bereichen, die für Telefonanwendungen zählen:

Intelligenz (BigBench Audio): Von 65,6% auf 82,8%. Das Modell versteht, was Anrufer sagen und fragen, mit höherer Genauigkeit.

Instruktionsbefolgung (MultiChallenge Audio): Von 20,6% auf 30,5%. Wenn das Modell bestimmte Anweisungen bekommt (nach dem Namen fragen, einen Termin bestätigen, Informationen erfassen), folgt es ihnen zuverlässiger.

Funktionsaufrufe (ComplexFuncBench Audio): Von 49,7% auf 66,5%. Das Modell kann externe Aktionen auslösen (Termine buchen, Datensätze nachschlagen, Benachrichtigungen versenden) basierend auf dem Gesprächsverlauf.

Dazu kommen zwei neue Stimmen: Cedar und Marin, exklusiv für die Realtime API. Und eine kostenoptimierte Variante namens gpt-realtime-mini für Anwendungen, bei denen niedrigere Latenz und reduzierte Kosten wichtiger sind als maximale Leistungsfähigkeit.

Eine bekannte Einschränkung: Das Modell erkennt manchmal die Sprache von Sprechern mit starkem Akzent falsch. Für den DACH-Raum, wo viele Anrufer Deutsch mit verschiedenen regionalen Akzenten oder als Fremdsprache sprechen, sollte man das gründlich testen.

Pipeline vs. Realtime: Welcher Ansatz passt wann?

GPT-Realtime ist beeindruckend, aber nicht der einzige sinnvolle Weg. Der Pipeline-Ansatz (STT + LLM + TTS), den Produkte wie Safina verwenden, hat handfeste Vorteile.

Kontrolle über jede Komponente. Du kannst jedes Teil einzeln austauschen. Besseres STT-Modell? Einbauen. Neue TTS-Stimme, die besser passt? Wechseln. Anderes LLM für bestimmte Anruftypen? Routing anpassen. Bei einem einzelnen Ende-zu-Ende-Modell bekommst du, was das Modell liefert.

Nachvollziehbarkeit. In einer Pipeline kannst du jeden Schritt inspizieren. Die Transkription lesen, die Antwort des LLM prüfen, die TTS-Ausgabe einzeln bewerten. Bei einem Speech-to-Speech-Modell passiert alles im Verborgenen. Fehlersuche wird schwieriger.

Anbieterunabhängigkeit. Eine Pipeline erlaubt dir, Provider zu mischen. Deepgram für STT, Claude für die Textverarbeitung, Cartesia für TTS. Fällt ein Anbieter aus oder erhöht die Preise, tauschst du diesen einen Baustein aus.

Optimierung pro Schritt. Jede Komponente lässt sich individuell tunen. Du kannst ein schnelleres STT-Modell für einfache Anfragen nutzen und ein genaueres für komplexe. TTS-Parameter lassen sich anhand des emotionalen Kontexts anpassen, den das LLM erkennt.

Der Realtime-Ansatz gewinnt bei Latenz und emotionaler Durchgängigkeit. Der Pipeline-Ansatz gewinnt bei Flexibilität und Kontrolle. Beide haben ihre Berechtigung. Die Branche bewegt sich wahrscheinlich in Richtung einer Kombination: End-to-End-Modelle für den schnellen Pfad, Pipeline-Komponenten für spezialisierte Anforderungen.

Einen breiteren Überblick über die verschiedenen Ansätze in der Sprach-KI findest du in unserem Überblick über KI-Sprachagenten 2026. Und warum Stimmqualität die Wahrnehmung von Anrufern beeinflusst, behandelt unser Artikel über die Psychologie hinter einer guten KI-Stimme.

Quellen

9:41

Safina führte diese Woche 51 Telefonate

46

Vertrauensvoll

4

Verdächtig

1

Gefährlich

Letzte 7 Tage
Filter
EM
Emma Martin 67s 15:30

Möchte das Angebot für die neue Kampagne besprechen und hat Fragen zum Zeitplan.

LS
Laura Wagner 54s 14:45

Fragt nach dem Status der Bestellung und wann die Lieferung kommt.

TH
Tim Hoffmann 34s 13:10

Termin für Projektbesprechung nächste Woche vereinbaren.

Unbekannt 44s 11:30

Gewinnversprechen – wahrscheinlich Spam.

SK
Sophie Meyer 10s 09:15

Reklamation zum letzten Auftrag, bittet um Rückruf.

MM
Martin Neumann 95s 13. Dez

Möchte eine mögliche Zusammenarbeit besprechen.

AR
Anna Richter 85s 13. Dez

Ist Deine Kollegin und möchte über das Projekt sprechen.

JK
Jonas König 42s 12. Dez

Erkundigt sich nach verfügbaren Terminen nächste Woche.

LB
Lina Berg 68s 12. Dez

Hat Fragen zur Rechnung und bittet um Klärung.

Anrufe
Safina
Kontakte
Profil
9:41
Anruf von Emma Martin
12. Dez
11:30
67s
+491723456789

Möchte das Angebot für die neue Kampagne besprechen und hat Fragen zum Zeitplan.

Wichtigste Punkte

  • Rückruf an Emma Martin
  • Fragen zu Zeitplan & Konditionen klären
Zurückrufen
Kontakt bearbeiten

KI-Einblicke

Stimmung der Person Sehr gut

Der Anrufer war kooperativ und hat die benötigten Informationen bereitgestellt.

Dringlichkeit Niedrig

Der Anrufer kann auf eine Rückmeldung warten.

Audio & Transkript

0:16

Hallo, hier spricht Safina AI, die digitale Assistentin von Peter. Wie kann ich Ihnen helfen?

Hallo Safina, hier ist Emma Martin. Ich wollte über das Angebot und den Zeitplan sprechen.

Danke, Emma. Geht es bei Ihrer Entscheidung vor allem um das Standard- oder Pro-Paket für den Launch?

Genau. Wir brauchen das Pro-Paket und möchten nächsten Monat starten, wenn das Onboarding in der ersten Woche möglich ist.

Sag Ciao zu deiner altmodischen Mailbox.

Teste Safina kostenlos und beginne deine Anrufe intelligent zu verwalten.