Jest taki moment w każdej rozmowie telefonicznej z AI, który decyduje o wszystkim. Nie chodzi o to, co AI mówi. Chodzi o ciszę, zanim to powie.
Przy tradycyjnych systemach głosowych AI ta cisza trwa od jednej do dwóch sekund. Dźwięk leci do serwera, zostaje zamieniony na tekst, tekst idzie do modelu językowego, odpowiedź wraca jako tekst, tekst zamienia się w mowę, mowa wraca do rozmówcy. Trzy modele, trzy przekazania, trzy źródła opóźnienia. Na ekranie to wygląda jak schemat blokowy. Przy telefonie to brzmi jak rozmowa z kimś, kto ciągle gubi wątek.
OpenAI udostępnił GPT-Realtime do użytku produkcyjnego. Ten model działa inaczej. Zamiast zamieniać audio na tekst i z powrotem, przetwarza sygnał dźwiękowy bezpośrednio. Jeden model, od początku do końca. Realtime API jest teraz ogólnie dostępne.
Co zmienia przetwarzanie audio bez pośredników
Tradycyjny pipeline głosowy AI składa się z trzech elementów. Speech-to-Text (STT) zamienia mowę rozmówcy na tekst. Model językowy (LLM) czyta ten tekst i generuje odpowiedź. Text-to-Speech (TTS) zamienia odpowiedź z powrotem na dźwięk. Każdy krok dodaje 100-300 milisekund opóźnienia. Suma: 1 do 2 sekund od momentu, gdy rozmówca skończy mówić, do momentu, gdy usłyszy odpowiedź.
Ale czas to tylko połowa problemu. Przy każdym przekazaniu giną informacje. Kiedy audio zamienia się w tekst, ton głosu znika. Irytacja rozmówcy. Wahanie. Ulga. Transkrypcja mówi “dobrze” niezależnie od tego, czy rozmówca powiedział to z rezygnacją czy z entuzjazmem. LLM odpowiada na słowo, nie na emocję. A TTS generuje dźwięk w przypisanym profilu głosowym, bez związku z kontekstem emocjonalnym rozmowy.
GPT-Realtime przetwarza sygnał audio bez pośredników. Model słyszy ton, tempo i emocje rozmówcy, i generuje odpowiedź, która to wszystko uwzględnia. OpenAI podaje opóźnienie end-to-end na poziomie 250-500ms. To mieści się w zakresie, w którym rozmowy brzmią naturalnie.
W Polsce rozmowy telefoniczne z firmami mają swój charakter. Polacy dzwonią do lekarza, mechanika, kancelarii. Oczekują szybkiej, konkretnej odpowiedzi. Półtorej sekundy ciszy to nie jest drobnostka, to sygnał, że coś nie działa.
Stary sposób vs. Realtime: dlaczego architektura ma znaczenie
Przy rozmowie telefonicznej opóźnienie ma inny ciężar niż na ekranie. Oto co czują rozmówcy na każdym poziomie:
Poniżej 500ms: Rozmowa płynie. Rozmówca prawie nie zauważa opóźnienia. Brzmi to jak osoba, która chwilę myśli, zanim odpowie.
500ms do 1 sekundy: Wyczuwalne, ale znośne. Rozmówcy zaczynają dostosowywać tempo mowy. Robią dłuższe przerwy między zdaniami.
Powyżej 1 sekundy: Rozmowa się psuje. Rozmówca mówi jednocześnie z AI, powtarza pytania, denerwuje się. Część osób po prostu się rozłącza.
Tradycyjny pipeline mieści się zazwyczaj w przedziale 1-2 sekund. Dobrze zoptymalizowane implementacje ze streamingiem mogą zejść poniżej sekundy. GPT-Realtime celuje w 250-500ms, co plasuje go w kategorii “brzmi jak rozmowa z człowiekiem.”
Jest jeszcze jedna zaleta wykraczająca poza samą prędkość. Ponieważ model przetwarza audio natywnie, wyłapuje sygnały, które transkrypcja traci. Westchnienie. Śmiech. Zmianę tempa mówienia, która sugeruje dezorientację. Te sygnały wpływają na to, jak model odpowiada.
Szczegóły architektury pipeline opisaliśmy w naszej serii technicznej o budowie Safiny, w tym decyzje dotyczące rozpoznawania mowy i syntezy mowy.
Połączenia SIP: AI w sieci telefonicznej
Jednym z najbardziej praktycznych dodatków do Realtime API jest obsługa SIP. SIP (Session Initiation Protocol) to standard, którego sieci telefoniczne używają do zestawiania i zarządzania połączeniami. W Polsce telefonią firmową rządzi SIP. Centrale IP, trunki SIP u operatorów, VoIP w biurach.
Wcześniej podłączenie agenta głosowego AI do sieci telefonicznej wymagało warstw pośrednich. Dostawca telefonii jak Twilio, most WebSocket, własny kod do routowania audio między siecią telefoniczną a AI. Działało, ale dodawało złożoność, koszty i opóźnienia.
Z natywną obsługą SIP agent AI łączy się bezpośrednio z systemem telefonicznym. Przypisywanie numerów, konfiguracja routingu połączeń, obsługa połączeń przychodzących i wychodzących bez budowania osobnej warstwy telefonicznej. Dla polskich firm, które rozważają automatyzację telefoniczną, to usuwa sporą barierę techniczną.
Polski rynek nadal mocno opiera się na telefonie. Gabinety lekarskie, kancelarie prawne, biura nieruchomości, warsztaty samochodowe. Telefon jest głównym kanałem kontaktu. AI, które wpina się bezpośrednio w istniejącą infrastrukturę SIP, ma znacznie prostszą ścieżkę do wdrożenia niż rozwiązanie wymagające trzech dodatkowych serwisów po drodze.
Benchmarki: co się poprawiło
Zaktualizowany model GPT-Realtime pokazuje mierzalne postępy w porównaniu z wersją z grudnia 2024:
Inteligencja (BigBench Audio): Z 65,6% do 82,8%. Model dokładniej rozumie, co rozmówcy mówią i o co pytają.
Wykonywanie instrukcji (MultiChallenge Audio): Z 20,6% do 30,5%. Kiedy model dostaje konkretne polecenia (zapytaj o imię, potwierdź termin, zbierz dane kontaktowe), wykonuje je bardziej niezawodnie.
Wywoływanie funkcji (ComplexFuncBench Audio): Z 49,7% do 66,5%. Model może uruchamiać zewnętrzne akcje (rezerwacja terminów, wyszukiwanie w bazie danych, wysyłanie powiadomień) na podstawie rozmowy.
Pojawiły się też dwa nowe głosy: Cedar i Marin, dostępne wyłącznie w Realtime API. Oraz wariant zoptymalizowany kosztowo, gpt-realtime-mini, dla zastosowań, gdzie niskie opóźnienie i niższy koszt liczą się bardziej niż maksymalna wydajność.
Znane ograniczenie: model czasem błędnie identyfikuje język rozmówców z silnym akcentem. Dla polskiego rynku, gdzie wielu rozmówców mówi po polsku z ukraińskim, białoruskim lub rosyjskim akcentem, warto to dokładnie przetestować przed wdrożeniem.
Kompromisy: Realtime vs. Pipeline dla asystentów telefonicznych
GPT-Realtime to wyraźny krok naprzód, ale nie jest jedynym sensownym podejściem. Architektura pipeline (STT + LLM + TTS), którą stosują produkty takie jak Safina, ma konkretne zalety.
Kontrola nad każdym elementem. W pipeline możesz wymienić dowolną część. Lepszy model STT pojawia się na rynku, wstawiasz go. Nowy głos TTS lepiej pasuje, zamieniasz. Chcesz użyć innego LLM do określonych typów rozmów, konfigurujesz routing. Przy jednym modelu end-to-end dostajesz to, co model daje.
Przejrzystość. W pipeline możesz sprawdzić, co się wydarzyło na każdym etapie. Przeczytać transkrypcję, zweryfikować rozumowanie LLM, ocenić wyjście TTS osobno. Przy modelu głos-do-głosu kroki pośrednie są ukryte wewnątrz modelu. Diagnozowanie problemów jest trudniejsze.
Niezależność od dostawcy. Pipeline pozwala mieszać dostawców. Deepgram do STT, Claude do rozumowania, Cartesia do TTS. Jeśli którykolwiek dostawca ma awarię lub podnosi ceny, wymieniasz ten jeden element.
Optymalizacja per krok. Każdy komponent można dostrajać indywidualnie. Szybszy model STT do prostych zapytań, dokładniejszy do złożonych. Parametry TTS dostosowane do kontekstu emocjonalnego, który identyfikuje LLM.
Podejście realtime wygrywa na latencji i ciągłości emocjonalnej. Pipeline wygrywa na elastyczności i kontroli. Oba mają sens. Branża prawdopodobnie zmierza w kierunku połączenia obu: modele end-to-end na szybkiej ścieżce, komponenty pipeline do specjalistycznych potrzeb.
Szerszy obraz rynku głosowego AI znajdziesz w naszym przeglądzie agentów głosowych AI 2026. A inny model, który mierzy się z wyzwaniem głosu w czasie rzeczywistym, opisaliśmy w artykule o Gemini 3.1 Flash Live.