Cartesia Sonic 2: Model TTS, ktory zmienil glos asystentow telefonicznych AI

Cartesia Sonic 2 oferuje synteze mowy z opoznieniem 90ms, 15 jezykow i klonowanie glosu. Dlaczego to wazne dla asystentow telefonicznych AI.

David Schemm David Schemm

Polski rynek ma swoje specyficzne wymagania wobec głosowych systemów AI. Język polski, z jego złożoną deklinacją, bogatą fleksją i charakterystyczną intonacją, jest wyzwaniem dla większości systemów syntezy mowy. Większość modeli TTS traktuje polski jako język drugiej kategorii. Efekt jest słyszalny natychmiast: sztuczna kadencja, błędne akcenty, dziwne pauzy w środku zdań.

W marcu 2025 roku Cartesia wypuściła Sonic 2, model text-to-speech nowej generacji, i jednocześnie ogłosiła rundę finansowania Series A na kwotę 64 milionów dolarów. Polski znalazł się wśród 15 języków dostępnych od pierwszego dnia. To nie jest dodatek, który pojawił się miesiące po premierze. To pełne wsparcie od startu.

Cartesia Sonic 2: Co to jest i dlaczego się wyróżnia

Cartesia to firma z San Francisco specjalizująca się w modelach AI działających w czasie rzeczywistym. Ich linia TTS o nazwie Sonic od początku skupiała się na niskim opóźnieniu generowania mowy. Sonic 2 to nie drobna aktualizacja. To przebudowa modelu z inną architekturą niż konkurencja.

Większość dostawców TTS, w tym ElevenLabs, OpenAI i Play.HT, korzysta z architektur opartych na transformerach. To ta sama rodzina modeli co GPT. Transformery przetwarzają sekwencje porównując każdy element ze wszystkimi poprzednimi. W przypadku audio staje się to kosztowne obliczeniowo, bo koszty rosną kwadratowo wraz z długością sekwencji.

Cartesia wybrała State Space Models (SSMs). Zamiast analizować całą dotychczasową sekwencję, SSM utrzymuje skompresowany stan, który aktualizuje się z każdym nowym punktem danych. Praktyczny efekt: szybsze generowanie dźwięku przy mniejszym zużyciu mocy obliczeniowej.

Sonic 2 osiąga opóźnienie modelu na poziomie 90 milisekund. Wariant Sonic Turbo schodzi do 40ms. W testach porównawczych przeprowadzonych w sposób zaślepiony Sonic 2 był preferowany 1,5x częściej niż następny najlepszy dostawca. Jakość głosu jest zauważalnie lepsza w prozdii (rytm i intonacja mowy), a halucynacje, czyli momenty, gdy TTS wymawia słowa nieobecne w oryginalnym tekście, zostały znacząco ograniczone.

Jeśli szukasz porównania głównych dostawców TTS pod kątem kosztów i jakości, przygotowaliśmy szczegółowe zestawienie.

Dlaczego 90 milisekund zmienia zasady gry

Podczas rozmowy telefonicznej cisza ma ciężar. Nie ma twarzy rozmówcy. Nie ma gestów. Nie ma wizualnych wskazówek, że system “myśli”. Tylko dźwięk. Badania nad dynamiką konwersacji pokazują, że ludzie zaczynają odczuwać pauzy jako nienaturalne po około 200 milisekundach. Powyżej 400ms rozmowa zaczyna się rozpadać.

Tradycyjne systemy TTS pracują z opóźnieniem 200 do 500ms. To czas od otrzymania tekstu do wygenerowania pierwszych bajtów audio. Jeśli dodamy do tego rozpoznawanie mowy i przetwarzanie przez model językowy, całkowite opóźnienie w rozmowie z AI sięga 800ms lub więcej. Przy takiej pauzie rozmówca zaczyna powtarzać pytanie, mówić jednocześnie z AI albo po prostu się rozłącza.

Sonic 2 redukuje opóźnienie modelu do 90 milisekund. Sonic Turbo do 40ms. Przy opóźnieniu TTS poniżej 100ms ten etap procesu przestaje być wąskim gardłem. Odpowiedź dociera zanim cisza stanie się niezręczna.

To nie jest przewaga widoczna tylko na wykresie. To różnica między rozmówcą, który zostaje na linii, a takim, który rozłącza się po trzech sekundach ciszy. Techniczną analizę tego, jak TTS wpisuje się w pełny pipeline głosowy, znajdziesz w naszym wglądzie w podejście TTS Safiny.

Klonowanie głosu i 15 języków

Sonic 2 wystartował z obsługą 15 języków: angielski, francuski, niemiecki, hiszpański, portugalski, chiński, japoński, hindi, włoski, koreański, niderlandzki, polski, rosyjski, szwedzki i turecki. To, że polski jest w tej grupie od dnia premiery, ma znaczenie. Historycznie polski często trafiał do TTS jako język dodany po miesiącach, z gorszą jakością niż angielski czy niemiecki.

Klonowanie głosu wymaga zaledwie 3 sekund nagrania. Krótka próbka wystarczy, żeby model mógł generować mowę tym głosem we wszystkich 15 językach. Dla polskich firm, które obsługują klientów zagranicznych lub mają oddziały w innych krajach, oznacza to spójny głos marki bez konieczności zatrudniania lektorów dla każdego rynku.

Weźmy kilka przykładów. Biuro nieruchomości w Krakowie odbiera zapytania po polsku, angielsku i niemiecku. Klinika stomatologiczna w Warszawie przyjmuje pacjentów polskojęzycznych i anglojęzycznych. Firma logistyczna z Gdańska komunikuje się z klientami w Polsce, Niemczech i Skandynawii. Możliwość odpowiedzi w języku rozmówcy, z naturalną wymową i rozpoznawalnym głosem firmy, zmienia sposób, w jaki ludzie postrzegają automatyczny system telefoniczny.

Napisaliśmy osobno o tym, dlaczego wielojęzyczność ma znaczenie dla asystentów telefonicznych AI i przygotowaliśmy przegląd agentów głosowych AI w 2026 roku.

Co to oznacza dla asystentów telefonicznych AI

Rozmowa telefoniczna to wyłącznie dźwięk. Nie ma ekranu. Nie ma interfejsu. Nie ma animacji ładowania. Głos jest całym doświadczeniem produktu. Jeśli ten głos brzmi płasko, reaguje z opóźnieniem lub ma mechaniczny charakter, rozmówca traci zaufanie w ciągu pierwszych sekund.

Badania nad psychologią głosu AI pokazują, że rozmówcy formułują ocenę wiarygodności systemu niemal natychmiast. Głos, który brzmi po ludzku, utrzymuje zaangażowanie. Głos, który brzmi jak maszyna, daje powód do rozłączenia.

Niskie opóźnienie tworzy naturalny przepływ rozmowy. Dobra prozdia sprawia, że AI brzmi jakby rozumiała to, co mówi, a nie jakby odczytywała tekst z listy. Klonowanie głosu pozwala firmie zachować rozpoznawalny, profesjonalny ton, który klienci kojarzą z marką.

Produkty takie jak Safina wykorzystują TTS jako ostatni etap pipeline’u obejmującego rozpoznawanie mowy, przetwarzanie modelem językowym i generowanie audio. Każdy etap dodaje opóźnienie. Kiedy model TTS wykonuje swoją część w mniej niż 100 milisekund, całkowity czas odpowiedzi mieści się w zakresie, który przypomina prawdziwą rozmowę.

Cartesia Sonic 2 przesunęła standard. 90ms opóźnienia, 15 języków (w tym polski od premiery), klonowanie głosu z 3 sekund nagrania, cena 46,70 dolara za milion znaków. Dla każdego, kto buduje produkty głosowe AI do prawdziwych rozmów telefonicznych, marzec 2025 wyznaczył nowy punkt odniesienia.

Źródła

9:41

Safina obsłużyła w tym tygodniu 51 połączeń

46

Zaufane

4

Podejrzane

1

Niebezpieczne

Ostatnie 7 dni
Filter
EM
Emma Martin 67s 15:30

Chce omówić ofertę na nową kampanię i ma pytania dotyczące harmonogramu.

KN
Katarzyna Nowak 54s 14:45

Pyta o status zamówienia i termin dostawy.

TW
Tomasz Wiśniewski 34s 13:10

Umówienie spotkania w sprawie projektu na przyszły tydzień.

Nieznany 44s 11:30

Obietnica wygranej — prawdopodobnie spam.

MW
Magdalena Wójcik 10s 09:15

Reklamacja ostatniego zamówienia, prosi o oddzwonienie.

PZ
Piotr Zieliński 95s 13 gru

Chce omówić potencjalną współpracę.

AR
Anna Rutkowska 85s 13 gru

Jest Twoją koleżanką i chce porozmawiać o projekcie.

JK
Jakub Krawczyk 42s 12 gru

Pyta o dostępne terminy na przyszły tydzień.

LB
Lena Bąk 68s 12 gru

Ma pytania dotyczące faktury i prosi o wyjaśnienie.

Połączenia
Safina
Kontakty
Profil
9:41
Połączenie od Emmy Martin
12 gru
11:30
67s
+48223456789

Chce omówić ofertę na nową kampanię i ma pytania dotyczące harmonogramu.

Kluczowe punkty

  • Oddzwonić do Emmy Martin
  • Wyjaśnić pytania o harmonogram i warunki cenowe
Oddzwoń
Edytuj kontakt

Wgląd AI

Nastrój rozmówcy Bardzo dobry

Rozmówca był współpracujący i przekazał potrzebne informacje.

Pilność Niski

Rozmówca może poczekać na odpowiedź.

Audio i transkrypcja

0:16

Dzień dobry, tu Safina AI, cyfrowy asystent Piotra. W czym mogę pomóc?

Dzień dobry Safina, tu Emma Martin. Chciałam porozmawiać o ofercie i harmonogramie.

Dziękuję, Emmo. Czy przy wdrożeniu rozważają Państwo głównie pakiet Standard czy Pro?

Dokładnie. Potrzebujemy pakietu Pro i chcielibyśmy wystartować w przyszłym miesiącu, jeśli onboarding będzie możliwy w pierwszym tygodniu.

Pożegnaj się ze staromodną pocztą głosową.

Wypróbuj Safina za darmo i zacznij inteligentnie zarządzać swoimi połączeniami.