Wenn du in den letzten Jahren mit einem KI-Telefonassistenten gesprochen hast, kennst du das Gefühl. Die Stimme klingt irgendwie okay, aber eben nicht richtig. Die Pausen sind zu lang. Die Betonung wirkt mechanisch. Nach drei Sätzen merkst du, dass du mit einer Maschine redest, und dein Vertrauen sinkt.
Im März 2025 hat sich das geändert. Cartesia, ein Unternehmen aus San Francisco, veröffentlichte Sonic 2 und sammelte gleichzeitig 64 Millionen Dollar in einer Series-A-Runde ein. Das Modell ist ein Text-to-Speech-System, das geschriebenen Text in gesprochene Sprache umwandelt. Aber die Art, wie es das tut, hat die Spielregeln für KI-Telefonate verschoben.
Cartesia Sonic 2: Warum dieses Modell anders ist
Die meisten TTS-Anbieter, darunter ElevenLabs, OpenAI und Play.HT, setzen auf Transformer-Architekturen. Das ist dieselbe Modellfamilie, die hinter GPT und ähnlichen Sprachmodellen steckt. Transformer verarbeiten Sequenzen, indem sie jedes Element mit allen vorherigen Elementen vergleichen. Das funktioniert gut für Text, wird bei Audio aber teuer, weil die Rechenkosten quadratisch mit der Sequenzlänge wachsen.
Cartesia hat sich für State Space Models (SSMs) entschieden. Diese Architektur verarbeitet sequentielle Daten anders. Statt die gesamte bisherige Sequenz zu betrachten, wird ein komprimierter Zustand geführt, der bei jedem neuen Datenpunkt aktualisiert wird. Das Ergebnis: schnellere Audiogenerierung mit weniger Rechenaufwand.
Sonic 2 erreicht eine Modell-Latenz von 90 Millisekunden. Die Turbo-Variante liegt bei 40ms. In Blindtests wurde Sonic 2 mit einem Faktor von 1,5x gegenüber dem nächstbesten Anbieter bevorzugt. Die Stimmqualität ist hörbar besser als bei den meisten Wettbewerbern. Betonung, Rhythmus und Pausengestaltung klingen natürlich.
Wenn du einen umfassenden Vergleich verschiedener TTS-Anbieter suchst, schau dir unseren Vergleichsleitfaden an.
Warum 90 Millisekunden den Unterschied machen
Bei einem Telefonat zählt jede Millisekunde Stille. Studien zur Gesprächsdynamik zeigen, dass Pausen ab etwa 200 Millisekunden als unnatürlich empfunden werden. Menschen reagieren empfindlich auf Verzögerungen, besonders am Telefon, wo es keine visuellen Hinweise gibt, die eine Pause erklären könnten.
Herkömmliche TTS-Systeme liegen bei 200 bis 500 Millisekunden Latenz. Das ist die Zeit vom Empfang des Textes bis zur Erzeugung der ersten Audiobytes. Wenn du die Spracherkennung und die LLM-Verarbeitung dazurechnest, ergibt sich eine Gesamtverzögerung von 800ms bis über einer Sekunde. Bei solchen Pausen fangen Anrufer an, sich zu wiederholen, über die KI zu reden oder aufzulegen.
Mit 90ms Modell-Latenz verschwindet die TTS-Stufe praktisch aus dem Latenzbudget. Der Anrufer hört eine Antwort, bevor die Pause unangenehm wird. Bei 40ms (Sonic Turbo) ist die Verzögerung kaum noch messbar im Gesamtkontext eines Telefonats.
Das ist kein theoretischer Vorteil. Es ist der Unterschied zwischen einem Gespräch, das fließt, und einem, bei dem der Anrufer spürt, dass etwas nicht stimmt. Für eine technische Erklärung, wie TTS in die gesamte Sprachpipeline passt, lies unseren Einblick in Safinas TTS-Ansatz.
Voice Cloning und 15 Sprachen
Sonic 2 startete mit Unterstützung für 15 Sprachen: Englisch, Französisch, Deutsch, Spanisch, Portugiesisch, Chinesisch, Japanisch, Hindi, Italienisch, Koreanisch, Niederländisch, Polnisch, Russisch, Schwedisch und Türkisch. Für den deutschsprachigen Markt ist das besonders relevant, weil viele Unternehmen regelmäßig Anrufe in mehreren Sprachen erhalten.
Ein Handwerksbetrieb in Stuttgart bekommt Anfragen auf Deutsch und Türkisch. Eine Beratungsfirma in Zürich wechselt zwischen Deutsch, Französisch und Englisch. Ein Hotel in Wien bedient Gäste aus ganz Europa. Bisher bedeutete Mehrsprachigkeit für KI-Systeme entweder schlechte Qualität in den Nebensprachen oder separate Systeme für jede Sprache.
Das Voice Cloning von Sonic 2 braucht nur 3 Sekunden Audiomaterial. Du nimmst eine kurze Sprachprobe auf, und das Modell kann diese Stimme in allen 15 Sprachen verwenden. Für Unternehmen heißt das: eine konsistente Markenstimme über alle Märkte hinweg, ohne für jede Sprache eigene Sprecher buchen zu müssen.
Wir haben separat über Mehrsprachigkeit bei KI-Telefonassistenten geschrieben und einen Überblick über KI-Sprachagenten in 2026 zusammengestellt.
Was das für KI-Telefonassistenten bedeutet
Am Telefon gibt es keinen Bildschirm. Keine visuelle Oberfläche, keine Ladeanimation, kein Chat-Fenster. Die Stimme ist das gesamte Produkt. Wenn diese Stimme flach klingt oder zu langsam reagiert, verlieren Anrufer in Sekunden das Vertrauen. Wenn sie natürlich klingt und schnell antwortet, nehmen sie das Gespräch ernst.
Die Psychologie hinter KI-Stimmen zeigt, dass Anrufer innerhalb der ersten Sekunden ein Urteil fällen. Eine Stimme, die menschlich klingt, hält Anrufer im Gespräch. Eine, die nach Maschine klingt, gibt ihnen einen Grund aufzulegen.
Stimmqualität beeinflusst auch direkt die Gesprächsergebnisse. Wenn ein Anrufer den KI-Assistenten als glaubwürdig wahrnimmt, gibt er eher die gewünschten Informationen preis, etwa seinen Namen, sein Anliegen oder seine Rückrufnummer. Klingt die Stimme dagegen nach einer billigen Automatisierung, versuchen viele Anrufer sofort, einen Menschen zu erreichen, oder legen direkt auf. Bei Unternehmen, die täglich Dutzende Anrufe erhalten, summiert sich das schnell.
Niedrige Latenz macht den Gesprächsfluss natürlich. Gute Prosodie sorgt dafür, dass die KI klingt, als würde sie verstehen, was sie sagt, nicht als lese sie Wörter von einer Liste ab. Voice Cloning ermöglicht es einem Unternehmen, seinen vertrauten Markenton beizubehalten, den Kunden wiedererkennen.
Produkte wie Safina nutzen TTS als letzte Stufe in einer Pipeline aus Spracherkennung, Sprachmodell-Verarbeitung und Audiogenerierung. Jede Stufe addiert Latenz. Wenn das TTS-Modell seinen Teil in unter 100 Millisekunden erledigt, bleibt die Gesamtantwortzeit in einem Bereich, der sich wie ein echtes Gespräch anfühlt.
Cartesia Sonic 2 hat den Standard verschoben. 90ms Latenz, 15 Sprachen, Voice Cloning aus 3 Sekunden Audio, ein Preis von 46,70 Dollar pro Million Zeichen. Für alle, die Sprach-KI-Produkte für echte Telefonate bauen, hat dieses Modell die Messlatte höher gelegt.