Am 26. Maerz 2026 hat Google Gemini 3.1 Flash Live veroeffentlicht. Ein Audio-zu-Audio-Modell, das fuer Echtzeit-Sprachgespraeche gebaut wurde und ueber 90 Sprachen unterstuetzt. Kein anderes Sprachmodell auf dem Markt bietet aktuell eine so breite Sprachabdeckung.
Fuer den deutschen Markt ist das aus zwei Gruenden relevant. Erstens: Deutschland ist ein Exportland. Unternehmen, die mit Kunden in Dutzenden Laendern telefonieren, brauchen Sprachunterstuetzung, die ueber Deutsch und Englisch hinausgeht. Zweitens: Die Technologie hinter Flash Live, naemlich die direkte Audio-Verarbeitung ohne den Umweg ueber Text, veraendert die Messlatte fuer alle KI-Sprachagenten.
Was Gemini 3.1 Flash Live ist und warum “Echtzeit” zaehlt
Flash Live gehoert zur Gemini-Modellfamilie von Google. Aber anders als die Textmodelle der Reihe ist dieses Modell speziell fuer gesprochenen Dialog optimiert. Google nennt es ihr “Audio-Modell mit der hoechsten Qualitaet” und hat es sowohl in Verbraucherprodukte (Gemini Live, Search Live) als auch in Entwicklerwerkzeuge (Gemini Live API im Google AI Studio) integriert.
Der entscheidende Punkt ist die Architektur. Traditionelle Sprach-KI funktioniert als Kette: Spracherkennung wandelt Audio in Text um, ein Sprachmodell generiert eine Textantwort, und eine Text-to-Speech-Engine macht daraus wieder Audio. Jeder Schritt braucht Zeit. Jede Umwandlung verliert Information. Die Betonung in der Stimme des Anrufers, der Tonfall, die Geschwindigkeit, das alles geht beim Weg ueber Text verloren.
Flash Live arbeitet direkt mit Audio. Sprache rein, Sprache raus. Das reduziert die Latenz und bewahrt akustische Nuancen. Fuer Telefongespraeche, wo jede Millisekunde zaehlt und der Tonfall die Haelfte der Kommunikation ausmacht, ist das ein spuerbarer Unterschied.
OpenAI verfolgt mit ihrer Realtime API einen aehnlichen Ansatz. Die gesamte Branche bewegt sich weg von der verketteten Pipeline hin zu audio-nativen Modellen. Google steigt mit Flash Live gross in diesen Wettbewerb ein.
90+ Sprachen: Was das fuer deutsche Unternehmen bedeutet
Neunzig Sprachen. Im Vergleich: OpenAI unterstuetzt im Voice-Modus etwa 50 Sprachen. Safina bietet 50+ Sprachen fuer Telefongespraeche. ElevenLabs kommt bei Conversational AI auf ungefaehr 30. Flash Lives 90+ sind der groesste Sprachkatalog, den ein einzelnes Voice-Modell je ausgeliefert hat.
Fuer deutsche Unternehmen mit internationaler Kundschaft heisst das: ein Modell koennte theoretisch Anrufe in fast jeder Sprache entgegennehmen, ohne dass verschiedene Systeme fuer verschiedene Maerkte noetig sind. Flash Live erkennt die Sprache automatisch und kann mitten im Gespraech wechseln. Das ist relevant fuer Regionen mit mehrsprachiger Bevoelkerung oder fuer Anrufer, die zwischen Sprachen hin- und herspringen.
Aber Abdeckung ist nicht gleich Qualitaet. Ein Modell, das 90 Sprachen auf 80% Genauigkeit beherrscht, ist etwas anderes als eines, das 50 Sprachen auf 95% schafft. Fuer allgemeine Unterhaltungen reicht gute Abdeckung. Fuer geschaeftliche Telefonate, wo ein Assistent den Namen des Anrufers, eine Adresse oder eine Terminzeit korrekt erfassen muss, zaehlt Praezision.
Google hat bisher keine detaillierten Benchmarks pro Sprache fuer Flash Live veroeffentlicht. Die 90+ Sprachen beziehen sich auf den Consumer-Modus von Gemini Live, wo Gespraechsfehler weniger Konsequenzen haben als bei einem verpassten Geschaeftsanruf. Fuer Produkte wie Safina, die echte Geschaeftsanrufe bearbeiten, bleibt Genauigkeit bei Namen, Nummern und konkreten Anliegen das Wichtigste.
Multimodale Gespraeche: Stimme plus Bildschirm
Flash Live kann waehrend eines Gespraechs visuelle Eingaben verarbeiten. Auf dem Smartphone oder Laptop sieht das Modell deinen Bildschirm oder Kamera-Feed, waehrend es mit dir spricht.
Die Anwendungsfaelle liegen auf der Hand: gemeinsam ein Dokument besprechen, Softwareprobleme per Bildschirmfreigabe loesen, ein defektes Geraet durch die Kamera zeigen. Fuer technischen Support oder Beratung ist das interessant.
Fuer Telefonanrufe aendert es allerdings nichts. Telefongespraeche sind reines Audio. Wer bei einem Unternehmen anruft, teilt nicht seinen Bildschirm. Die multimodale Faehigkeit zeigt, wohin die Technik geht (Stimme plus Bild wird der Standard fuer KI-Interaktionen), aber fuer den Anwendungsfall “jemand ruft deine Geschaeftsnummer an” bleibt Audio der einzige Kanal.
Was von der multimodalen Technik uebertragbar ist: die akustische Analyse. Flash Live erkennt Ton, Emotion und Betonung in der Stimme des Anrufers. Das macht einen Unterschied am Telefon. Zu wissen, ob ein Anrufer frustriert oder entspannt klingt, beeinflusst, wie ein guter Assistent reagieren sollte. Cartesias Sonic 3 geht dieses Problem von der Ausgabeseite an (emotionale Sprache erzeugen), waehrend Flash Live es von der Eingabeseite adressiert (emotionale Sprache verstehen).
Function Calling: Vom Gespraech zur Aktion
Flash Live erreicht 90,8% auf ComplexFuncBench Audio. Das ist ein Benchmark, der testet, ob ein Sprachmodell auf Basis gesprochener Anweisungen die richtigen Funktionen aufruft. Stand Maerz 2026 ist das der beste Wert im Feld.
Function Calling ist der Unterschied zwischen einem Chatbot und einem Agenten. Statt nur gesprochene Antworten zu generieren, kann das Modell Aktionen ausfuehren: einen Kalender pruefen, eine Bestellung nachschlagen, einen Termin buchen, einen Anruf weiterleiten. Der Anrufer sagt “Verschieb meinen Termin von Donnerstag auf Freitagnachmittag” und das Modell bestaetigt nicht nur, dass es die Anfrage verstanden hat. Es ruft die Kalender-API auf und fuehrt die Aenderung durch.
Google stellt Entwicklern den Zugang ueber die Gemini Live API im Google AI Studio bereit. Die API unterstuetzt Function Declarations, mit denen Entwickler definieren, welche Aktionen das Modell ausfuehren darf.
Fuer KI-Telefonassistenten ist das die relevanteste Faehigkeit. Anrufer wollen nicht plaudern. Sie wollen, dass etwas erledigt wird. Ein Termin gebucht, eine Frage beantwortet, eine Information weitergeleitet. Ein Modell, das gesprochene Anfragen zuverlaessig in strukturierte Funktionsaufrufe umwandelt, ist genau das, was KI-Sprachagenten brauchen.
Was das fuer KI-Telefonassistenten bedeutet
Flash Live verschiebt die Erwartungen an Voice-KI in drei Bereichen.
Sprachabdeckung hat einen neuen Standard. 90 Sprachen zwingen jeden anderen Anbieter, nachzuziehen. Fuer exportorientierte deutsche Unternehmen verkleinert sich die Luecke zwischen “wir decken unsere Hauptmaerkte ab” und “wir koennen ueberall bedienen.” Dedizierte Telefonprodukte muessen ihre Sprachunterstuetzung weiter ausbauen, um wettbewerbsfaehig zu bleiben.
Audio-native Modelle werden zum Standard. Die alte Pipeline aus STT, LLM und TTS wird von Modellen abgeloest, die direkt mit Audio arbeiten. Flash Live, OpenAIs Realtime API und andere bewegen sich in diese Richtung. Produkte, die auf der alten Pipeline aufbauen, werden die Latenz-Differenz spueren. Safinas Architektur priorisiert bereits niedrige Latenz, aber die zugrundeliegende Modelltechnologie veraendert sich.
Allzweck-KI versus telefonspezifische Loesung bleibt die zentrale Frage. Flash Live ist fuer breite Konversations-KI gebaut, mit Bildschirmfreigabe, Kameraintegration und Consumer-Chat. Ein Telefonassistent braucht etwas anderes: zuverlaessige Anrufbearbeitung, praezise Informationserfassung, CRM-Integration, persoenliche Begruessung, Terminbuchung und dutzende geschaeftsspezifische Ablaeufe. Google baut den Motor. Produkte wie Safina bauen das Fahrzeug drumherum.
Flash Live hebt das Leistungsniveau fuer die gesamte Branche. Die Frage fuer Unternehmen ist, ob sie eine universelle Sprach-KI brauchen oder einen Telefonassistenten, der gezielt fuer ihre Anrufe gebaut wurde.