Google erweitert Gemini-Plattform um neue Text-to-Speech-Funktionen

Google hat mit Gemini 3.1 Flash TTS ein neues Sprachsynthesemodell veröffentlicht, das natürlicher klingende Stimmen, präzisere Steuerungsmöglichkeiten und Unterstützung für über 70 Sprachen bietet – direkt zugänglich über die Gemini API.

Google erweitert Gemini-Plattform um neue Text-to-Speech-Fähigkeiten

Steuerung per Audio-Tags

Ein zentrales Merkmal des neuen Modells ist die Möglichkeit, die Sprachausgabe über sogenannte Audio-Tags gezielt zu beeinflussen. Entwickler können damit Parameter wie Tempo, Betonung oder emotionale Färbung der Stimme direkt im Prompt spezifizieren – ohne auf separate Nachbearbeitungsschritte angewiesen zu sein.

Diese Flexibilität erlaubt es, unterschiedliche Anwendungsfälle wie Kundenservice-Bots, Hörbücher oder interaktive Sprachassistenten mit demselben Modell abzudecken – und dabei jeweils angepasste Stimmprofile zu erzeugen.

Natürlichere Prosodie als Ziel

Text-to-Speech-Systeme galten lange als technisch funktional, aber klanglich künstlich. Google adressiert mit Gemini 3.1 Flash TTS vor allem die prosodische Qualität – also die natürliche Verteilung von Pausen, Rhythmus und Intonation im Sprachfluss.

Durch die Integration in das Gemini-Ökosystem kann das Modell kontextuelle Informationen berücksichtigen, was sich insbesondere bei komplexen oder mehrdeutigen Texten positiv auf die Ausgabequalität auswirken soll.

Breite Sprachunterstützung

Die Unterstützung von über 70 Sprachen positioniert das Modell als Werkzeug für internationale Anwendungen. Für Unternehmen mit multilingualen Produkten oder Kundenstämmen reduziert sich damit der Aufwand, separate Lösungen für unterschiedliche Märkte zu integrieren.

Ob die Qualität in allen unterstützten Sprachen gleichmäßig hoch ist, bleibt abzuwarten – bei TTS-Modellen variiert die Ausgabequalität erfahrungsgemäß je nach verfügbaren Sprachressourcen erheblich.

Einordnung für deutsche Unternehmen

Für deutschsprachige Unternehmen ist Gemini 3.1 Flash TTS in mehreren Kontexten relevant: Anbieter von Sprachassistenten, E-Learning-Plattformen oder automatisierten Kundenservice-Lösungen erhalten eine API-basierte Option, die sich direkt in bestehende Gemini-Infrastrukturen integrieren lässt.

Da das Modell über Google Cloud bereitgestellt wird, gelten die üblichen Fragen rund um Datenschutz und DSGVO-Konformität, die bei jeder Verarbeitung kundenbezogener Audiodaten sorgfältig zu prüfen sind. Unternehmen, die bereits auf Googles KI-Stack setzen, dürften den geringsten Integrationsaufwand haben. Für alle anderen empfiehlt sich ein Vergleich mit etablierten Alternativen wie ElevenLabs oder Microsofts Azure Speech Services, bevor eine strategische Entscheidung getroffen wird.

Quelle: The Decoder