Text-to-Speech – TTS

Unter Text-to-Speech bzw. Sprachsynthese versteht man eine Funktion, die geschriebenen Text in Sprache umwandelt. Das betrifft die künstliche Erzeugung der menschlichen Sprechstimme. Ein Text-to-Speech-System (TTS) (oder Vorleseautomat) wandelt Fließtext in eine akustische Sprachausgabe.

Angeboten werden TTS-Systeme mittlerweile von vielen Tech-Giganten, wie Amazon, Microsoft, Google oder Apple. In der Regel kommt hier künstliche Intelligenz (KI) zum Einsatz, die geschriebenen Text in verständliche Sprache umwandelt. Unter Anwendung von Forschung im Bereich der Sprachsynthese (WaveNet) und der leistungsstarker neuronaler Netzwerke werden erstklassige Audiodaten produziert.

Mit Hilfe von Text und SSML kann die jeweilige Sprache angepasst werden. So werden Pausen, Zahlen, Formatierungen von Datum und Uhrzeit entsprechend zur Aussprache hinzugefügt. Außerdem kann die Sprachgeschwindigkeit der vorzulesenden Texte und die Tonlage optional angepasst werden.