Eintrag in der Universitätsbibliographie der TU Chemnitz
Volltext zugänglich unter
URN: urn:nbn:de:bsz:ch1-qucosa2-994235
Taubert, Stefan
Eibl, Maximilian (Prof. Dr.); Mandl, Thomas (apl. Prof. Dr.)
Vergleich des Einflusses impliziten und expliziten Lernens der Lautdauer auf die Verständlichkeit und Natürlichkeit von Sprachsynthese in neuronalen Systemen
Kurzfassung in deutsch
Sprachsynthese (engl. Text-to-Speech, TTS) bezeichnet die computergestützte Umwandlung von Text in Sprache und ermöglicht deren Integration in zahlreiche Bereiche menschlicher Interaktion. Da Sprache das zentrale Kommunikationsmittel des Menschen ist, sind Verständlichkeit und Natürlichkeit entscheidende Qualitätskriterien synthetischer Sprache. Insbesondere durch neuronale Ansätze konnten in den letzten Jahren erhebliche Verbesserungen der Sprachqualität erzielt werden.Moderne neuronale TTS-Systeme erlauben bereits eine gezielte Steuerung verschiedener Aspekte, beispielsweise von Prosodie, Sprechgeschwindigkeit und Emotionen; eine präzise Kontrolle auf Lautebene ist jedoch bislang nicht möglich. Diese Arbeit untersucht daher, ob ein neuronales TTS-System bereits während des Trainings explizit lernen sollte, die Lautdauer auf Phonemebene zu steuern, um Natürlichkeit und Verständlichkeit synthetischer Sprache zu verbessern, oder ob ein rein implizites Lernen aus umfangreichen Sprachdaten ausreichend ist. Für die Untersuchung wurde ein bestehendes neuronales TTS-System erweitert, um zusätzlich die Lautdauer mithilfe automatischer Lautdauerannotation explizit zu erlernen. Dazu erfolgte zunächst eine phonemische Transkription der Aufnahmen mit anschließender zeitlicher Ausrichtung. Die Laute wurden basierend auf ihrer Dauer in vier Quantile (kurz, mittel, halblang, lang) eingeteilt.
Die Evaluation wurde subjektiv über Amazon Mechanical Turk in zwei Studien durchgeführt. Die erste Studie beinhaltete keine Maßnahmen zur Spamerkennung, was zu einer hohen Zahl an Zufallsantworten und nicht aussagekräftigen Ergebnissen führte. In der zweiten Studie wurde der Studienaufbau überarbeitet und umfangreiche Maßnahmen zur Spamerkennung implementiert. Dabei zeigte sich, dass eine verständliche und natürliche Sprache generiert werden konnte und das explizite Lernen der Lautdauer die Natürlichkeit der erzeugten Sprache bei gleichbleibender Verständlichkeit gegenüber dem impliziten Ansatz hochsignifikant verbesserte. In einer ergänzenden Nebenstudie wurde zudem gezeigt, dass beide Ansätze auch für Chinesisch, eine typologisch stark unterschiedliche Sprache, natürliche und verständliche Ergebnisse liefern konnten.
Eine objektive Evaluation bestätigte für beide Sprachen die qualitative Überlegenheit des expliziten Ansatzes.
Die vorgestellte Methode verbessert somit die Steuerbarkeit und Natürlichkeit neuronaler Sprachsynthesesysteme und eröffnet zudem neue Möglichkeiten für linguistische Forschung, indem sprachliche Merkmale im Zusammenhang mit der Lautdauer gezielt und reproduzierbar untersucht werden können.
| Universität: | Technische Universität Chemnitz | |
| Förderung: | DFG | |
| Institut: | Professur Medieninformatik | |
| Fakultät: | Fakultät für Informatik | |
| Dokumentart: | Dissertation | |
| Betreuer: | Eibl, Maximilian (Prof. Dr.) | |
| ISBN/ISSN: | 978-3-96100-287-0 (print); 978-3-96100-288-7 (online) | |
| DOI: | doi:10.51382/978-3-96100-288-7 | |
| URL/URN: | https://nbn-resolving.org/urn:nbn:de:bsz:ch1-qucosa2-994235 | |
| Quelle: | Chemnitz : Universitätsverlag Chemnitz, 2025. - 468 S. - Wissenschaftliche Schriftenreihe Dissertationen der Medieninformatik ; Band 15 | |
| SWD-Schlagwörter: | Text-to-Speech , Sprachsynthese , Crowdsourcing , Crowdworking , Lautquantität , Vocoder , Phonem , Linguistik , Neuronales Netz | |
| Freie Schlagwörter (Englisch): | Tacotron , LJ Speech , TTS , Seq2seq , THCHS-30 , Mean Opinion Score , WaveGlow , Amazon Mechanical Turk | |
| DDC-Sachgruppe: | Informatik, Informationswissenschaft, allgemeine Werke | |
| Sprache: | deutsch | |
| Tag der mündlichen Prüfung | 18.09.2025 | |
| OA-Lizenz | CC BY 4.0 |