PatentDe  


Dokumentenidentifikation DE102006041509A1 15.03.2007
Titel Verfahren zur Stimmenkonvertierung bei der Sprachdekodierung und Sprachsynthese
Anmelder Technische Universität Dresden, 01069 Dresden, DE
Erfinder Jokisch, Oliver, 01129 Dresden, DE;
Hoffmann, Rüdiger, 01237 Dresden, DE;
Strecha, Guntram, 01099 Dresden, DE;
Eichner, Matthias, 01099 Dresden, DE
Vertreter Hempel, H., Dipl.-Phys., Pat.-Anw., 01159 Dresden
DE-Anmeldedatum 29.08.2006
DE-Aktenzeichen 102006041509
Offenlegungstag 15.03.2007
Veröffentlichungstag im Patentblatt 15.03.2007
IPC-Hauptklasse G10L 19/00(2006.01)A, F, I, 20060829, B, H, DE
IPC-Nebenklasse G10L 13/02(2006.01)A, L, I, 20060829, B, H, DE   
Zusammenfassung Die Erfindung betrifft ein Verfahren zur Stimmenkonvertierung mittels Sprachdekodierung und Sprachsynthese, bei dem zur Erzeugung einer Stimme Anregungssignale und LSF-Parameter gemeinsam einem Sprachsynthesefilter zugeführt werden, wobei die LSF-Parameter eine Anzahl von Winkeln der komplexen Nullstellen des charakteristischen Polynoms einer Vorhersagekodier-LPC-Analyse eines Sprachabschnittes darstellen und einen vorgegebenen Abstand zueinander aufweisen.
Die Aufgabe besteht darin, dass aus mindestens einer Quellenstimme zumindest eine Ausgabestimme mit veränderter Stimmencharakteristik - eine konvertierte Stimme - erreicht wird, wobei der Rechen- und Speicheraufwand zur Erreichung der Stimmenkonvertierung verringert werden soll.
Die Lösung besteht darin, dass in einer prozessorgesteuerten Manipulationseinheit (8) bei der Synthese zu einer konvertierten Stimme
- aus einem Satz dekodierter LSF-Parameter mittels einer Transformationsbeziehung unter Einbeziehung der vorgegebenen Abstände ein veränderter Satz der LSF-Parameter berechnet wird,
- der manipulierte Satz von LSF-Parametern zu einem Satz von Vorhersage-LPC-Koeffizienten konvertiert wird und
- der erhaltene Satz von Vorhersage-LPC-Koeffizienten zur Stimmenkonvertierung mit manipulierten Anregungssignalen dem Sprachsynthesefilter (7) zugeführt wird.

Beschreibung[de]

Die Erfindung betrifft ein Verfahren zur Stimmenkonvertie rung bei der Sprachdekodierung und Sprachsynthese, bei dem zur Erzeugung einer Stimme Anregungssignale und LSF-Parameter gemeinsam einem Sprachsynthesefilter zugeführt werden, wobei die LSF-Parameter eine Anzahl von Winkeln der komplexen Nullstellen des charakteristischen Polynoms einer Vorhersagekodier-LPC-Analyse eines Sprachabschnittes darstellen und einen vorgegebenen Abstand zueinander aufweisen.

Bei der herkömmlichen konkatenativen Sprachsynthese werden kurze Sprachsegmente, welche zuvor aufgenommen und in einer Datenbank (Inventar) zusammengefasst wurden, aneinander verkettet. Für jeden Sprecher muss ein eigenes Inventar erstellt werden. Beim Einsatz der Sprachsynthese in kleinen Geräten mit wenig Speicher und Rechenleistung (Mobiltelefon, PDAs) ist es notwendig, die Datenbasen so klein wie möglich zu halten (z.B. durch Komprimierung mittels CELP-basierter Sprachkodierer). Um trotzdem eine Synthese mit verschiedenen Stimmen einsetzen zu können, gibt es die Möglichkeit einer Sprecherkonvertierung. Dabei wird während der Synthese die Charakteristik der (Inventar-)Stimme geändert. Dadurch lassen sich verschiedene Stimmen aus einem Inventar synthetisieren.

In herkömmlichen Verfahren werden neben der Änderung der Sprechergrundfrequenz (z.B. mittels PSOLA) zur Sprecherkonvertierung auch spektrale Eigenschaften (Formantfrequenzen) der Stimme manipuliert. Im einfachen Fall wird die Frequenzachse des Spektrums transformiert. Dadurch wird eine Verschiebung der Formanten zu tieferen bzw. höheren Frequenzen erreicht. Es wird der Fakt ausgenutzt, dass im Mittel weibliche Stimmen höhere Formantlagen haben als männliche. Die Transformation der Frequenzachse kann am Inventar erfolgen oder während der Synthese.

Ein Problem der herkömmlichen Verfahren besteht darin, dass die Transformation der Frequenzachse im Frequenzbereich rechenaufwändiger als im Zeitbereich ist. Des Weiteren ist es bei der einfachen Frequenzachsentransformation nicht möglich, einen Zielsprecher zu realisieren. Durch die Transformation wird die Charakteristik der Stimme weniger zielorientiert verändert.

Die Technik der Stimmenkonvertierung transformiert individuelle Sprechercharakteristiken unter Beibehaltung der originalen Sprachstruktur und findet eine breite Anwendung in der Sprachsignalverarbeitung. Speziell für Sprachsynthesesysteme mit eingeschränkten Ressourcen kann die Stimmenkonvertierung den Speicherbedarf der akustischen Datenbank reduzieren. Mit Stimmenkonvertierung können neue Stimmen unterschiedlichen Geschlechts aus einer existierenden Stimme generiert werden. Normalerweise basiert die Stimmenkonvertierung auf der Modifikation von spektralen Eigenschaften im Einklang mit der Manipulation der Sprechergrundfrequenz. Eine einfache und bekannte Realisierung dessen ist die inverse Vokaltraktlängennormierung (VTLN) durch Transformationsfunktionen im Frequenzbereich.

Konsequenterweise bewirkt diese Stimmenkonvertierung eine Erhöhung der Rechenkomplexität, was den praktischen Einschränkungen von typischen eingebetteten und mobilen Anwendungen widerstrebt.

Eine Stimmenkonvertierung, verwendet in Text-in-Sprache Systemen (engl. text-to-speech systems – TTS-systems), ist in der Druckschrift R. Hoffmann, O. Jokisch, D. Hirschfeld, G. Strecha, H. Kruschke, and U. Kordon, "A multilingual TTS system with less than 1 megabyte footprint for embedded applications," in Proc. ICASSP, Hong Kong, 2003 beschrieben, wobei die Möglichkeit einer personalisierten Sprachsynthese angegeben wird. Sie ist von besonderer Relevanz für eingebettete Anwendungen (engl. embedded systems) mit strengen Speicherrestriktionen. TTS-Systeme mit sehr kleinem "footprint" profitieren von Stimmenkonvertierungs-Techniken durch das Entstehen von zusätzlichen Stimmen ohne eine Erhöhung des Speicherbedarfs.

Bei der Anwendung in der Synthese wird zum Testen des oben beschriebenen Sprecherkonvertierungsalgorithmus der Algorithmus in den AMR-WB-Dekodierer eines Sprachsynthesesystems entwickelten microDRESS integriert. Der Synthetisator basiert auf der Konkatenation von Diphonen. Die akustische Synthese des Systems manipuliert die prosodischen Merkmale (Grundfrequenz f0, Phonemdauer) und verkettet die dekodierten Sprachsegmente, welche im AMR-WB kodierten Inventar abgelegt sind.

Die Stimmenkonvertierung mit einer ersten Realisierung durch die Modifikation von spektralen Eigenschaften im Einklang mit der Manipulation der Sprechergrundfrequenz ist in den Druckschriften Kain and M. Macon, "Spectral voice conversion for text-tospeechsynthesis," in Proc. ICASSP, vol. 1, May 1998, pp. 285–288 sowie D. Sündermann, H. Ney, and H. Höge, "Vt1n-based crosslanguage voice conversion," in Proc. Automatic Speech Recognition and Understanding, ASRU, 2003, pp. 676–681 beschrieben, in der eine Zielstimme aus einer Quellstimme generiert wird.

Eine andere Durchführung der Stimmenkonvertierung besteht darin, das Generieren einer neuen Stimme ohne spezifische Zielstimme nach der Druckschrift M. Eichner, M. Wolff, and R. Hoffmann, "Voice characteristics conversion for TTS using reverse VTLN," in Proc. ICASSP, vol. 5, May 2004, pp. 17–20 durchzuführen, wobei die neue Stimme durch die Manipulation der spektralen Hülle unter Verwendung einer im Frequenzbereich angewendeten Transformationsfunktion erhalten wird.

Ein Problem besteht darin, dass eine Transformation im Frequenzbereich einen hohen Rechen- und Speicheraufwand erfordert.

Des Weiteren ist eine Stimmentransformation nach einer vorgegebenen Zielstimme in der Druckschrift EP 0 979 503 B1 beschrieben, in der die Umformung der Stimmeneigenschaften einer Quellenstimme vorgenommen wird, um die Stimmeigenschaften einer Zielstimme zu übernehmen, unter Verwendung der Spektralhüllkurve der Quellenstimme, wobei die Spektralhüllkurve mit einem Anregungssignal, das von einer Aufzeichnung der Zielstimme abgeleitet wird, kombiniert wird. Dabei erfolgt auch eine Modifizierung der Spektralhüllkurve der Quellenstimme, damit sie der Spektralhüllkurve der Zielstimme genauer entspricht.

Ein Problem besteht darin, dass die Zielstimme bereits vorgegeben ist und eingesetzt wird, um in rückwärtiger Weise eine Quellenstimme zu gestalten bzw. zu erzeugen.

Eine akustische Synthese mit an verschiedene Übertragungsraten anpassungsfähigen Mehrfach-Schmalbandsprachkodierern und Mehrfach-Breitbandsprachkodierern (engl. adaptive multi-rate narrowband/wideband encoder – AMR-NB/WB) ist in der Druckschrift Strecha, G: Neue Ansätze zur Sprachsynthese mit kodierten Sprachsegmenten, Proc. 15, Konferenz Elektronische Sprachsignalverarbeitung, ESSV, K. Fellbaum, Ed., vol. 30, Cottbus, Sept. 2004, pp. 156–162, beschrieben, wobei ein Synthesesystem angegeben wird, das kodierte Sprachabschnitte synthetisiert. Alle Sprachabschnitte eines Diphon-Inventars sind mit einem im Mobilfunkbereich häufig eingesetzten standardisierten Sprachkodierer komprimiert. Es sollen bei der Sprachsynthese mit kodierten Inventaren vorgegebene Phonemdauern und die Grundfrequenzkontur auf die Sprachabschnitte aufgeprägt werden. Während der Synthese werden die geforderten Sprachabschnitte dekodiert. Dabei liegt der Synthese die Integration eine Prosodiemanipulation (Zielfrequenz f0, Dauersteuerung) in den Dekodierer zugrunde. Dabei spielen die Gemeinsamkeiten eines CELP-basierten Kodierers/Dekodierers mit den Sprachsynthesetechniken eine Rolle.

Im Nachverarbeitungsschritt der integrierten akustischen Synthese werden die Kodierparameter in einer Parameterdekodiereinheit in Anregungssignale und in Vorhersagekodier-Koeffizienten (engl. live prediction code – LPC) extrahiert, die einem der Parameterdekodiereinheit nachgeschalteten Sprachsynthesefilter zugeführt werden. Die kodierten Anregungssignale werden auf ihrem Weg dorthin mit der Zielfrequenz f0 eines ausgewählten Sprechers und mit einer zugehörigen Zielphonemdauer in einer Manipulationseinheit, die sich zwischen der Parameterdekodiereinheit und dem Sprachsynthesefilter befindet, manipuliert. Die LPC-Koeffizienten werden dabei nicht verändert. Das Ergebnis der Sprachsynthese sind Synthesesignale. Die Parameterdekodiereinheit, die Manipulationseinheit und der Synthesefilter sind dabei Funktionseinheiten einer Prozessoreinheit.

Ein Problem besteht darin, dass infolge des Unterschiedes der Bandbreite eines Sprachkodierers und der Frequenz des Synthesesignals die Manipulation an den Anregungssignalen zu größeren Signalstörungen führen. Die zahlreichen Filter des Nachverarbeitungsschrittes mit ihren Speicherzuständen korrespondieren weniger zu den vorhergehenden Verarbeitungsschritten des Sprachkodierers, je stärker die prosodischen Manipulationen sind.

Die Aufgabe der Erfindung besteht darin, ein Verfahren zur Stimmenkonvertierung bei der Sprachdekodierung und Sprachsynthese anzugeben, die derart geeignet ausgebildet sind, dass aus mindestens einer Quellenstimme zumindest eine Ausgabestimme mit veränderter Stimmencharakteristik – eine konvertierte Stimme – erreicht wird, wobei der Rechen- und Speicheraufwand zur Ereichung der Stimmenkonvertierung verringert werden soll. Des Weiteren sollen Signalstörungen während der Sprachsynthese weitgehend vermieden werden.

Die Aufgabe wird durch die Merkmale des Patentanspruchs 1 gelöst.

In dem Verfahren zur Stimmenkonvertierung bei der Sprachdekodierung und Sprachsynthese, bei dem zur Erzeugung einer Stimme Anregungssignale und LSF-Parameter gemeinsam einem Sprachsynthesefilter zugeführt werden, wobei die LSF-Parameter eine Anzahl von Winkeln der komplexen Nullstellen des charakteristischen Polynoms einer Vorhersagekodier-LPC-Analyse eines Sprachabschnittes darstellen und einen vorgegebenen Abstand zueinander aufweisen.

Gemäß dem Kennzeichenteil des Patentanspruchs 1 werden in einer prozessorgesteuerten Manipulationseinheit bei der Synthese zu einer konvertierten Stimme

  • – aus einem Satz dekodierter LSF-Parameter mittels einer Transforatationsbeziehung unter Einbeziehung der vorgegebenen Abstände ein veränderter Satz der LSF-Parameter berechnet,
  • – der manipulierte Satz von LSF-Parametern zu einem Satz von Vorhersage-LPC-Koeffizienten dekodiert und
  • – der erhaltene Satz von Vorhersage-LPC-Koeffizienten zur Stimmenkonvertierung mit manipulierten Anregungssignalen dem Sprachsynthesefilter zugeführt.

Die Transformation des aus dem kodierten Inventar übermittelten Satzes der LSF-Parameter in den veränderten Satz der LSF-Parameter kann vorzugsweie mit Hilfe der Warping-Funktion erfolgen, wobei eine von der Geraden abweichende Beziehung verwendet wird.

Die Stimmenkonvertierung erfolgt bei der Sprachsynthese aus einem kodierten Inventar, wobei die Dekodierung nach einem an sich bekannten CODEC-Verfahren erfolgt.

Bei der Synthese werden die mit einem Sprachkodierer, insbesondere einem anpassungsfähigen Mehrfach-Breitbandsprachkodierer (engl. Adaptive Multi-Rate Wideband – AMR) kodierten Inventare bereitliegenden LSF-Parameter herangezogen.

Die Stimmenkonvertierung erfolgt bei der Übertragung von Sprachinformation über einen Kanal, wobei im Sender der zu übertragende neue Satz LSF-Parameter ermittelt wird.

In der Vorrichtung zur Stimmenkonvertierung mittels Sprachdekodierung und Sprachsynthese, bestehend aus

  • – einem ersten Speicher mit unkodiertem Inventar mit mindestens einer Quellenstimme,
  • – einem Sprachkodierer,
  • – einem zweiten Speicher mit einem kodierten Inventar sowie
  • – einer Prozessoreinheit zur Erzeugung einer konvertierten Stimme,
wobei in dem ersten Speicher eine akustische Datenbank, die mindestens eine unkodierte Quellenstimme als Inventar enthält, vorhanden ist, dem der Sprachkodierer zur Kodierung des Inventars in Sprachabschnitte nachgeordnet ist, dem der zweite Inventarspeicher nachgeschaltet ist, der die durch den Sprachkodierer kodierten Sprachabschnitte in Form von Sätzen von Linearspektrumfrequenz-LSF-Parameter enthält, wobei die LSF-Parameter eine Anzahl von Winkeln der komplexen Nullstellen des charakteristischen Polynoms einer Vorhersagekodier-LPC-Analyse eines Sprachabschnittes darstellen und einen vorgegebenen Abstand zueinander aufweisen,

und der der Prozessoreinheit zugeordnet ist, die eine LSF-Parameterdekodiereinheit und das Sprachsynthesefilter enthält, die mittels mindestens zweier Signalübergänge miteinander in Verbindung stehen, wobei auf dem ersten Signalübergang sich ein Satz von LSF-Parametern l(t) befindet und auf dem zweiten Signalübergang zugehörige manipulierte Anregungssignale e(t) vorhanden sind, und wobei nach dem Sprachsynthesefilter ein Signalausgang vorhanden ist, wobei das angegebene erfindungsgemäße Verfahren realisiert wird,

ist gemäß dem Kennzeichenteil des Patentanspruchs 14 in dem Signalübergang eine Manipulationseinheit eingebracht, die eine Manipulation der die LSF-Parameterdekodiereinheit verlassenden LSF-Parameter l(t) vornimmt, wobei zur Manipulation der LSF-Parameter die Warping-Transformation eingesetzt wird, wobei die manipulierten LSF-Parameter nachfolgend konvertiert als LPC-Koeffizienten gemeinsam mit den manipulierten Anregungssignalen e(t) dem Sprachsynthesefilter zugeführt werden und wobei am Signalausgang des Sprachsynthesefilter zeitfunktionelle Ausgangssignale s(t) der konvertierten Stimme abgreifbar sind.

Vorzugsweise kann die Manipulation der LSF-Parameter getrennt von der Manipulation der Anregungssignale innerhalb der Prozessoreinheit durchgeführt werden.

Als Sprachkodierer kann ein anpassungsfähiger Mehrfach-Breitbandsprachkodierer eingesetzt sein.

Zur Stimmenkonvertierung werden Parameter des gebräuchlichen anpassungsfähigen Mehrfach-Breitbandsprachkodierers (AMR-WB) verwendet. Die Mehrfach-Breitbandsprachkodierer sind sehr verbreitet in typischen mobilen Anwendungen und deren Sprachqualität ist allgemein akzeptiert. Dabei erfolgt eine Manipulation der Linienspektrumfrequenz-Parameter (engl. line spectral frequencies – LSF), welche von dem Mehrfach-Breitbandsprachkodierer bereitgestellt werden.

Die spektrale Manipulation erfolgt in der Manipulationseinheit an den LSF-Parametern. Die LSF-Parameter sind die Winkel der komplexen Nullstellen der charakteristischen Polynome der Vorhersagekodier-LPC-Analyse eines Sprachabschnittes. Erfindungsgemäß werden die LSF-Parameter auf der Winkelachse verschoben. Das geschieht, ähnlich der eingangs beschriebenen Frequenzachsentransformation, durch Transformation der Winkelachse der LSF-Abstände.

Bei der Synthese der mit dem Mehrfach-Breitbandsprachkodierer kodierten Inventare liegen die LSF-Parameter in dem zweiten Speicher zur Dekodierung bereit. Zur Manipulation müssen also die LSF-Parameter nicht extra berechnet werden. Das trifft für jeden Sprachkodierer zu, der LSF-Parameter zur Komprimierung verwendet. Die Manipulation der LSF-Parameter ist drüber hinaus weniger rechenaufwändig als die Manipulation im Zeitbereich.

Weiterbildungen und zusätzliche Ausgestaltungen der Erfindung sind in weiteren Unteransprüchen angegeben.

Die Erfindung wird anhand eines Ausführungsbeispiels mittels mehrerer Zeichnungen näher erläutert.

Es zeigen:

1 eine Blockschema der erfindungsgemäßen Vorrichtung mit zugehörigen Funktionseinheiten,

2 eine Blockschema der erfindungsgemäßen Vorrichtung mit zugehörigen Funktionseinheiten mit getrennter Manipulationseinheit für die Anregungssignale,

3 eine Darstellung des Leistungsdichtespektrums der LSF-Parameter und der vorgegebenen Abstände,

4 eine Darstellung der bilinearen Warping-Funktionen für verschiedene Werte des Warping-Faktors &agr; und

5 eine Darstellung des Effektes verschiedener Werte des Warping-Faktors &agr; auf das log. Leistungsdichtespektrum H(n) = 1/A(n), wobei A(n) = FFT(N)((1, a1, ..., aM)) und f die Abtastrate ist.

Die 1 zeigt eine schematische Darstellung der Vorrichtung 1 zur Stimmenkonvertierung, in dem ein Verfahren zur Stimmenkonvertierung realisiert wird, welche auf der Modifikation der Linienspektrumfrequenz-Parameter (engl. line spectrum frequencies – LSF) zum Zwecke der Manipulation der spektralen Hülle basiert.

Die in 1 gezeigte Vorrichtung 1 zur Stimmenkonvertierung mittels Sprachdekodierung und Sprachsynthese, besteht aus

  • – einem ersten Speicher 2 mit unkodiertem Inventar mit mindestens einer Quellenstimme,
  • – einem anpassungsfähigen Mehrfach-Breitbandsprachkodierer 3,
  • – einem zweiten Speicher 4 mit einem kodierten Inventar sowie
  • – einer Prozessoreinheit 5 zur Erzeugung einer konvertierten Stimme,
wobei in dem ersten Speicher 2 eine akustische Datenbank, die mindestens eine unkodierte Quellenstimme als Inventar in Sprachabschnitten enthält, vorhanden ist, dem der anpassungfähige Mehrfach-Breitbandsprachkodierer 3 zur Kodierung des Inventars nachgeordnet ist, dem der zweite Inventarspeicher 4 nachgeschaltet ist, der die durch den Mehrfach-Breitbandsprachkodierer 3 kodierten Sprachabschnitte in Form von Sätzen von Linearspektrumfrequenz-LSF-Parameter enthält, wobei die LSF-Parameter eine Anzahl von Winkeln der komplexen Nullstellen des charakteristischen Polynoms einer Vorhersagekodier-LPC-Analyse eines Sprachabschnittes darstellen und einen vorgegebenen Abstand zueinander aufweisen,

und der der Prozessoreinheit 5 zugeordnet ist, die eine LSF-Parameterdekodiereinheit 6 und das Sprachsynthesefilter 7 enthält, die mittels mindestens zweier Signalübergänge 9, 10 miteinander in Verbindung stehen, wobei auf dem ersten Signalübergang 9 sich ein Satz von LSF-Parametern l(t) befindet und auf dem zweiten Signalübergang 10 zugehörige manipulierte Anregungssignale e(t) vorhanden sind, und wobei nach dem Sprachsynthesefilter 7 ein Signalausgang 11 vorhanden ist.

Erfindungsgemäß ist in dem Signalübergang 9 eine Manipulationseinheit 8 eingebracht, die eine Manipulation der die LSF-Parameterdekodiereinheit 6 verlassenden LSF-Parameter l(t) vornimmt, wobei zur Manipulation der LSF-Parameter die Warping-Transformation eingesetzt wird, wobei die manipulierten LSF-Parameter nachfolgend konvertiert als LPC-Koeffizienten gemeinsam mit den manipulierten Anregungssignalen e(t) dem Sprachsynthesefilter 7 zugeführt werden und wobei am Signalausgang 11 des Sprachsynthesefilter 7 zeitfunktionelle Ausgangssignale s(t) der konvertierten Stimme abgreifbar sind.

Vorzugsweise kann die Manipulation der Anregungssignale getrennt von der Manipulationseinheit 8 der LSF-Parameter in einer zweiten Manipulationseinheit 12 durchgeführt werden.

Die Parameterdekodiereinheit 6, die erste Manipulationseinheit 8, die zweite Manipulationseinheit 12 und das Sprachsynthesefilter 7 sind Funktionseinheiten der Prozessoreinheit 5, die von einem internen Manager (nicht eingezeichnet) gesteuert betrieben werden.

Die Vorrichtung 1 weist folgende Funktionsweise auf:

Bei der Stimmenkonvertierung bei der Sprachdekodierung und Sprachsynthese, bei der zur Erzeugung einer Stimme Anregungssignale und LSF-Parameter gemeinsam einem Sprachsynthesefilter zugeführt werden, wobei die LSF-Parameter eine Anzahl von Winkeln der komplexen Nullstellen des charakteristischen Polynoms einer Vorhersagekodier-LPC-Analyse eines Sprachabschnittes darstellen und einen vorgegebenen Abstand zueinander aufweisen,

werden in einer prozessorgesteuerten Manipulationseinheit 11 bei der Synthese zu einer konvertierten Stimme

  • – aus einem Satz dekodierter LSF-Parameter mittels einer Transformationsbeziehung unter Einbeziehung der vorgegebenen Abstände ein veränderter Satz der LSF-Parameter berechnet,
  • – der manipulierte Satz von LSF-Parametern zu einem Satz von Vorhersage-LPC-Koeffizienten konvertiert und
  • – der erhaltene Satz von Vorhersage-LPC-Koeffizienten zur Stimmenkonvertierung mit manipulierten Anregungssignalen dem Sprachsynthesefilter 7 zugeführt.

Dabei erfolgt die Transformation des Satzes von LSF-Parametern in den veränderten Satz der LSF-Parameter mit Hilfe der Warping-Funktion, wobei eine von der Geraden abweichende Beziehung verwendet wird.

Die Stimmenkonvertierung erfolgt bei der Sprachsynthese aus dem kodierten Inventar 4, wobei die Dekodierung nach einem an sich bekannten CODEC-Verfahren erfolgt.

Bei der Synthese werden die mit einem Mehrfach-Breitbandsprachkodierer 3 kodierten Inventare 4 bereitliegenden LSF-Parameter herangezogen.

Die Stimmenkonvertierung erfolgt bei der Übertragung von Sprachinformation über einen Kanal, wobei im Sender der zu übertragende neue Satz LSF-Parameter ermittelt wird.

Mit der Transformation der Frequenzachse des Amplitudenspektrums wird eine Verschiebung der Formantfrequenzen erreicht, welche charakteristische Merkmale einer Stimme darstellen.

Für das erfindungsgemäße Verfahren wird die bilineare Warping-Funktion verwendet:

Der Warping-Faktor &agr; kontrolliert das Niveau der Streckung der Frequenzachse. Werte kleiner als Null resultieren in eine Stauchung der spektralen Hülle bei niedrigeren Frequenzen, Werte größer als Null in einer Dehnung zu höheren Frequenzen, wie in 4 gezeigt ist. In dem eingesetzten TTS-System wird die Warping-Funktion zur Manipulation der LSF-Parameter verwendet, welche zur Laufzeit der Sprachsynthese vom AMR-WB-Dekodierer 6 bereitgestellt werden.

Zur Stimmenkonvertierung wird eine Manipulation von Kodiererparametern durchgeführt. Wie in der Druckschrift G. Strecha, "Neue Ansätze zur Sprachsynthese mit kodierten Sprachsegmenten," in Proc. 15. Konferenz Elektronische Sprachsignalverarbeitung, ESSV, K. Fellbaum, Ed., vol. 30, Cottbus, Sep. 2004, pp. 156–162 beschrieben ist, wird bei einem konkatenativen TTS-System der AMR-WB-Kodierer 3 zur Kompression des Inventars 2 verwendet, welches die Diphonsegmente enthält.

Der dafür eingesetzte AMR-WB-Kodierer 3 ist ein Sprachkodierer, welcher auf dem "Code Excited Linear Prediction" (CELP) Modell basiert, der in der Druckschrift B. Bessette, R. Salami, R. Lefebvre, M. Jelinek, J. Rotola-Pukkila, J. Vainio, R. Mikkola, and K. Jarvinen, "The adaptive multirate wideband speech codec (amr-wb)," IEEE Transactions on Speech and Audio Processing, vol. 10, pp. 620–636, 2002 beschrieben ist.

Ein Vorhersage-Synthesefilter (engl. linear prediction filter – LP-filter) der Ordnung M = 16 wird für die AMR-WB-Kodierung verwendet, gegeben durch: wobei âm, i = 1, ..., M die Vorhersage-LP-Koeffizienten sind. Diese LP-Filterkoeffizienten werden konvertiert in die Linearspektrumfrequenz-Parameter (engl. linear spectral frequencies – LSF). Für den LP-Filter M-ter Ordnung sind die LSF-Parameter definiert als die Nullstellen des Summen- Q) und Differenzpolynoms (P): Q(z) = A(z) + z–M A(z–1) P(z) = A(z) – z–M A(z–1)(III,IV)

Die Nullstellen dieses Polynoms liegen auf dem Einheitskreis und wechseln sich gegenseitig ab. Nach der Eliminierung der zwei Nullstellen bei z = 1 und z = –1 und unter Beachtung der konjugierten Nullstellen e±j&ohgr;i auf dem Einheitskreis, können die Polynome umgewandelt werden nach: wobei qi = cos(&ohgr;i) und &ohgr;i die LSF-Parameter sind. Wenn die Nullstellen der Polynome auf dem Einheitskreis sich alternierend abwechseln, genügen die LSF-Parameter der Eigenschaft 0 < &ohgr;0 < &ohgr;2 < ... < &ohgr;M–2 < &pgr;. Neben der kodierten Anregung werden die LSF-Parameter zum Dekodierer übertragen und die LP-Filterkoeffizienten aus den LSF-Parametern zurückgewonnen: und mit S(z) = H(z)E(z)(VIII) wobei E(z) das dekodierte Anregungssignal bezeichnet, wird das Sprachsignal S(z) rekonstruiert.

Die Manipulation der LSF-Parameter wird nachfolgend erläutert:

Die LSF-Parameter repräsentieren das Leistungsdichtespektrum. Falls die &ohgr;i gleichabständig im Bereich sind, dann sind die dazugehörigen LP-Koeffizienten Null, außer a0 = 1, und das Leistungsdichtespektrum ist flach. Deshalb bestimmen die Abstände der &ohgr;i untereinander die Form der spektralen Hülle.

Dicht positionierte &ohgr;i Parameter korrespondieren zu Spitzen im Spektrum (Formanten) und höhere Abstände zwischen &ohgr;i Parametern zu spektralen Tälern (Antiformanten). Niedrige Werte von &ohgr;i korrespondieren zu niedrigen und höhere &ohgr;i zu höheren Frequenzbereichen des Leistungsdichtespektrums. Die Werte der &ohgr;i steigen im Einklang mit i. Diese Voraussetzungen erlauben das Strecken bzw. Stauchen der spektralen Hülle, durch Manipulation der LSF-Parameter &ohgr;i.

Für die Manipulation der LSF-Parameter wird erfindungsgemäß die Warping-Funktion (I) verwendet, welche, wie in 3 gezeigt ist, auf die Differenz &Dgr;&ohgr;i der &ohgr;i zu den gleichabständigen, angewendet wird:

Aufgrund von i' ∊ R, wird eine quadratische Interpolation von &Dgr;&ohgr;i für 0 < i' < M – 2 durchgeführt, mit: wobei k1 = i' – ⌊i'⌋, k2 = 1/4k1(1 – k1) und ⌊i'⌋ der ganzzahlige Anteil i' ist. Die manipulierten LSF-Parameter &ohgr;i werden aus den transformierten Differenzen &Dgr;&ohgr;i durch Addierung mit den gleichabständigen LSF-Parameter gewonnen:

Die ϖ'i besitzen wiederum das Ordnungsmerkmal 0 < ϖ'0 < ϖ'1 < ... < ϖ'M < &pgr;.

Der Effekt von manipulierten LSF-Parameter mit unterschied lichen &agr; ist in 5 gezeigt.

Die Erfindung eröffnet die Möglichkeit, dass die Transformation der LSF-Koeffizienten in der Sprachsynthese eingesetzt werden kann, um verschiedene Stimmen aus einer Quellenstimme zu erzeugen. Falls der Algorithmus in den AMR-WB-Dekodierer 6 des Synthesesystems integriert wird, können die bereits vorhandenen LSF-Koeffizienten zur Manipulation genutzt werden. Der geringe Rechenaufwand qualifiziert das erfindungsgemäße Verfahren besonders für eingebettete Systeme.

1
Vorrichtung
2
Erster Inventarspeicher
3
Sprachkodierer
4
Zweiter Inventarspeicher
5
Prozessoreinheit
6
Parameterdekodiereinheit
7
Sprachsynthesefilter
8
Erste Manipulationseinheit
9
Erster Signalübergang
10
Zweiter Signalübergang
11
Ausgang
12
Zweite Manipulationseinheit


Anspruch[de]
Verfahren zur Stimmenkonvertierung mittels Sprachdekodierung und Sprachsynthese, bei dem zur Erzeugung einer Stimme Anregungssignale und LSF-Parameter gemeinsam einem Sprachsynthesefilter zugeführt werden, wobei die LSF-Parameter eine Anzahl von Winkeln der komplexen Nullstellen des charakteristischen Polynoms einer Vorhersagekodier-LPC-Analyse eines Sprachabschnittes darstellen und einen vorgegebenen Abstand zueinander aufweisen,

dadurch gekennzeichnet,

dass in einer prozessorgesteuerten Manipulationseinheit (8) bei der Synthese zu einer konvertierten Stimme

– aus einem Satz dekodierter LSF-Parameter mittels einer Transformationsbeziehung unter Einbeziehung der vorgegebenen Abstände ein veränderter Satz der LSF-Parameter berechnet wird,

– der manipulierte Satz von LSF-Parametern zu einem Satz von Vorhersage-LPC-Koeffizienten konvertiert wird und

– der erhaltene Satz von Vorhersage-LPC-Koeffizienten zur Stimmenkonvertierung mit manipulierten Anregungssignalen dem Sprachsynthesefilter (7) zugeführt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Transformation des berechneten Satzes der LSF-Parameter in einen manipulierten, veränderten Satz der LSF-Parameter mit Hilfe der Warping-Funktion erfolgt, wobei eine von der Geraden abweichende Beziehung verwendet wird. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Stimmenkonvertierung bei der Sprachsynthese aus einem kodierten Inventar (4) erfolgt, wobei die Dekodierung nach einem an sich bekannten CODEC-Verfahren erfolgt. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass bei der Synthese die mit einem anpassungsfähigen Mehrfach-Breitbandsprachkodierer (3) kodierten Inventare (4) bereitliegenden LSF-Parameter herangezogen werden. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Stimmenkonvertierung bei der Übertragung von Sprachinformation über einen Kanal erfolgt, wobei im Sender der zu übertragende neue Satz LSF-Parameter ermittelt wird. Verfahren nach Anspruch 1 bis 5, dadurch gekennzeichnet, dass mit der Transformation der Frequenzachse des Amplitudenspektrums eine Verschiebung der Formantfrequenzen erreicht wird, welche charakteristische Merkmale einer Stimme darstellen, wobei die Transformation mit der bilinearen Warping-Funktion: durchgeführt wird, wobei &agr; der Warping-Faktor ist, der das Niveau der Streckung der Frequenzachse kontrolliert, wobei Werte von &agr; kleiner als Null in einer Stauchung der spektralen Hülle bei niedrigeren Frequenzen und Werte von &agr; größer als Null in einer Streckung zu höheren Frequenzen resultieren. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die LSF-Parameter zur Laufzeit der Sprachsynthese vom AMR-WB-Dekodierer (6) bereitgestellt werden. Verfahren nach Anspruch 6 und 7, dadurch gekennzeichnet, dass zur Stimmenkonvertierung eine Manipulation von Kodiererparametern mittels des AMR-WB-Dekodierers (6) durchgeführt wird, wobei bei einem konkatenativen TTS-System der AMR-WB-Kodierer (3) zur Kompression des Inventars (2) eingesetzt wird, welches Diphonsegmente enthält. Verfahren nach Anspruch 1 bis 8, dadurch gekennzeichnet, dass ein Vorhersage-Synthesefilter der Ordnung M zur AMR-WB-Kodierung eingesetzt wird, das gegeben ist durch: wobei âm, i = 1, ..., M die Vorhersage-LP-Koeffizienten sind, die in die Linearspektrumfrequenz-LSF-Parameter konvertiert werden, wobei für den LP-Filter M-ter Ordnung die LSF-Parameter als die Nullstellen des Summen- Q) und Differenzpolynoms (P) Q(z) = A(z) + z–M A(z–1) P(z) = A(z) – z–M A(z–1)(III,IV) definiert sind. Verfahren nach einem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die Nullstellen des Polynoms (III,IV) auf einem Einheitskreis liegen und sich gegenseitig abwechseln, wobei nach der Eliminierung der zwei Nullstellen bei z = 1 und z = –1 und unter Beachtung der konjugierten Nullstellen e±j&ohgr;i auf dem Einheitskreis die Polynome umgewandelt werden nach den Gleichungen: wobei qi = cos(&ohgr;i) und &ohgr;i die LSF-Parameter sind, wobei im Falle, dass sich die Nullstellen der Polynome auf dem Einheitskreis alternierend abwechseln, die LSF-Parameter der Eigenschaft 0 < &ohgr;0 < &ohgr;2 < ... < &ohgr;M–2 < &pgr; genügen. Verfahren nach einem vorhergehenden Anspruch, dadurch gekennzeichnet, dass neben der kodierten Anregung die LP-Filterkoeffizienten aus den LSF-Parametern nach folgenden Gleichungen zurückberechnet werden: und mit S(z) = H(z)E(z)(VIII), wobei E(z) das manipulierte Anregungssignal ist, und das Sprachsignal S(z) rekonstruiert wird. Verfahren nach einem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die Manipulation der LSF-Parameter, die das Leistungsdichtespektrum darstellen unter folgenden Bedingungen durchgeführt wird:

falls die &ohgr;i gleichabständig im Bereich sind, dann sind die dazugehörigen LP-Koeffizienten Null, außer a0 = 1, und das Leistungsdichtespektrum ist flach, wobei damit die Abstände der &ohgr;i untereinander die Form der spektralen Hülle bestimmen,

wobei dicht positionierte &ohgr;i Parameter zu Spitzen (Formanten) im Spektrum und höhere Abstände zwischen &ohgr;i Parametern zu spektralen Tälern (Antiformanten) korrespondieren, wobei niedrige Werte von &ohgr;i korrespondieren zu niedrigen Frequenzbereichen und höhere &ohgr;i zu höheren Frequenzbereichen des Leistungsdichtespektrums korrespondieren, wobei die Werte der &ohgr;i im Einklang mit dem Index i steigen, womit ein Strecken oder Stauchen der spektralen Hülle durch Manipulation der LSF-Parameter &ohgr;i durchgeführt wird.
Verfahren nach mindestens einem vorhergehenden Anspruch,

dadurch gekennzeichnet,

dass für die Manipulation der LSF-Parameter die Warping-Funktion (I) eingesetzt wird, welche auf die Differenz &Dgr;&ohgr;i der &ohgr;i zu den gleichabständigen angewendet wird: wobei aufgrund von i' ∊ R, eine quadratische Interpolation von

&Dgr;&ohgr;i für 0 < i' < M – 2 durchgeführt wird mit: wobei k1 = i' – ⌊i'⌋, kz = 1/4k1(1 – k) und ⌊i'⌋ der ganzzahlige Anteil i' ist.
Verfahren nach einem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die manipulierten LSF-Parameter &ohgr;i aus den transformierten Differenzen &Dgr;&ohgr;i durch Addierung mit den gleichabständigen LSF-Parameter gewonnen werden: wobei die ϖ'i wiederum das Ordnungsmerkmal 0 < ϖ'0 < ϖ'1 < ... < ϖ'M < &pgr; besitzen. Vorrichtung zur Summenkonvertierung mittels Sprachdekodierung und Sprachsynthese, bestehend aus

– einem ersten Speicher (2) mit unkodiertem Inventar mit mindestens einer Quellenstimme,

– einem Sprachkodierer (3),

– einem zweiten Speicher (4) mit einem kodierten Inventar sowie

– einer Prozessoreinheit (5) zur Erzeugung einer konvertierten Stimme,

wobei in dem ersten Speicher (2) eine akustische Datenbank, die mindestens eine unkodierte Quellenstimme als Inventar in Sprachabschnitten enthält, vorhanden ist, dem der Sprachkodierer (3) zur Kodierung des Inventars nachgeordnet ist, dem der zweite Inventarspeicher (4) nachgeschaltet ist, der die durch den Sprachkodierer (3) kodierten Sprachabschnitte in Form von Sätzen von Linearspektrumfrequenz-LSF-Parameter enthält, wobei die LSF-Parameter eine Anzahl von Winkeln der komplexen Nullstellen des charakteristischen Polynoms einer Vorhersagekodier-LPC-Analyse eines Sprachabschnittes darstellen und einen vorgegebenen Abstand zueinander aufweisen, und der der Prozessoreinheit (5) zugeordnet ist, die eine LSF-Parameterdekodiereinheit (6) und das Sprachsynthesefilter (7) enthält, die mittels mindestens zweier Signalübergänge (9, 10) miteinander in Verbindung stehen, wobei auf dem ersten Signalübergang (9) sich ein Satz von LSF-Parametern l(t) befindet und auf dem zweiten Signalübergang (10) zugehörige manipulierte Anregungssignale e(t) vorhanden sind, und wobei nach dem Sprachsynthesefilter (7) ein Signalausgang (11) vorhanden ist, gemäß dem Verfahren nach den Ansprüchen 1 bis 14,

dadurch gekennzeichnet,

dass in dem Signalübergang (9) eine Manipulationseinheit (8) eingebracht ist, die eine Manipulation der die LSF-Parameterdekodiereinheit (6) verlassenden LSF-Parameter l(t) vornimmt, wobei zur Manipulation der LSF-Parameter die Warping-Transformation eingesetzt wird, wobei die manipulierten LSF-Parameter nachfolgend konvertiert als LPC-Koeffizienten gemeinsam mit den manipulierten Anregungssignalen e(t) dem Sprachsynthesefilter (7) zugeführt werden und wobei am Signalausgang (11) des Sprachsynthesefilter (7) zeitfunktionelle Ausgangssignale s(t) der konvertierten Stimme abgreifbar sind.
Verfahren nach Anspruch 15, dadurch gekennzeichnet, dass als Sprachkodierer (3) ein anpassungsfähiger Mehrfach-Breitbandsprachkodierer eingesetzt ist. Verfahren nach Anspruch 15, dadurch gekennzeichnet, dass als Parameterdekodiereinheit (6) ein Mehrfach-Breitbandsprachdekodierer eingesetzt ist. Verfahren nach Anspruch 15, dadurch gekennzeichnet, dass eine zweite Manipulationseinheit (12) für die Manipulation der Anregungssignale vorgesehen ist, die getrennt von der Manipulationseinheit (8) der LSF-Parameter in der Prozessoreinheit (5) enthalten ist.






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com