PatentDe  


Dokumentenidentifikation DE69521272T2 10.01.2002
EP-Veröffentlichungsnummer 0715297
Titel Wiederherstellung einer Folge von Sprachkode-Parametern mittels Klassifizierung und eines Verzeichnisses der Parameterverläufe
Anmelder AT & T Corp., New York, N.Y., US
Erfinder Haagen, Jesper, DK-2800 Lyngby, DK;
Kleijn, Willem Bastiaan, Basking Ridge, New Jersey 07920, US
Vertreter derzeit kein Vertreter bestellt
DE-Aktenzeichen 69521272
Vertragsstaaten DE, ES, FR, GB, IT
Sprache des Dokument EN
EP-Anmeldetag 21.11.1995
EP-Aktenzeichen 953083599
EP-Offenlegungsdatum 05.06.1996
EP date of grant 13.06.2001
Veröffentlichungstag im Patentblatt 10.01.2002
IPC-Hauptklasse G10L 19/00

Beschreibung[de]
Technisches Gebiet

Die vorliegende Erfindung betrifft allgemein Sprachcodierungssysteme und insbesondere die Parameterquantisierung in Sprachcodierungssystemen.

Allgemeiner Stand der Technik

Sprachcodierungssysteme wirken zur Bereitstellung von Codewortdarstellungen von Sprachsignalen zur Übermittlung zu einem oder mehreren Systemempfängern über einen Kanal oder ein Netz. Jeder Systemempfänger rekonstruiert Sprachsignale aus empfangenen Codewörtern. Die von einem System in einer gegebenen Zeitspanne übermittelte Menge von Codewortinformationen definiert die Systembandbreite und beeinflußt die Qualität der von Systemempfängern empfangenen Sprache. Die Aufgabe von Sprachcodierungssystemen ist die Bereitstellung des besten Kompromisses zwischen der Sprachqualität und der Bandbreite bei gegebenen Nebenbedingungen wie zum Beispiel Eingangssignalqualität, Kanalgualität, Bandbreitenbegrenzungen und Kosten. Das Sprachsignal wird durch eine Menge von Parametern dargestellt, die zur Übertragung quantisiert werden. Wahrscheinlich am wichtigsten beim Entwurf eines Sprachcodierers ist die Suche nach einer guten Menge von Parametern (darunter Vektoren) zur Beschreibung des Sprachsignals. Eine gute Menge von Parametern erfordert eine geringe Systembandbreite zur Rekonstruktion eines wahrnehmungsbezogen genauen Sprachsignals. Außerdem besteht ein wünschenswertes Merkmal einer Parametermenge darin, daß die Parameter unabhängig sind. Wenn die Parameter unabhängig sind, können die Quantisierer unabhängig ausgelegt werden, und falsch empfangene Informationen wirken sich weniger auf die Qualität des rekonstruierten Sprachsignals aus. Die für jeden Parameter erforderliche Bandbreite ist eine Funktion seiner Änderungsrate und der Genauigkeit, mit der die Trajektorie des Parameterwerts bzw. der Parameterwerte beschrieben werden muß, um rekonstruierte Sprache der erforderlichen Qualität zu erhalten.

Die Sprachsignalleistung ist als ein Parameter einer Menge von Codierungsparametern wünschenswert. Andere Parameter können leicht von der Signalleistung unabhängig gemacht werden. Außerdem stellt die Signalleistung ein physisches Merkmal des Sprachsignals dar, das die Definition von Entwurfskriterien für einen Quantisierer erleichtert. Die Signalleistung kann definiert werden als die Signalenergie pro probe, die für quasiperiodische Sprachsegmente über eine Tonhöhenperiode und für nichtperiodische Segmente über ein vorbestimmtes Intervall gemittelt wird. Das Intervall für nichtperiodische Segmente sollte kurz genug sein, um wahrnehmungsbezogen relevant zu sein (vorteilhafterweise 5 ms oder weniger). Bei Verwendung dieser Definition ist die Sprachsignalleistung während langer Vokale eine glatte Funktion und zeigt Anfänge und Plosive deutlich an.

Eine Abschätzung der Signalleistung mit hoher Auflösung kann mit einer festen und/oder großen Fenstergröße nicht erzielt werden. Eine große Fenstergröße für die Abschätzung führt zu einer geringen Zeitauflösung der abgeschätzten Signalleistung. Als Folge weist Sprache, die mit Codierern mit niedriger Rate unter Verwendung dieses Ansatzes rekonstruiert wurde, im allgemeinen einen Mangel an Klarheit auf. Andererseits führt ein kurzes festes Fenster zu Schwankungen der Signalleistung. Codierer, die kurze feste Fenster verwenden, wie zum Beispiel Codierer mit codeerregter linearer Prädiktion (CELP) verwenden somit im allgemeinen nicht die Signalleistung als einen expliziten Parameter. (Siehe z. B. B. S. Atal, "High- Quality Speech at Low Bit Rates: Multi-Pulse and Stochastically Excited Linear Predictive Coders," Proc. Int. Conf. Acoust. Speech Sign. Process., Tokio, S. 1681-1684, 1986.)

Augesichts des Bedarfs an vergrößerter Codierungswirksamkeit wird erwartet, daß immer mehr Codierer die Signalleistung als einen expliziten Parameter verwenden werden, der getrennt zu codieren ist. In jüngster Zeit wurden Codierungsverfahren eingeführt, die das Sprachsignal in Form von charakteristischen Kurvenformen beschreiben, die mit einer hohen Rate (etwa 500 Hz) abgetastet werden. (Siehe z. B. W. B. Kleijn und J. Haagen, "Transformation and Decomposition of the Speech Signal for Coding", IEEE Signal Processing Letters, Band 1, September 1994, S. 136-138.) Bei diesen sogenannten Codierern mit "Kurvenforminterpolation" beträgt das Signalleistungsabschätzungsfenster eine Tonhöhenperiode (für stimmhafte Sprache). Diese neuen Kurvenforminterpolationscodierer verwenden eine Analyse, die eine sehr genaue Signalleistungsabschätzung mit hoher zeitlicher Auflösung wiedergibt. Die Signalleistung wird getrennt codiert.

Bei herkömmlichen Codierungsverfahren, die die Signalleistung als einen expliziten Parameter verwenden, wird die Signalleistung mit einer relativ niedrigen Rate übertragen. Die lineare Interpolation über die langen Aktualisierungsintervalle wird dann verwendet, um die Signalleistungskontur zu rekonstruieren (diese Interpolation wird häufig auf den Logarithmus der Leistung angewandt). (Siehe z. B. T. E. Tremain, "The Government Standard Linear Predictive Coding Algorithm", Speech Technology, S. 40-49, April 1982.) Eine ausführlichere Beschreibung der Leistungskontur würde die Qualität des rekonstruierten Signals verbessern. Die Herausforderung besteht jedoch darin, nur die wahrnehmungsbezogen relevanten Einzelheiten der Signalleistungskontur zu übertragen, so daß weiter eine niedrige Bitrate verwendet werden kann.

Kurze Darstellung der Erfindung

Die vorliegende Erfindung, die in den Ansprüchen definiert wird, liefert ein Verfahren und eine Vorrichtung, die die Übertragung der wahrnehmungsbezogen wichtigen Merkmale eines Sprachcodierungsparameters mit niedriger Bitrate ermöglichen. Der Sprachcodierungsparameter kann zum Beispiel die Signalleistung der Sprache umfassen. Der Parameter wird blockweise verarbeitet. Der Parameterwert an den Blockgrenzen wird durch herkömmliche Verfahren wie zum Beispiel durch Differenzquantisierung übertragen. Gemäß der vorliegenden Erfindung basiert dann die Form der rekonstruierten Parameterkontur in den Blockgrenzen auf einer Klassifizierung. Die Klassifizierung hängt von wahrnehmungsbezogen wichtigen Merkmalen der Parameterkontur in einem Block ab. Die Klassifizierung kann entweder auf der Sendeseite des Codierers (zum Beispiel unter Verwendung der ursprünglichen Parameterkontur mit hoher Zeitauflösung und möglicherweise auch anderer Sprachparameter) oder auf der Empfangsseite des Codierers (zum Beispiel unter Verwendung der übertragenen Parameterwerte und möglicherweise auch anderer übertragener Sprachparameter) erfolgen. Auf der Grundlage des Ergebnisses der Klassifizierung und der Parameterwerte an den Blockgrenzen wird eine Parameterkontur (in dem Block) aus einem Bestand möglicher Parameterkonturen ausgewählt. Der Bestand kann sich an die übertragenen Parameterwerte an den Blockgrenzen anpassen.

Kurze Beschreibung der Zeichnungen

Fig. 1 zeigt eine Übersicht des Sendeteils eines beispielhaften Codierungssystems mit der Signalleistung als ein expliziter Parameter und einer Codierung gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung.

Fig. 2 zeigt eine Übersicht des Empfangsteils eines beispielhaften Codierungssystems mit der Signalleistung als einem expliziten Parameter und einer Codierung gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.

Fig. 3 zeigt einen beispielhaften Plosiv-Detektor zur Verwendung in dem beispielhaften Sender von Fig. 1.

Fig. 4 zeigt einen beispielhaften Leistungshüllkurvenprozessor zur Verwendung in dem beispielhaften Empfänger von Fig. 2.

Fig. 5 zeigt den "Hutaufhängungs"-Mechanismus des beispielhaften Plosiv-Detektors von Fig. 3, der wirkt, wenn kein Plosiv vorhanden ist.

Fig. 6 zeigt den "Hutaufhängungs"-Mechanismus des beispielhaften Plosiv-Detektors von Fig. 3, der wirkt, wenn ein Plosiv vorhanden ist.

Fig. 7 zeigt eine logarithmische Signalleistungskontur, die durch lineare Interpolation erhalten wird, gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.

Fig. 8 zeigt eine logarithmische Signalleistungskontur, die durch lineare Interpolation erhalten wird, und ein zusätzliches Plosiv gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.

Fig. 9 zeigt eine logarithmische Signalleistungskontur, die durch stufige Interpolation gemäß einem Ausführungsbeispiel der vorliegenden Erfindung erhalten wird.

Fig. 10 zeigt eine logarithmische Signalleistungskontur, die durch stufige Interpolation erhalten wird, und ein zusätzliches Plosiv gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.

Ausführliche Beschreibung Einführung

Die Aufgabe der Sprachcodierung ist die Erzielung eines gewünschten Kompromisses zwischen der Qualität der rekonstruierten Sprache und der erforderlichen Bandbreite unter Berücksichtigung der Einschränkungen bezüglich der Kanalqualität, Hardware und Verzögerung. Im allgemeinen wird für das Sprachsignal ein Modell verwendet, und die Trajektorie der Modellparameter (bei denen es sich um Vektoren handeln kann) als Funktion der Zeit wird mit einer bestimmten Genauigkeit übertragen. (Im einfachsten Modell ist der Modellparameter das Sprachsignal selbst.) Bei einem digitalen Sprachcodierer wird die Trajektorie der Modellparameter als eine Folge von skalaren oder Vektor-Abtastwerten beschrieben. Die Parameter können mit einer niedrigen Rate übertragen werden, und die Trajektorie wird durch Interpolation zwischen den Aktualisierungspunkten rekonstruiert. Als Alternative wird ein Prädiktor (z. B. ein linearer Prädiktor) verwendet, um einen Parameter aus vorherigen rekonstruierten Proben vorherzusagen, und nur die Differenz (der Rest) zwischen dem tatsächlichen und dem vorhergesagten Wert wird übertragen. Bei einer anderen Prozedur kann eine zeitlich hoch auflösende Beschreibung der ParameterTrajektorie in sequentielle Blöcke aufgeteilt werden, die dann zur Übertragung vektorquantisiert werden. Bei bestimmten Codierern werden die Vektorquantisierung und -prädiktion kombiniert.

Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung wird die Trajektorie eines Parameters (bei dem es sich um einen Vektor handeln kann) mit einem Verfahren übertragen, das die oben beschriebenen Prozeduren der Interpolation, Prädiktion und Vektorquantisierung ergänzt. Der Parameter wird blockweise übertragen, wobei jeder Block auf der Analyseseite zwei oder mehr Parameterabtastwerte enthält. Das Parametersignal wird tiefpaßgefiltert und unterabgetastet. Diese unterabgetastete Parameterfolge wird mit herkömmlichen Mittel übertragen. (Bei dem im nächsten Abschnitt beschriebenen Ausführungsbeispiel verwendet diese herkömmliche Übertragung zum Beispiel einen Differenzquantisierer.) Im Empfänger muß die Parameterfolge auf die zur Rekonstruktion durch das Sprachmodell erforderliche Rate überabgetastet werden. Offensichtlich gehen Signalmerkmale verloren, wenn für die Überabtastung eine bandbegrenzte oder lineare Interpolation verwendet wird. Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung wird eine Klassifizierung verwendet, um wahrnehmungsbezogen wichtige Merkmale der ParameterTrajektorien zu identifizieren, die ansonsten in einer rekonstruierten Parameterfolge, die nur auf Interpolation basiert, nicht vorliegen. Abhängig von dem Ergebnis dieser Klassifizierung wird eine Trajektorie aus einem Bestand von Trajektorien gewählt, um die ParameterTrajektorie zwischen den Abtastwerten an den Blockgrenzen zu konstruieren. Außerdem paßt sich der Bestand an die Parameterwerte an den Blockgrenzen an. Das hier beschriebene beispielhafte Verfahren erfordert nicht immer die Übertragung zusätzlicher Informationen - die Klassifizierung erfolgt auf der Empfangsseite des Codierers ausschließlich unter Verwendung der übertragenen unterabgetasteten Parameterfolge.

Ein Ausführungsbeispiel

Bei dem hier vorgestellten Ausführungsbeispiel wird die oben beschriebene Prozedur insbesondere auf die Sprachleistung angewandt. Es hat sich herausgestellt, daß eine stufige Sprach-/Leistungs-Kontur wesentlich anders als eine glatte Sprach-/Leistungs- Kontur klingt. Die stufige Kontur ist bei Stimmanfängen häufig anzutreffen, während eine glatte Kontur für lange Sprachklänge typisch ist. Ein einfaches Klassifizierungsverfahren, das die übertragene unterabgetastete Sprach-/Leistungs-Folge verwendet, kann stufige Sprach-/Leistungs-Konturen sehr zuverlässig identifizieren. Für die rekonstruierte Signalleistungsfolge wird dann eine stufige Kontur verwendet. Experimente haben gezeigt, daß die genaue Position der Stufe in dem Sprach-/Leistungs-Signal nur wenig bedeutsam für die wahrgenommene Sprachqualität ist.

Die auf der Sendeseite des Codierers durchgeführte Klassifizierung kann verwendet werden, um Merkmale der Energiekontur zwischen Abtastwezten, wie zum Beispiel Plosive, zu identifizieren. Wiederum hat die genaue Position des rekonstruierten Plosivs nur wenig wahrnehmungsbezogene Bedeutung. Somit wird zu der Mitte des Blocks ein einfacher Hügel in dem Sprach-/Leistungs-Signal hinzugefügt, wenn auf der Sendeseite ein Plosiv identifiziert wird.

Fig. 1 zeigt den Sendeteil eines Ausführungsbeispiels der vorliegenden Erfindung, der die Signal/Leistungs-Entnahme in einem Kurvenforminterpolationscodierer durchführt. Das ursprüngliche Sprachsignal wird zunächst in der Codierungseinheit 101 verarbeitet. In dem Kurvenforminterpolationscodierer entnimmt die Codierungseinheit die charakteristischen Kurvenformen. Diese charakteristischen Kurvenformen entsprechen während stimmhafter Sprache einem Tonhöhenzyklus. Gemäß bekannten Verfahren wird das Sprachsignal dargestellt durch eine Folge charakteristischer Kurvenformen (die im Restbereich der linearen Prädiktion definiert sind), eine Tonhöhenperiodenverfolgung und zeitveränderliche Koeffizienten der linearen Prädiktion. Solche Techniken werden zum Beispiel in der eigenen, gleichzeitig anhängigen US-Patentanmeldung "Method and Apparatus For Prototype Waveform Speech Coding" von W,B. Kleijn, lfd. Nr. 08/179,831 beschrieben. (Siehe außerdem W. B. Kleijn, "Encoding Speech Using Prototype Waveforms", IEEE Trans. Speech and Audio Processing, Band 1, Nr. 4, S. 386-399, 1993 und W. B. Kleijn und J. Haagen, "Transformation and Decomposition of the Speech Signal for Coding", IEEE Signal Processing Letters, Band 1, September 1994, S. 136-138.)

Die Beschreibung der charakteristischen Kurvenform erfolgt gewöhnlich in Form einer endlichen Fourier-Reihe. Die charakteristische Kurvenform wird im Restbereich beschrieben, da dies ihre Entnahme und Quantisierung erleichtert. Vorteilhafterweise wird die Abtast-(Entnahme-)Rate der charakteristischen Kurvenform auf ungefähr 500 Hz eingestellt. In dieser Figur und in den folgenden Figuren wird angenommen, daß die Koeffizienten der Tonhöhenverfolgung und der linearen Prädiktion allen Verarbeitungseinheiten, die diese Parameter benötigen, verfügbar sind. Die Koeffizienten für die Tonhöhenverfolgung und die lineare Prädiktion werden gemäß herkömmlichen Verfahren definiert und interpoliert.

Die unguantisierten charakteristischen Kurvenformen (die in Fig. 1 als das unquantisierte Zwischensignal bezeichnet werden) werden der Leistungsentnahmevorrichtung 102 zugeführt. In der Leistungsentnahmevorrichtung 102 wird die charakteristische Kurvenform im Restbereich zunächst mittels einer Kreisfaltung mit dem Linearprädiktions-Synthesefilter in eine charakteristische Kurvenform im Sprachbereich umgesetzt. (Diese Faltung kann direkt an der Fourier-Reihe vorgenommen werden, zum Beispiel mittels Gleichung (19) in W. B. Kleijn, "Encoding Speech Using Prototype.. Waveforms", IEEE Trans. Speech and Audio Processing, Band 1, Nr. 4, S. 386-399, 1993.) Die Signalleistung im Sprachbereich wird verwendet, da sie verhindert, daß sich Übertragungsfehler bei den Koeffizienten der linearen Prädiktion (die sich auf die Filterverstärkung der linearen Prädiktion auswirken) auf die Sprachsignalleistung auswirken.

Die Leistungsentnahmevorrichtung 102 berechnet dann die Leistung der charakteristischen Kurvenform für jede Sprachprobe. Die Leistung wird probenweise so normiert, daß die Signalleistung nicht von der Tonhöhenperiode abhängt, wodurch ihre Quantisierung erleichtert wird und sie unempfindlich gegenüber die Tonhöhenperiode beeinflussenden Kanalfehlern wird. Als letztes setzt die Leistungsentnahmevorrichtung 102 die resultierende Leistung im Sprachbereich in den Logarithmus der Leistung im Sprachbereich um. Zum Beispiel kann für diesen Zweck die wohlbekannte Dezibel-("db"-)Logarithmusskala verwendet werden. (Die Verwendung des Logarithmus der Signalleistung an Stelle der linearen Signalleistung wird durch die Eigenschaften der menschlichen Wahrnehmung motiviert. Das Gehör kann Signalleistungen verarbeiten, die sich über viele Größenordnungen hinweg ändern.) Dieses Signal, das mit derselben Rate wie die charakteristischen Kurvenformen abgetastet wird, wird dem Plosiv- Detektor 105, dem Tiefpaßfilter 106 und dem Normierer 103 zugeführt. Der Normierer 103 verwendet die entnommene Sprachleistung, um eine normierte charakteristische Kurvenform zu erzeugen. Diese normierte charakteristische Kurvenform wird in der Codierungseinheit 104 weitercodiert, die außerdem die Signalleistung als Nebeninformationen verwenden kann.

Um Alias-Effekte zu verhindern, entfernt das Tiefpaßfilter 106 Frequenzen von mehr als der Hälfte der Abtastfrequenz des Ausgangssignals der unterabtastvorrichtung 107. Bei einem 2,4-kb/s-Codierer wird die Abtastfrequenz nach dem Unterabtasten vorteilhafterweise auf 100 Hz gesetzt (was bei dem gegebenen Ausführungsbeispiel einer Unterabtastung um einen Faktor 5 entspricht).

Der Leistungscodierer 108 codiert die unterabgetastete logarithmische Leistungsfolge. Vorteilhafterweise erfolgt dies mit einem Differenzquantisierer. x(n) sei die logarithmische Leistung zum Abtastzeitpunkt n. Danach wird ein einfacher skalarer Quantisierer verwendet, um das Differenzsignal e(n) zu quantisieren:

e(n) = x(n) - a* x(n-1) (1)

Q(e(n)) sei der quantisierte Wert von e(n). Die rekonstruierte logarithmische Leistung ist dann:

1(n) = Q(e(n)) + α* x(n-1) (2)

Für α kleiner 1 stellt Gleichung (2) den wohlbekannten "leckenden Integrierer" dar. Die Funktion des leckenden Integrierers besteht darin, die Empfindlichkeit gegenüber Kanalfehlern zu vermindern. Vorteilhafterweise kann der Wert von a = 0,8 verwendet werden. Der Plosiv-Detektor 105 verwendet die unverarbeitete logarithmische Leistungsfolge und die tiefpaßgefilterte logarithmische Leistungsfolge. Für jedes Intervall zwischen den Proben der unterabgetasteten logarithmischen Leistungsfolge (z. B. 10 ms auf der Grundlage einer unterabgetasteten Abtastrate von 100 Hz) ist die Ausgabe des Plosiv-Detektors eine Binärentscheidung: Null bedeutet, daß kein Plosiv erkannt wurde, während Eins bedeutet, daß ein Plosiv erkannt wurde.

Die Funktionsweise des Plosivdetektors 105 ist in Fig. 3 gezeigt. Der Spitzenabstandsdetektor 304 bestimmt, ob der Logarithmus des Leistungsabtastwerts minus dem äquivalenten Abtastwert der tiefpaßgefilterten logarithmischen Leistungsfolge größer als eine gegebene Schwelle ist. (Diese Schwelle kann zum Beispiel vorteilhafterweise auf 16 db für den Logarithmus der Signalleistung gestellt werden.) Wenn dies der Fall ist, ist die Ausgabe des Spitzenabstandsdetektors 304 l, andernfalls ist seine Ausgabe 0.

Die Funktionsweise des Hutaufhängers 301 ist in Fig. 5 und 6 dargestellt. Als Konzept wird eine hutförmige Kurve am aktuellen Leistungssignalabtastwert "aufgehängt". Das heißt, die Spitze des "Huts" wird auf einen Pegel gesetzt, der gleich dem aktuellen Abtastwert ist. Die Ausgabe des Hutabstandsdetektors 303 ist 1, wenn die Abtastwerte, die von der Hutform abgedeckt werden, unter die Spitze und die Krempe des Huts passen. Zum Beispiel zeigt Fig. 5 eine Situation, in der der Hut die benachbarten Abtastwerte nicht freigibt - somit ist die Ausgabe des Hutabstandsdetektors 303 Null. Andererseits zeigt Fig. 6 eine Situation, in der der Hut die benachbarten Abtastwerte freigibt - somit ist die Ausgabe des Hutabstandsdetektors 303 Eins. Die Eigenschaften des Huts werden in der Hutablage 302 gespeichert. Die Hutform kann innerhalb des Erkennungsintervalls verändert werden, und die Höhe der Krempe kann links und rechts verschieden sein. Zum Beispiel kann eine Hutspitzenbreite und eine Krempenbreite jeweils vorteilhafterweise auf 5 ms eingestellt werden, wobei der Hut symmetrisch ist, und der Abstand von der Krempe zur Spitze kann vorteilhafterweise für eine den Logarithmus der Signalleistung beschreibende Kontur auf 12 db gesetzt werden. Für Fachleute ist erkennbar, daß der Hutabstandsdetektor 303 zum Beispiel mit einem Abtastwertspeicher und -prozessor zum Prüfen von Abtastwertpegeln und Vergleichen dieser Pegel mit gegebenen vorbestimmten Schwellenwerten implementiert werden kann.

Ein logischer "and"-Operator 305 kombiniert die Ausgaben aus dem Spitzenabstandsdetektor 304 und dem Hutabstandsdetektor 303. Wenn irgendeine dieser beiden Ausgaben Null ist, wird die Ausgabe des logischen and- Operators 305 Null. Die Vorrichtung 306 für logisches or und Unterabtastung besitzt eine Ausgabe für jedes Intervall der unterabgetasteten logarithmischen Leistungsfolge (d. h. die Ausgabe der Unterabtastvorrichtung 107). Dies wäre zum Beispiel eine Ausgabe pro 10 ms für das oben beschriebene Beispiel. Wenn die Eingabe für die Vorrichtung 306 für logisches or und Unterabtastung zu einem beliebigen Zeitpunkt in diesem Intervall nicht Null ist, dann wird die Ausgabe der Vorrichtung 306 für logisches or und Unterabtastung auf Eins gesetzt, wodurch angezeigt wird, daß ein Plosiv erkannt wurde. Wenn die Eingabe zu allen Zeiten in dem Intervall Null ist, dann wird die Ausgabe der Vorrichtung 306 für logisches or und Unterabtastung auf Null gesetzt, wodurch angezeigt wird, daß kein Plosiv erkannt wurde.

Fig. 2 zeigt den Empfangsteil des Ausführungsbeispiels der vorliegenden Erfindung entsprechend dem in Fig. 1 gezeigten Sendeteil. Die Decodierereinheit 201 rekonstruiert die charakteristischen Kurvenformen. Ein Teil der in der Decodierereinheit 201 durchgeführten Operationen entspricht nicht Operationen, die im Sender durchgeführt werden. Zum Beispiel kann, um die spektrale Form des Ausgangssignals zu betonen, eine spektrale Vorformung zu den charakteristischen Kurvenformen hinzugefügt werden. Dies bedeutet, daß im allgemeinen nicht garantiert werden kann, daß die charakteristischen Kurvenformen, die die Ausgabe der Decodierereinheit 201 bilden, eine normierte Leistung aufweisen. Vor dem Skalieren der quantisierten charakteristischen Kurvenformen muß somit ihre Leistung bestimmt werden. Dies erfolgt durch die Leistungsentnahmevorrichtung 202, die analog wie die Leistungsentnahmevorrichtung 102 arbeitet. Wiederum wird die Leistung im Sprachbereich bestimmt.

Der Skalierungsfaktorprozessor 206 bestimmt den entsprechenden Skalierungsfaktor, der auf die durch die Decodierereinheit 201 erzeugten charakteristischen Kurvenformen angewandt werden soll. Für jede charakteristische Kurvenform sind die Eingaben für den Skalierungsfaktorprozessor 206 ein logarithmischer Leistungswert, der aus gesendeten Informationen und der Leistung der quantisierten charakteristischen Kurvenform vor dem Skalieren rekonstruiert wird. Der logarithmische Leistungswert wird in einen linearen Leistungswert umgesetzt und durch die Leistung der unskalierten quantisierten charakteristischen Kurvenform dividiert. Durch diese Division wird der entsprechende Skalierungsfaktor für die unskalierte quantisierte charakteristische Kurvenform wiedergegeben. Der resultierende Skalierungsfaktor wird in einem Multiplizierer 207 verwendet, dessen Ausgabe die ordnungsgemäß skalierte, quantisierte charakteristische Kurvenform ist. Diese charakteristische Kurvenform ist die Eingabe für die Decodierereinheit 203, die die Folge der Beschreibung der charakteristischen Kurvenform (mit Hilfe der Koeffizienten der Tonhöhenverfolgung und der linearen Prädiktion) in das rekonstruierte Sprachsignal umsetzt. Die wohlbekannten Verfahren, die in der Decodierereinheit 203 verwendet werden, werden zum Beispiel in der US-Patentanmeldung lfd. Nr. 08/179,831 beschrieben.

Es wird nun die Rekonstruktion der logarithmischen Leistungsfolge erläutert. Der Leistungsdecodierer 204 rekonstruiert eine unterabgetastete quantisierte logarithmische Leistungsfolge auf der Grundlage der obigen Gleichung (2). Der Leistungshüllkurvenprozessor 205 setzt diese unterabgetastete Folge in eine überabgetastete logarithmische Leistungsfolge um. Die Funktionsweise des Leistungshüllkurvenprozessors 205 ist ausführlich in Fig. 4 dargestellt. Als erstes wird der Fall betrachtet, daß die Plosivinformationen Null sind (wodurch angezeigt wird, daß kein Plosiv vorliegt). Die Leistungsschrittauswertevorrichtung 401 subtrahiert den vorherigen logarithmischen Leistungswert der unterabgetasteten Folge von dem derzeitigen logarithmischen Leistungswert der unterabgetasteten Folge, um die Differenz zu bestimmen. Die Überabtastvorrichtung 402 führt eine Überabtastung der logarithmischen Leistungsfolge gemäß einer Überabtastungsprozedur durch. Genauer gesagt wird die Überabtastungsprozedur, die durch die Überabtastvorrichtung 402 durchgeführt wird, auf der Grundlage des Vergleichs der Differenz zwischen den aufeinanderfolgenden Abtastwerten (die durch die Leistungsschrittauswertevorrichtung 401 bestimmt werden) mit einer Schwelle ausgewählt. Zum Beispiel kann die Schwelle vorteilhafterweise zu 12 db für den Logarithmus der Sprachleistung und eine Abtastrate von 100 Hz gewählt werden. Eine lineare Interpolation zwischen den Aktualisierungspunkten wird von der Überabtastvorrichtung 402 durchgeführt, wenn die Differenz zwischen den aufeinanderfolgenden Abtastwerten kleiner als die Schwelle ist. Dies ist für die meisten Intervalle der Fall und ist in Fig. 7 dargestellt. Fig. 7 zeigt in fetten Linien zwei Abtastwerte für die unterabgetastete logarithmische Leistungsfolge. Die Abtastwerte zwischen diesen beiden Abtastwerten werden durch lineare Interpolation erhalten.

Größere Zunahmen der Signalleistung, wobei die Differenz zwischen den aufeinanderfolgenden Abtastwerten die Schwelle übersteigt, treten hauptsächlich bei scharfen Stimmanfängen auf. Eine lineare Interpolation der logarithmischen Leistung ist kein gutes Modell für solche Anfänge. In diesem Fall verwendet die Überabtastvorrichtung 402 deshalb eine stufige Kontur. Immer wenn die Differenz zwischen aufeinanderfolgenden Abtastwerten die Schwelle übersteigt, wird genauer gesagt der linke logarithmische Leistungswert (d. h. der vorherige Abtastwert) bis zum Mittelpunkt des Intervalls verwendet, und der rechte logarithmische Leistungswert (d. h. der derzeitige Abtastwert) wird für den übrigen Teil des Intervalls verwendet. Dieser Fall ist in Fig. 9 dargestellt. Man beachte, daß sich im allgemeinen der Schritt nicht am selben Zeitpunkt wie der Anfang in dem ursprünglichen Signal befindet. Für die Zwecke der menschlichen Wahrnehmung ist die genaue Position des Schritts in der Leistungskontur jedoch weniger wichtig als die Tatsache, daß das Intervall statt einer glatten Kontur eine Stufe enthält.

Der wahrnehmungsbezogene Effekt der Verwendung stufiger Leistungskonturen besteht darin, daß das rekonstruierte Sprachsignal wahrnehmbar klarer wird. Eine willkürliche Verwendung stufiger Leistungskonturen führt jedoch zu einer wesentlichen Verschlechterung der Ausgangssignalqualität. Eine Begrenzung der Verwendung der stufigen Kontur auf Fälle, in denen sich die Signalleistung schnell ändert, führt zu einer verbesserten Sprachqualität im Vergleich zu der ständigen Verwendung einer linear interpolierten Kontur. Außerdem wirkt sich die Verwendung der schrittweisen Kontur in Fällen, in denen sich die Signalleistung schnell, aber glatt ändert, nicht wesentlich auf die rekonstruierte Sprache aus.

Als nächstes wird der Fall betrachtet, daß die Plosivinformationen Eins sind (wodurch das Vorliegen eines Plosivs angezeigt wird). Dabei wird wiederum auf Fig. 4 Bezug genommen. Wenn ein Plosiv vorliegt, addiert ein Plosiv-Addierer 403 einen festen Wert zu einem oder mehreren spezifischen Abtastwerten der überabgetasteten logarithmischen Leistungsfolge in dem Intervall, in dem bekannt ist, daß das Plosiv vorliegt.

Zum Beispiel kann vorteilhafterweise für den Logarithmus der Signalleistung der Festwert 1, 2 verwendet werden, und dieser Wert kann vorteilhafterweise für eine Dauer von 5 ms zu dem logarithmischen Leistungssignal addiert werden. Fig. 8 zeigt das Hinzufügen eines Plosivs für den Fall einer ansonsten linear interpolierten Kontur. Fig. 9 zeigt das Hinzufügen eines Plosivs für den Fall einer schrittweisen Kontur. Im letzteren Fall wird das Plosiv vorteilhafterweise nach dem Schritt hinzugefügt - andernfalls wäre es nicht hörbar.

Das oben beschriebene Ausführungsbeispiel der vorliegenden Erfindung umfaßt zwei miteinander zusammenhängende, aber verschiedene Klassifizierungsprozeduren. Wie zum Beispiel in Fig. 4 gezeigt ist, bestimmt eine Leistungsschrittauswertevorrichtung 401, ob die logarithmische Leistungskontur zwischen zwei aufeinanderfolgenden Abtastwerten linear interpoliert werden soll, oder ob eine stufige Kontur bereitgestellt werden soll. Zusätzlich bestimmt der Plosivaddierer 403, ob der logarithmischen Leistungskontur zwischen den beiden aufeinanderfolgenden Abtastwerten ein Plosiv hinzugefügt werden soll. Bei anderen Ausführungsbeispielen der vorliegenden Erfindung kann unabhängig voneinander eine dieser Prozeduren durchgeführt werden. Der Klarheit halber wird das Ausführungsbeispiel der vorliegenden Erfindung als einzelne Funktionsblöcke oder "Prozessoren" umfassend dargestellt. Die durch diese Blöcke dargestellten Funktionen können entweder durch Verwendung gemeinsam benutzter oder eigener Hardware bereitgestellt werden, darunter u. a. Hardware, die in der Lage ist, Software auszuführen. Zum Beispiel können die in Fig. 1-4 dargestellten Funktionen von Prozessoren von einem einzigen gemeinsam benutzten Prozessor bereitgestellt werden. (Die Verwendung des Begriffs "Prozessor" sollte nicht als sich ausschließlich auf Hardware, die in der Lage ist, Software auszuführen, beziehend aufgefaßt werden.) Ausführungsbeispiele können Hardware für digitale Signalverarbeitung (DSP), wie zum Beispiel den DSP16 oder DSP32C von AT&T, Nur-Lese-Speicher (ROM) zum Speichern von Software, die die nachfolgend besprochenen Operationen durchführt, und Direktzugriffsspeicher (RAM) zum Speichern von DSP-Ergebnissen umfassen. Außerdem können Hardwareausführungsformen mit Höchstintegration (VLSI) sowie kundenspezifische VLSI- Schaltkreise in Kombination mit einer Vielzweck-DSP- Schaltung bereitgestellt werden.

Obwohl hier mehrere spezifische Ausführungsformen der vorliegenden Erfindung gezeigt und beschrieben wurden, versteht sich, daß diese Ausführungsformen lediglich Beispiele für die vielen möglichen spezifischen Anordnungen sind, die als Anwendung der Erfindung konzipiert werden können. Durchschnittsfachleute können zahlreiche und verschiedene andere Anordnungen konzipieren, ohne vom Schutzumfang der Erfindung, der durch die angefügten Ansprüche definiert wird, abzuweichen.


Anspruch[de]

1. Verfahren zum Decodieren eines codierten Sprachsignals, wobei das codierte Sprachsignal eine Folge von codierten Parameterwertsignalen umfaßt, die aufeinanderfolgende Werte eines vorbestimmten Parameters darstellen, mit den folgenden Schritten:

Klassifizieren des vorbestimmten Parameters in eine von mehreren Kategorien auf der Grundlage zweier aufeinanderfolgender der codierten Parameterwertsignale; und

Erzeugen, auf der Grundlage der klassifizierten Kategorie, eines oder mehrerer Zwischen- Parameterwertsignale, die Werte des vorbestimmten Parameters an einem oder mehreren Zeitpunkten zwischen den beiden aufeinanderfolgenden der codierten Parameterwertsignale darstellen.

2. Verfahren nach Anspruch 1, wobei der Schritt des Klassifizierens des vorbestimmten Parameters das Klassifizieren des vorbestimmten Parameters auf der Grundlage einer numerischen Differenz zwischen den durch die beiden aufeinanderfolgenden codierten Parameterwertsignale dargestellten Werten umfaßt.

3. Verfahren nach Anspruch 1, wobei die Kategorien eine Linearinterpolationskategorie und eine Sprungfunktionskategorie enthalten;

der Schritt des Erzeugens der Zwischen- Parameterwertsignale das Erzeugen von Zwischen- Parameterwertsignalen umfaßt, die Werte darstellen, die numerisch kleiner als der größere und größer als der kleinere der Werte des vorbestimmten Parameters sind, die durch die beiden aufeinanderfolgenden codierten Parameterwertsignale dargestellt werden, wenn der vorbestimmte Parameter in die Linearinterpolationskategorie hinein klassifiziert wurde; und

der Schritt des Erzeugens der Zwischen- Parameterwertsignale das Erzeugen von Zwischen- Parameterwertsignalen umfaßt, die Werte darstellen, die numerisch gleich einem der Werte des vorbestimmten Parameters sind, die durch die beiden aufeinanderfolgenden codierten Parameterwertsignale dargestellt werden, wenn der vorbestimmte Parameter in die Sprungfunktionskategorie hinein klassifiziert wurde.

4. Verfahren nach Anspruch 3, wobei der Schritt des Erzeugens der Zwischen-Parameterwertsignale das Erzeugen von mindestens zwei Zwischen- Parameterwertsignalen mit einem ersten Zwischen- Parameterwertsignal und einem zweiten Zwischen- Parameterwertsignal umfaßt, wenn der vorbestimmte Parameter in die Sprungfunktionskategorie hinein klassifiziert wurde, wobei das erste Zwischen- Parameterwertsignal und das zweite Zwischen- Parameterwertsignal verschiedene numerische Werte des vorbestimmten Parameters darstellen.

5. Verfahren nach Anspruch 1, wobei das codierte Signal weiterhin ein codiertes Parametermerkmalssignal umfaßt, das einen oder mehrere Werte des vorbestimmten Parameters an Zeitpunkten zwischen den beiden aufeinanderfolgenden codierten Parameterwertsignalen widerspiegelt, und wobei der Klassifizierungsschritt das Klassifizieren des vorbestimmten Parameters auf der Grundlage des codierten Parametermerkmalssignals umfaßt.

6. Verfahren zum Codieren eines Sprachsignals, mit den folgenden Schritten:

Erzeugen einer Folge von codierten Parameterwertsignalen, die aufeinanderfolgende Werte eines vorbestimmten Parameters darstellen;

Klassifizieren des vorbestimmten Parameters in eine von mehreren Kategorien auf der Grundlage eines oder mehrerer Werte des vorbestimmten Parameters an Zeitpunkten zwischen zwei aufeinanderfolgenden codierten Parameterwertsignalen; und

Erzeugen eines codierten Parametermerkmalssignals auf der Grundlage der klassifizierten Kategorie.

7. Verfahren nach Anspruch 6, wobei der vorbestimmte Parameter die Sprachsignalleistung widerspiegelt.

8. Verfahren nach Anspruch 7, wobei der vorbestimmte Parameter die Signalleistung einer charakteristischen Kurvenform widerspiegelt.

9. Verfahren nach Anspruch 7, wobei die mehreren Kategorien eine Kategorie, die eine Anwesenheit eines Sprachsignalleistungsplosivs widerspiegelt, und eine Kategorie, die ein Fehlen eines Sprachsignalleistungsplosivs widerspiegelt, umfassen.

10. Decodierer zum Decodieren eines codierten Sprachsignals, wobei das codierte Sprachsignal eine Folge von codierten Parameterwertsignalen umfaßt, die aufeinanderfolgende Werte eines vorbestimmten Parameters darstellen, wobei der Decodierer folgendes umfaßt:

ein Mittel zum Klassifizieren des vorbestimmten Parameters in eine von mehreren Kategorien auf der Grundlage zweier aufeinanderfolgender der codierten Parameterwertsignale; und

ein Mittel zum Erzeugen, auf der Grundlage der klassifizierten Kategorie, eines oder mehrerer Zwischen-Parameterwertsignale, die Werte des vorbestimmten Parameters an einem oder mehreren Zeitpunkten zwischen den beiden aufeinanderfolgenden der codierten Parameterwertsignale darstellen.

11. Decodierer nach Anspruch 10, wobei das Mittel zum Klassifizieren des vorbestimmten Parameters ein Mittel zum Klassifizieren des vorbestimmten Parameters auf der Grundlage einer numerischen Differenz zwischen den durch die beiden aufeinanderfolgenden codierten Parameterwertsignale dargestellten Werten umfaßt.

12. Decodierer nach Anspruch 10, wobei die Kategorien eine Linearinterpolationskategorie und eine Sprungfunktionskategorie enthalten;

das Mittel zum Erzeugen der Zwischen- Parameterwertsignale ein Mittel zum Erzeugen von Zwischen-Parameterwertsignalen umfaßt, die Werte darstellen, die numerisch kleiner als der größere und größer als der kleinere der Werte des vorbestimmten Parameters sind, die durch die beiden aufeinanderfolgenden codierten Parameterwertsignale dargestellt werden, wenn der vorbestimmte Parameter in die Linearinterpolationskategorie hinein klassifiziert wurde; und

das Mittel zum Erzeugen der Zwischen- Parameterwertsignale ein Mittel zum Erzeugen von Zwischen-Parameterwertsignalen umfaßt, die Werte darstellen, die numerisch gleich einem der Werte des vorbestimmten Parameters sind, die durch die beiden aufeinanderfolgenden codierten Parameterwertsignale dargestellt werden, wenn der vorbestimmte Parameter in die Sprungfunktionskategorie hinein klassifiziert wurde.

13. Decodierer nach Anspruch 12, wobei das Mittel zum Erzeugen der Zwischen-Parameterwertsignale ein Mittel zum Erzeugen von mindestens zwei Zwischen- Parameterwertsignalen mit einem ersten Zwischen- Parameterwertsignal und einem zweiten Zwischen- Parameterwertsignal umfaßt, wenn der vorbestimmte Parameter in die Sprungfunktionskategorie hinein klassifiziert wurde, wobei das erste Zwischen- Parameterwertsignal und das zweite Zwischen- Parameterwertsignal verschiedene numerische Werte des vorbestimmten Parameters darstellen.

14. Decodierer nach Anspruch 10, wobei das codierte Signal weiterhin ein codiertes Parametermerkmalssignal umfaßt, das einen oder mehrere Werte des vorbestimmten Parameters an Zeitpunkten zwischen den beiden aufeinanderfolgenden codierten Parameterwertsignalen widerspiegelt, und wobei das Mittel zum Klassifizieren des vorbestimmten Parameters ein Mittel zum Klassifizieren des vorbestimmten Parameters auf der Grundlage des codierten Parametermerkmalssignals umfaßt.

15. Codierer zum Codieren eines Sprachsignals, wobei der Codierer folgendes umfaßt:

ein Mittel zum Erzeugen einer Folge von codierten Parameterwertsignalen, die aufeinanderfolgende Werte eines vorbestimmten Parameters darstellen;

ein Mittel zum Klassifizieren des vorbestimmten Parameters in eine von mehreren Kategorien auf der Grundlage eines oder mehrerer Werte des vorbestimmten Parameters an Zeitpunkten zwischen zwei aufeinanderfolgenden codierten Parameterwertsignalen; und

ein Mittel zum Erzeugen eines codierten Parametermerkmalssignals auf der Grundlage der klassifizierten Kategorie.

16. Vorrichtung nach Anspruch 15, wobei der vorbestimmte Parameter die Sprachsignalleistung widerspiegelt.

17. Vorrichtung nach Anspruch 16, wobei der vorbestimmte Parameter die Signalleistung einer charakteristischen Kurvenform widerspiegelt.

18. Vorrichtung nach Anspruch 16, wobei die mehreren Kategorien eine Kategorie, die eine Anwesenheit eines Sprachsignalleistungsplosivs widerspiegelt, und eine Kategorie, die ein Fehlen eines Sprachsignalleistungsplosivs widerspiegelt, umfassen.







IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com