PatentDe  


Dokumentenidentifikation DE69421498T2 13.07.2000
EP-Veröffentlichungsnummer 0653091
Titel UNTERSCHEIDUNG ZWISCHEN STATIONÄREN UND NICHT-STATIONÄREN SIGNALEN
Anmelder Telefonaktiebolaget L M Ericsson (publ), Stockholm, SE
Erfinder WIGREN, Karl, Torbjörn, S-756 53 Uppsala, SE
Vertreter HOFFMANN · EITLE, 81925 München
DE-Aktenzeichen 69421498
Vertragsstaaten DE, DK, ES, FR, GB, GR, IT, NL
Sprache des Dokument En
EP-Anmeldetag 11.05.1994
EP-Aktenzeichen 949172274
WO-Anmeldetag 11.05.1994
PCT-Aktenzeichen SE9400443
WO-Veröffentlichungsnummer 9428542
WO-Veröffentlichungsdatum 08.12.1994
EP-Offenlegungsdatum 17.05.1995
EP date of grant 03.11.1999
Veröffentlichungstag im Patentblatt 13.07.2000
IPC-Hauptklasse G10L 19/00
IPC-Nebenklasse G10L 21/00   

Beschreibung[de]
TECHNISCHES GEBIET

Die vorliegende Erfindung betrifft allgemein das Unterscheiden zwischen stationären und nicht-stationären Signalen, insbesondere zum Detektieren der Tatsache, ob ein Signal zum Darstellen von Hintergrundgeräuschen in einem Mobilfunkkommunikationssystem stationär ist. Die Erfindung wird zum Detektieren und Codieren/Decodieren stationärer Hintergrundgeräusche eingesetzt.

HINTERGRUND DER ERFINDUNG

Viele moderne Sprachcoder gehören zu einer großen Klasse von Sprachcodern, die als LPC-Codierer (Linear Predictive Coders) bekannt sind. Beispiele für Codierer, die zu dieser Klasse gehören, sind: Der 4,8 Kbit/s CELP von dem US- Verteidungsministerium, der RPE-LTP Codierer gemäß dem Europäischen digitalen zellularen Mobiltelefonsystem GSM, der der VSELP Codierer des zugeordneten Amerikanischen Systems ADC, sowie der VSELP Codierer des Pazifischen digitalen Zellularsystems PDC.

Diese Codierer nützen sämtlich ein Quellfilterkonzept im Rahmen des Signalerzeugungsprozesses. Der Filter wird zum Modellieren des Kurzzeitspektrums des zu reproduziertenden Signals eingesetzt, wohingehend für die Quelle davon ausgegangen wird, daß sie sämtliche andere Signalvariationen handhabt.

Ein gemeinsames Merkmal dieser Quelle-Filtermodelle besteht darin, daß das zu reproduzierende Signal anhand von Parametern dargestellt wird, die das Ausgangssignal der Quelle definieren, sowie anhand von Filterparametern, die das Filter definieren. Der Begriff "linear predictive" betrifft das Verfahren, das allgemein zum Schützen der Filterparameter eingesetzt wird. Demnach wird das zu reproduzierende Signal partiell durch eine Menge von Filterparametern dargestellt.

Das Verfahren zum Einsetzen einer Quelle-Filter-Kombination als ein Signalmodell hat sich als relativ gut für Sprachsignale geeignet erwiesen. Jedoch liegen dann, wenn der Anwender eines Mobiltelefons schweigt und das Eingangssignal die Umfeldgeräusche enthält, bei dem momentan bekannten Codierern Schwierigkeiten im Hinblick auf die Handhabung dieser Situation vor, da sie für Sprachsignale optimiert sind. Ein Zuhörer auf der anderen Seite der Kommunikationsverbindung kann leicht belästigt werden, wenn sich bekannte Hintergrundgeräusche nicht erkennen lassen, da sie durch den Coder "schlecht behandelt" wurde.

Gemäß der schwedischen Patentanmeldung 93 00290-5 wird dieses Problem gelöst, indem das Vorliegen von Hintergrundgeräuschen von dem durch den Codierer empfangenen Signal detektiert wird und zudem die Berechnung der Filterparameter in Übereinstimmung mit einem bestimmten sogenannten "Anti- Wirbel-Algorithmus" dann, wenn das Signal durch die Hintergrundgeräusche dominiert ist.

Jedoch wurde festgestellt, daß Hintergrundgeräusche nicht dieselben statistischen Eigenschaften aufweisen. Ein Typ von Hintergrundrauschen, beispielsweise Fahrzeugrauschen, läßt sich als stationär charakterisieren. Ein anderer Typ, beispielsweise Hintergrundbabbeln, läßt sich als nicht- stationär charakterisieren. Experimente haben gezeigt, daß der erwähnte Anti-Wirbel-Algorithmus im stationären Fall gut arbeitet, jedoch nicht bei nicht-stationären Hintergrundgeräuschen. Demnach wäre es wünschenswert, zwischen stationären und nicht-stationären Hintergrundrauschen zu unterscheiden, so daß der Anti-Wirbel- Algorithmus dann umgangen werden kann, wenn das Hintergrundrauschen nicht-stationär ist.

ZUSAMMENFASSUNG DER ERFINDUNG

Eine Aufgabe der Erfindung besteht in einem Verfahren zum Detektieren und Codieren und/oder Decodieren stationärer Hintergrundgeräusche in einem digitalen raumbasierten Sprachcodierer und/oder Decodierer einschließlich einer Signalquelle, die mit einem Filter verbunden ist, derart, daß der Filter anhand einer Menge von Filterparametern für jeden Rahmen definiert ist, zum Reproduzieren des Signals, das zu codieren und/oder decodieren ist.

Gemäß der Erfindung enthält ein derartiges Verfahren die Schritte:

(a) Detektieren, ob das zu dem Codierer/Decodierer gerichtete Signal primär Sprache oder Hintergrundgeräusche darstellt;

(b) dann, wenn das zu dem Codierer/Decodierer gerichtete Signal primär Hintergrundgeräusche darstellt, Detektieren, ob das Hintergrundgeräusch stationär ist; und

(c) dann, wenn das Signal stationär ist, Einschränken der zeitlichen Variation zwischen aufeinanderfolgenden Rahmen und/oder dem Bereich mindestens einiger Filterparameter in der Menge.

Eine weitere Aufgabe der Erfindung betrifft ein Gerät zum Codieren und/oder Decodieren stationärer Hintergrundgeräusche in einem digitalen rahmenbasierten Sprachcoder und/oder Decoder einschließlich einer mit einem Filter verbundenen Signalquelle, derart, daß das Filter anhand einer Menge von Filterparametern für jeden Rahmen definiert ist, Reproduzieren des Signals, das zu codieren und/oder decodieren ist.

Gemäß der Erfindung enthält dieses Gerät:

(a) eine Vorrichtung zum Detektieren der Tatsache, ob das zu dem Codierer/Decodierer gerichtete Signal primär Sprache oder Hintergrundgeräusche darstellt;

(b) eine Vorrichtung zum Detektieren der Tatsache, ob das Hintergrundgeräusch stationär ist, wenn das zu dem Codierer/Decodierer gerichtete Signal primär Hintergrundgeräusche darstellt; und

(c) eine Vorrichtung zum Einschränken der zeitlichen Variation zwischen aufeinanderfolgenden Rahmen und/oder dem Bereich mindestens einiger Filterparameter in der Menge dann, wenn das zu dem Codierer/Decodierer gerichtete Signal stationäre Hintergrundgeräusche darstellt.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

Die Erfindung läßt sich zusammen mit weiteren Aufgaben und Vorteilen hiervon am besten anhand eines Bezugs auf die folgende Beschreibung im Zusammenhang mit der beiliegenden Zeichnung verstehen; es zeigen:

Fig. 1 ein Blockschaltbild eines Sprachcodierers, der mit einer Vorrichtung zum Durchführen des Verfahrens in Übereinstimmung mit der vorliegenden Erfindung versehen ist;

Fig. 2 ein Blockschaltbild eines Sprachdecodierers, der mit einer Vorrichtung zum Durchführen des Verfahrens in Übereinstimmung mit der vorliegenden Erfindung vorgesehen ist;

Fig. 3 ein Blockschaltbild eines Signaldiskriminators, der sich in dem in Fig. 1 gezeigtem Sprachcodierer einsetzen läßt; und

Fig. 4 ein Blockschaltbild eines bevorzugten Signaldiskriminators, der sich in den in Fig. 1 gezeigten Sprachcodierer einsetzen läßt.

DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN

Unter Bezugsnahme auf den in Fig. 1 gezeigten Sprachcodierer wird auf einer Eingangsleitung 10 ein Eingangssignal s(n) zu einem Filterschätzer 12 weitergeleitet, der die Filterparameter in Übereinstimmung mit standardisierten Prozeduren schätzt (Levinson-Durbin Algorithmus, Burg Algorithmus, Cholesky Dekomposition (Rabiner, Schafer: "Digitale Verarbeitung von Sprachsignalen", Kapitel 8, Prentice-Hall, 1978), der Schur Algorithmus (Strobach: "Neue Formen von Levinson- und Schur-Algorithmen", IEEE SP Magazin, Jan. 1991, Seiten 12-36), dem Le Roux-Gueguen Algorithmus (Le Roux, Gueguen: "Fixpunktberechnung von partiellen Korrelationskoeffizienten", IEEE Transactions of Acoustics, Speech and Signal Processing", Vol. ASSP-26, Nr. 3, Seiten 257-259, 1977), dem sogenannten FLAT-Algorithmus, der in dem US-Patent 4 544 919 beschrieben ist, übertragen auf Motorola Inc.). Der Filterschätzer 12 gibt die Filterparameter für jeden Rahmen aus. Diese Filterparameter werden zu einem Anregungsanalysator 14 weitergeleitet, der ebenso das Eingangssignal auf der Leitung 10 empfängt. Der Anregungsanalysator bestimmt die besten Quell- oder Anregungsparameter in Übereinstimmung mit Standardprozeduren. Beispiele für derartige Prozeduren sind VSELP (Gerson, Jasiuk: "Vektrosummenangeregte Linearprediktion, Vector Sum Excited Linear Prediction (VSELP)", in Atal et al., edt., "Fortschritt in der Sprachcodierung", Kluwer Academic Publishers, 1991, Seiten 69-79), TBPE (Salami, "Binäre · Pulsanregung: Eine neue Vorgehensweise für CELP-Codierung niedriger Komplexität", Seiten 145-156 der vorangehenden Referenz), Stochastisches Codebook (Campbell et al. "Der DoD4.8 KBPS Standard (vorgeschlagener Federal Standard 1016)", Sseiten 121-134 der vorangehenen Referenz), ACELP (Adoul, Lamblin: "Ein Vergleich einiger algebraischer Strukturen für CELP Codierung von Sprache", Proc. of International Conference on Acoustics, Speech and Signal Processing 1987, Seiten 1953-1956). Diese Anregungsparameter, die Filterparameter und das Eingangssignal auf der Leitung 10 werden zu einem Sprachdetektor 16 weitergeleitet. Dieser Detektor 16 bestimmt, daß das Eingangssignal primär Sprach- oder Hintergrundgeräusche enthält. Ein möglicher Detektor ist beispielsweise der Sprachaktivitätsdetektor, der in dem GSM System definiert ist (Sprachaktivitätsdetektion, GSM Empfehlung 06.32, ETSI/PT 12). Ein geeigneter Detektor ist in EP,A,335 521 (BRITISH TELECOM PLC) beschrieben. Der Sprachdetektor 16 erzeugt ein Ausgangssignal S/B zum Anzeigen, ob das Codereingangssignal primär Sprache oder nicht enthält. Dieses Ausgangssignal zusammen mit den Filterparametern wird zu einem Parametermodifizierer 18 über den Signaldiskriminator 24 weitergeleitet.

In Übereinstimmung mit der obigen schwedischen Patentanmeldung modifiziert der Parametermodifizierer 18 die bestimmten Filterparameter in dem Fall, in dem kein Sprachsignal in dem Eingangssignal für den Codierer vorliegt. Liegt das Sprachsignal vor, so werden die Filterparameter über den Parametermodifizierer 18 ohne Änderung geführt. Die möglicherweise geänderten Filterparameter und die Anregungsparameter werden zu dem Signalcodierer 20 weitergeleitet, der den Bitstrom erzeugt, der über den Kanal auf der Leitung 22 gesendet wird.

Die Parametermodifikation durch den Parametermodifizierer 18 läßt sich auf mehrere Weisen durchführen.

Eine mögliche Modifikation besteht in einen Bandbreitenerweiterung des Filters. Dies bedeutet, daß die Pole des Filters zu dem Ursprung der komplexen Ebene verschoben werden. Unter der Annahme, daß das Originalfilter H(z) = 1/A(z) anhand des Ausdrucks

A(z) = 1 + amz-m

gegeben ist, so wird dann, wenn die Pole gemäß einem Faktor r, 0 ≤ r ≤ 1, verschoben werden, die bandbreitenexpandierte Version durch A(z/r) definiert, oder:

A(z/r) = 1 + (amrm)z-m

Eine andere mögliche Modifikation ist das Tiefpaßfiltern für die Tiefpaßfilter im Zeitbereich. D. h., schnelle Variationen der Filterparameter von Rahmen zu Rahmen werden durch Tiefpaßfiltern von mindestens einigen der Parameter gedämpft. Ein spezieller Fall dieses Verfahrens besteht in der Ermittlung der Filterparameter über mehrere Rahmen, beispielsweise 4-5 Rahmen.

Der Parametermodifikator 18 kann auch eine Kombination dieser zwei Verfahren einsetzen, beispielsweise eine Bandbreitenexpansion gefolgt durch ein Tiefpaßfiltern durchführen. Es ist auch möglich, mit einem Tiefpaßfiltern zu starten und anschließend die Bandbreitenexpansion hinzuzufügen.

Bei der obigen Beschreibung wurde der Signaldiskriminator 24 ignoriert. Jedoch wurde festgestellt, daß es nicht ausreicht, Signale in Signale zum Darstellen von Sprach- und Hintergrundgeräuschen zu differenzieren, da die Hintergrundgeräusche nicht dieselben statistischen Eigenschaften aufweisen können, wie oben beschrieben. Demnach werden die Signale zum Darstellen der Hintergrundgeräusche in stationäre und nicht-stationäre Signale in dem Signaldiskriminator 24 unterschieden, der weiter unter Bezug auf die Fig. 3 und 4 beschrieben wird. Demnach zeigt das Ausgangssignal auf der Leitung 26 von dem Signaldiskriminator 24 an, ob der zu codierende Rahmen stationäre Hintergrundgeräusche enthält, und in diesem Fall führt der Parametermodifikator 18 die obige Parametermodifikation durch, oder sprachnicht-stationäre Hintergrundgeräusche, und in diesem Fall wird keine Modifikation durchgeführt.

Bei der obigen Erläuterung wird davon ausgegangen, daß die Parametermodifikation in dem Codierer in dem Transmitter durchgeführt wird. Jedoch ist zu erkennen, daß eine ähnliche Prozedur sich auch in dem Decodierer des Empfängers durchführen läßt. Dies ist durch die in Fig. 2 gezeigte Ausführungsform dargestellt.

Wie in Fig. 2 gezeigt, wird ein Bitstrom von dem Kanal auf der Eingangssleitung 30 empfangen. Dieser Bitstrom wird durch die Kanaldecodierer 32 decodiert. Der Kanaldecodierer 32 gibt Filterparameter und Anregungsparameter aus. In diesem Fall wird davon ausgegangen, daß diese Parameter nicht in dem Codierer des Transmitters modifiziert wurden. Die Filter und Anregungsparameter werden auf einen Sprachdetektor 34 weitergeleitet, der diese Parameter zum Bestimmen der Tatsache analysiert, ob das Signal, das anhand dieser Parameter reproduziert würde, ein Sprachsignal enthält oder nicht. Das Ausgangssignal S/B des Sprachdetektors 34 wird über den Signaldiskriminator 24' zu einem Parametermodifizierer 36 weitergeleitet, der auch die Filterparameter empfängt.

In Übereinstimmung mit der obigen schwedischen Patentanmeldung führt dann, wenn der Sprachdetektor 34 bestimmt, daß kein Sprachsignal in dem empfangenen Signal vorliegt, der Parametermodifizierer 36 eine Modifikation ähnlich zu der Modifikation durch, die durch den Parametermodifizierer 18 nach Fig. 2 durchgeführt wird. Liegt ein Sprachsignal vor, so erfolgt keine Modifikation. Die möglicherweise modifizierten Filterparameter und die Anregungsparameter werden an einen Sprachdekodierer 38 weitergeleitet, der ein synthetisches Ausgangssignal an der Leitung 40 erzeugt. Der Sprachdekodierer 38 nützt die Anregungsparameter zum Erzeugen der oben erwähnten Source- Signale und der möglicherweise modifizierten Filterparameter zum Definieren der Filter in dem Quelle-Filtermodell.

Wie bei dem in Fig. 1 gezeigten Codierer unterscheidet der Signaldiskriminator 24' zwischen stationären und nicht- stationären Hintergrundgeräuschen. Demnach aktivieren lediglich Rahmen, die stationäre Hintergrundgeräusche enthalten, den Parametermodifizierer 36. Jedoch hat in diesem Fall der Signaldiskriminator 24' keinen Zugriff auf Sprachsignale s(n) selbst, sondern lediglich auf die Anregungsparameter, die dieses Signal definieren. Der Unterscheidungsprozeß wird weiter unter Bezug auf die Fig. 3 und 4 beschrieben.

Die Fig. 3 zeigt ein Blockdiagramm eines Signaldiskriminators 24 nach Fig. 1. Der Diskriminator 24 empfängt das Eingangssignal s(n), und das Ausgangssignal S/B von dem Sprachdetektor 16. Das Signal S/B wird an einen Schalter SW weitergeleitet. Hat der Sprachdetektor 16 bestimmt, daß das Signal s(n) primär Sprache enthält, so nimmt der Schalter SW die obere Position ein, und in diesem Fall wird das Signal S/B direkt zu dem Ausgang des Diskriminators 24 weitergeleitet.

Enthält das Signal s(n) primär Hintergrundgeräusche, so liegt der Schalter SW in seiner unteren Position vor, und die Signal S/B und s(n) werden beide an eine Rechenvorrichtung 50 weitergeleitet, die die Energie E(Ti) jedes Rahmens schätzt. Hier kann Ti die Zeitspanne des Rahmens i bezeichnen. Jedoch enthält gemäß einer bevorzugten Ausführungsform Ti die Abtastwerte von zwei aufeinanerfolgenden Werten, und E(Ti) bezeichnet die Gesamtenergie dieser Rahmen. Gemäß dieser bevorzugten Ausführungsform wird das nächste Fenster Ti+1 um einen Sprachrahmen verschoben, so daß es einen neuen Rahmen und einen Rahmen von dem vorangehenden Fenster Ti enthält. Demnach überlappt das Fenster einen Rahmen. Die Energie läßt sich beispielsweise in Übereinstimmung mit der folgenden Formel schätzen:

E(Ti) = s(n)²

mit s(n) = s(tn).

Die Energieschätzwerte E(Ti) werden in einem Puffer 52 gespeichert. Dieser Puffer kann beispielsweise 100 bis 200 Energieschätzwerte anhand von 100 bis 200 Rahmen erhalten. Erreicht ein neuer Schätzwert den Puffer 52, so wird der älteste Schätzwert in dem Puffer gelöscht. Demnach enthält der Puffer 52 immer die N letzten Energieschätzwerte, mit N als Größe des Puffers.

Anschließend werden die Energieschätzwerte des Puffers 52 an eine Rechenvorrichtung 54 weitergeleitet, die eine Testvariable VT in Übereinstimmung mit der folgenden Formel berechnet:

mit T als akkumulierte Zeitspanne für sämtliche der (möglicherweise überlappenden) Zeitfenser Ti. Üblicherweise weist T eine feste Länge auf, beispielsweise 100-200 Sprachrahmen oder 2-4 Sekunden. Andererseits ist VT der maximale Energieschätzwert in der Zeitperiode T geteilt durch den minimalen Energieschätzwert innerhalb derselben Periode. Diese Testvariable VT ist ein Schätzwert der Variation der Energie innerhalb der letzten N Rahmen. Dieser Schätzwert wird später zum Bestimmen der Stationarität des Signals eingesetzt. Ist das Signal stationär, so wird ihre Energie sehr gering von Rahmen zu Rahmen variieren, was bedeutet, daß die Testvariable VT nahe bei dem Wert 1 liegt. Für ein nicht- stationäres Signal wird die Energie erheblich von Rahmen zu Rahmen variieren, was bedeutet, daß der Schätzwert erheblich größer als der Wert 1 ist.

Die Testvariable VT wird an einen Komparator 56 weitergeleitet, in dem sie mit einem stationären Grenzwert γ verglichen werden. Übersteigt VT den Wert γ, so wird ein nichtstationäres Signal auf der Ausgangsleitung 26 angezeigt. Dies bezeichnet, daß Filterparameter nicht modifiziert werden sollten. Ein geeigneter Wert für γ wurde zu 2-5, insbesondere 3-4, gefunden.

Anhand der obigen Beschreibung ist klar, daß zum Detektieren der Tatsache, ob ein Rahmen Sprache enthält, lediglich die Betrachtung dieses bestimmten Rahmens erforderlich ist, was in dem Sprachdetektor 16 erfolgt. Wird jedoch bestimmt, daß der Rahmen nicht Sprache enthält, so ist es erforderlich, Energieschätzwerte von Rahmen im Umfeld dieses Rahmens zu akkumulieren, damit eine Stationaritätsunterscheidung erfolgt. Demnach ist ein Puffer mit N-Speicherpositionen, mit N > 2 und üblicherweise in der Größenordnung von 100-200, erforderlich. Dieser Puffer kann auch eine Rahmennummer für jeden Energieschätzwert enthalten.

Ist die Testvariable VT getestet und wurde eine Entscheidung in einem Komparator 56 durchgeführt, so wird der nächste Energieschätzwert in der Rechenvorrichtung 50 erzeugt und in dem Puffer 52 verschoben, wonach eine neue Testvariable VT berechnet und im Komparator 56 mit dem Wert γ verglichen wird. Hierdurch wird das Zeitfenster T um einen Rahmen im Hinblick auf die Zeit nach vorne verschoben.

Bei der obigen Beschreibung wird davon ausgegangen, daß nachdem der Sprachdetektor 16 einen Rahmen mit Hintergrundgeräuschen detektiert hat, er das Detektieren von Hintergrundgeräuschen in dem vorderen Rahmen fortsetzt, damit genügend Energieschätzwerte im Puffer 52 zum Bilden einer Testvariable VT akkumuliert werden. Jedoch gibt es Situationen, in denen der Sprachdetektor 16 einige wenige Rahmen mit Hintergrundgeräuschen und anschließend einige Rahmen mit Sprache detektieren könnte, gefolgt von Rahmen mit neuen Hintergrundgeräuschen. Aus diesem Grund speichert der Puffer 52 Energiewerte in "wirksamer Zeit", was bedeutet, daß Energiewerte lediglich für Rahmen berechnet und gespeichert werden, die Hintergrundgeräusche enthalten. Dies ist auch der Grund dafür, weshalb jeder Energieschätzwert in seiner zugeordneten Rahmennummer gespeichert werden kann, da dies zu einem Mechanismus führt, mit dem sich bestimmten läßt, daß ein Energiewert zu alt ist, um relevant zu sein, wenn nicht Hintergrundgeräusche während einer langen Zeit vorgelegen haben.

Eine andere möglicherweise auftretende Situation besteht darin, daß eine kurze Periode von Hintergrundgeräuschen vorliegt, was zu wenig berechneten Energiewerten führt, und keine weiteren Hintergrundgeräusche innerhalb einer sehr langen Zeitperiode auftreten. In diesem Fall kann der Puffer 52 nicht genügend Energiewerte für eine gültige Testvariablenberechnung in einer vernünftigen Zeit enthalten. Die Lösung für derartige Fälle besteht im Setzen eines Zeitaus-Grenzwertes, nachdem entschieden wird, daß diese Rahmen mit den Hintergrundgeräuschen als Sprache behandelt werden sollten, da keine ausreichende Basis für eine Stationaritätsentscheidung vorliegen.

Ferner ist es in einigen Situationen, wenn entschieden wurde, daß ein bestimmter Rahmen nicht-stationäre Hintergrundgeräusche enthält, vorzuziehen, den Stationaritätsgrenzwert γ von beispielsweise 3,5 zu 3,3 abzusenken, damit ein Hin- und Herschalten bei Entscheidungen für nachfolgende Rahmen zwischen "stationär" und "nicht- stationär" vermieden wird. Demnach wird es dann, wenn ein nicht-stationärer Rahmen gefunden wurde, für die nachfolgenden Rahmen einfacher, sie ebenso als nicht- stationär zu klassifizieren. Wird ein stationärer Rahmen gegebenenfalls gefunden, so wird der Stationaritätsgrenzwert γ wieder angehoben. Diese Technik wird als "Hysterese" bezeichnet.

Eine andere vorzugsweise Technik ist ein "Nachwirken". Die Nachwirkung bedeutet, daß eine bestimmte Entscheidung durch den Signaldiskriminator 24 für mindestens eine bestimmte Zahl von Rahmen bestehen muß, beispielsweise fünf Rahmen, um endgültig zu werden. Vorzugsweise werden "Hysteres" und "Nachklingen" kombiniert.

Anhand der obigen Ausführungsformen ist klar, daß die Ausführungsform nach Fig. 3 einen Puffer 52 mit erheblicher Größe erfordert, 100-200 Speicherpositionen für einen typischen Fall (200-400 dann, wenn auch die Rahmenzahl gespeichert wird). Da dieser Puffer üblicherweise in einem Signalprozessor vorliegt, in dem Speicherressourcen sehr knapp sind, wäre es wünschenswert, die Puffergröße zu reduzieren. Die Fig. 4 zeigt demnach eine bevorzugte Ausführungsform des Signaldiskriminators 24, bei dem der Einsatz eines Puffers durch einen Puffercontroller 58 zum Steuern eines Puffers 52' modifiziert wurde.

Der Zweck des Puffercontrollers 58 besteht in der Handhabung des Puffers 52' derart, daß nicht erforderliche Energieschätzwerte E(Ti) nicht gespeichert werden. Diese Vorgehensweise basiert auf der Beobachtung, daß lediglich die extremsten Energieschätzwerte tatsächlich für die Berechnung von VT relevant sind. Demnach sollte es eine gute Approximation sein, lediglich in einige große oder einige geringe Energieschätzwerte in dem Puffer 52' zu speichern. Der Puffer 52' wird demnach in zwei Puffer unterteilt, MAXPUFFER und MINPUFFER. Da alte Energieschätzwerte von dem Puffer nach einer bestimmten Zeit verschwinden sollten, ist es auch erforderlich, die Rahmennummern der zugeordneten Energiewerte in MAXPUFFER und MINPUFFER zu speichern. Ein möglicher Algorithmus zum Speichern von Werten in dem Puffer 52', der durch den Puffercontroller 58 durchgeführt wird, ist detailliert in dem Pascal Programm in dem angefügten Appendix beschrieben.

Die Ausführungsform nach Fig. 4 ist suboptimal im Vergleich zu der Ausführungsform nach Fig. 3. Der Grund besteht beispielsweise darin, daß große Rahmenenergien nicht in der Lage sind, in MAXPUFFER einzutreten, wenn größere, jedoch ältere Rahmenenergien hierin vorliegen. In diesem Fall geht diese bestimmte Rahmenenergie verloren, obgleich sie später wirksam werden könnte, wenn die vorangehenden großen (jedoch alten) Rahmenenergien herausgeschoben sind. Demnach ist das, was berechnet wird, praktisch nicht VT, sondern V'T, definiert zu:

Jedoch ist aus einem praktischen Gesichtspunkt diese Ausführungsform "gut genug" und sie ermöglicht eine drastische Reduktion der erforderlichen Puffergröße von 100- 200 gespeicherten Energieschätzwerten zu näherungsweise 10 Schätzwerten (5 für den MAXPUFFER und 5 für den MINPUFFER).

Wie im Zusammenhang mit der Beschreibung nach Fig. 2 oben erwähnt, hat der Signaldiskriminator 24' keinen Zugriff auf das Signal s(n). Jedoch läßt sich aufgrund der Tatsache, daß entweder die Filter- oder Anregungsparameter üblicherweise einen Parameter enthalten, der die Rahmenenergie enthält, die Energieschätzung anhand dieses Parameters erhalten. Demnach wird gemäß dem US-Standard IS-54 die Rahmenenergie durch einen Anregungsparameter r(0) dargestellt. (Es wäre selbstverständlich auch möglich, r(0) in dem Signaldiskriminator 24 nach Fig. 1 als Energieschätzung einzusetzen.) Eine andere Vorgehensweise bestünde im Verschieben des Signaldiskriminators 24' und des Parametermodifizierers 36 zu der rechten Seite des Sprachdekodierers 38 nach Fig. 2. Hierdurch hätte der Signaldiskriminator 24' einen Zugriff auf das Signal 40, das das dekodierte Signal darstellt, d. h. es weist dieselbe Form auf, wie das Signal s(n) in Fig. 1. Diese Vorgehensweise würde jedoch einen anderen Sprachdekodierer nach dem Parametermodifizierer 36 zum Reproduzieren des modifizierten Signals erfordern.

Bei der obigen Beschreibung des Signaldiskriminators 24, 24 wurde davon ausgegangen, daß die Stationaritätsentscheidungen auf Energieberechnungen beruhen. Jedoch ist die Energie lediglich eines der statistischen Momente unterschiedlicher Ordnungen, die sich für die Stationaritätdetektion einsetzen lassen. Demnach liegt es im Rahmen des Schutzbereichs der vorliegenden Erfindung, andere statistische Momente einzusetzen, als das Moment zweiter Ordnung (was der Energie oder Varianz des Signals entspricht). Es ist auch möglich, mehrere statistische Momente unterschiedlicher Ordnungen im Hinblick auf die Stationarität zu testen, und eine abschließende Stationaritätsentscheidung auf der Grundlage der Ergebnisse dieser Tests durchzuführen.

Ferner ist die definierte Testvariable VT nicht die einzige mögliche Testvariable. Eine andere Testvariable könnte beispielsweise definiert sein zu:

mit dem Ausdruck < dE(Ti)/dt> als Schätzung der Änderungsrate der Energie von Rahmen zu Rahmen. Beispielsweise kann ein Kalman-Filter zum Berechnen des Schätzwertes der Formel angewandt werden, beispielsweise gemäß dem linearen Trendmodell (siehe A. Gelb, "Angewandte optimale Schätzung", MIT Press, 1988). Jedoch weist die Testvariable VT, so wie sie früher in dieser Spezifikation definiert ist, das wünschenswerte Merkmal auf, daß sie skalierungsfaktor- unabhängig ist, was den Signaldiskriminator unempfindlich gegenüber dem Pegel der Hintergrundgeräusche macht.

Für die mit dem Stand der Technik Vertrauten ist zu erkennen, daß zahlreiche Modifikationen und Änderungen bei der vorliegenden Erfindung möglich sind, ohne Abweichung von dem Schutzbereich hiervon, der durch die angefügten Patentansprüche definiert ist.

APPENDIX


Anspruch[de]

1. Verfahren zum Detektieren, Codieren und/oder Decodieren stationärer Hintergrundgeräusche in einem digitalen rahmenbasierten Sprachcodierer und/oder -decodierer einschließlich einer mit einem Filter verbundenen Signalquelle, derart, daß der Filter durch eine Menge von Filterparametern für jeden Rahmen definiert ist, zum Reproduzieren des Signals, das zu codieren und/oder decodieren ist, und das Verfahren die Schritte enthält:

(a) Entscheiden, ob das zu dem Codierer/Decodierer zu richtende Signal primär Sprache oder Hintergrundgeräusche darstellt;

(b) wenn das zu dem Codierer/Decodierer gerichtete Signal primär Hintergrundgeräusche darstellt, Entscheiden, ob das Hintergrundgeräusch stationär ist; und

(c) wenn das Signal stationär ist, Einschränken der zeitlichen Variation zwischen aufeinanderfolgenden Rahmen und/oder des Bereichs mindestens einiger Filterparameter in der Menge.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Stationaritätsdetektion die Schritte enthält:

(b1) Schätzen eines der statistischen Momente der Hintergrundgeräusche in jedem der N Zeitteilfenster Ti, mit N > 2, für ein Zeitfenster T von vorgegebener Länge;

(b2) Schätzen der Variation der Schätzwerte, die im Schritt (b1) als Maß der Stationarität des Hintergrundgeräusches erhalten werden; und

(b3) Bestimmen, ob die in dem Schritt (b2) erhaltene geschätzte Variation einen vorgegebenen Stationaritätsgrenzwert (γ) übersteigt.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Energie E(Ti) der Hintergrundgeräusche in jedem Zeitteilfenster Ti im Schritt (b1) geschätzt wird.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die geschätzte Veränderung in Übereinstimmung mit der folgenden Formel gebildet wird:

5. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die geschätzte Veränderung in Übereinstimmung mit der Formel gebildet wird:

derart, daß MAXPUFFER ein Puffer ist, der lediglich die größten letzten Energieschätzwerte enthält, und MINPUFFER ein Puffer ist, der lediglich die kleinsten zurückliegenden Energieschätzwerte enthält.

6. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, daß die Zeitteilfenster Ti überlappt werden, die kollektiv das Zeitfenser T abdecken.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Zeitteilfenster Ti gleich sind.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß jedes Zeitteilfenster Ti zwei aufeinanderfolgende Sprachrahmen enthält.

9. Gerät zum Codieren und/oder Decodieren stationärer Hintergrundgeräusche in einem digitalen rahmenbasierten Sprachcodierer und/oder -decodierer einschließlich einer mit einem Filter verbundenen Signalquelle, derart, daß das Filter durch eine Gruppe von Filterparametern für jeden Rahmen definiert ist, zum Reproduzieren des zu codierenden und/oder decodierenden Signals, und derart, daß das Gerät enthält:

(a) eine Vorrichtung (16, 34) zum Detektieren, ob das zu dem Codierer/Decodierer zu richtende Signal primär Sprache oder Hintergrundgeräusche darstellt;

(b) eine Vorrichtung (24, 24') zum Detektieren, wenn das zu dem Codierer/Decodierer gerichtete Signal primär Hintergrundgeräusche darstellt, ob das Hintergrundgeräusch stationär ist; und

(c) eine Vorrichtung (18, 36) zum Einschränken der zeitlichen Variation zwischen aufeinanderfolgenden Rahmen und/oder des Bereichs mindestens einiger Filterparameter in der Menge, wenn das zu dem Codierer/Decodierer gerichtete Signal stationäre Hintergrundgeräusche darstellt.

10. Gerät nach Anspruch 9, dadurch gekennzeichnet, daß die Stationaritätsdetektionsvorrichtung enthält:

(b1) eine Vorrichtung (60) zum Schätzen eines der statistischen Momente der Hintergrundgeräusche in jedem der N Teilzeitfenster Ti, mit N > 2, für ein Zeitfenster T vorgegebener Länge;

(b2) eine Vorrichtung (54) zum Schätzen der Variation der Schätzwerte als Maß der Stationarität des Hintergrundgeräusche; und

(b3) eine Vorrichtung zum Bestimmen, ob die geschätzte Variation einen vorgegebene Stationaritätsgrenzwert γ übersteigt.

11. Gerät nach Anspruch 10, gekennzeichnet durch eine Vorrichtung (50) zum Schätzen der Energie E(Ti) der Hintergrundgeräusche in jedem Zeitteilfenster Ti.

12. Gerät nach Anspruch 11, dadurch gekennzeichnet, daß die geschätzte Variation in Übereinstimmung mit der Formel gebildet wird:

13. Gerät nach Anspruch 11, gekennzeichnet durch eine Vorrichtung (58) zum Steuern eines ersten Puffer MAXPUFFER und eines zweiten Puffers MINPUFFER zum Speichern jeweils lediglich zurückliegender großer und kleiner Energieschätzwerte.

14. Gerät nach Anspruch 13, dadurch gekennzeichnet, daß jeder der Puffer MINPUFFER, MAXPUFFER zusätzlich zu dem Energieschätzwert ein Kennzeichen zum Identifizieren des Zeitteilfensters Ti speichert, das jedem Energieschätzwert in jedem Puffer zugeordnet ist.

15. Gerät nach Anspruch 14, dadurch gekennzeichnet, daß die geschätzte Variation in Übereinstimmung mit der Formel gebildet wird:







IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com