PatentDe  


Dokumentenidentifikation DE69518174T2 31.05.2001
EP-Veröffentlichungsnummer 0665530
Titel Rauschkorrektur durch Feststellung der Anwesenheit von Sprachsignalen
Anmelder AT & T Corp., New York, N.Y., US
Erfinder Janiszewski, Thomas John, Clinton, US;
Recchione, Michael Charles, Nutley, US
Vertreter derzeit kein Vertreter bestellt
DE-Aktenzeichen 69518174
Vertragsstaaten DE, FR, GB, IT, SE
Sprache des Dokument EN
EP-Anmeldetag 18.01.1995
EP-Aktenzeichen 953002896
EP-Offenlegungsdatum 02.08.1995
EP date of grant 02.08.2000
Veröffentlichungstag im Patentblatt 31.05.2001
IPC-Hauptklasse G10L 19/00
IPC-Nebenklasse G10L 21/02   

Beschreibung[de]

Die vorliegende Erfindung betrifft Vorrichtungen und Verfahren zur Verarbeitung eines empfangenen Signals, das Sprache und Rauschen umfasst oder darstellt.

Ein zellulares Fernsprechsystem umfasst drei wesentliche Elemente: ein zellulares Vermittlungssystem, das als Tor zu dem (verdrahteten) Landleitungs- Fernsprechnetz dient, eine Anzahl von Basisstationen unter der Steuerung des Vermittlungssystems, die Geräte enthalten, die zwischen den in dem verdrahteten Fernsprechnetz verwendeten Signalen und den zur drahtlosen Kommunikation verwendeten Funksignalen übersetzen, und eine Anzahl mobiler Fernsprecheinheiten, die zwischen den zur Kommunikation mit den Basisstationen verwendeten Funksignalen und den zur Kommunikation mit menschlichen Benutzern verwendeten hörbaren akustischen Signalen (z. B. Sprache, Musik usw.) übersetzen.

Die Kommunikation zwischen einer Basisstation und einem Mobilfernsprecher ist nur dann möglich, wenn sowohl die Basisstation als auch der mobile Fernsprecher identische Funkmodulationsverfahren, Datencodierungskonventionen und Steuerstrategien verwenden, d. h., beide Einheiten müssen einer Funkschnittstellenspezifikation genügen. Es wurden mehrere Standards für Funkschnittstellen in den Vereinigten Staaten etabliert. Bisher erfolgte die gesamte zellulare Telefonie in den Vereinigten Staaten gemäß dem Standard des Advanced Mobile Phone Service (AMPS). Dieser Standard spezifiziert die Analogsignalcodierung unter Verwendung von Frequenzmodulation im 800-MHz-Bereich des Funkspektrums. Bei diesem Verfahren wird jedem zellularem Gespräch für die Dauer der Verbindung ein Kommunikationskanal zugewiesen, der aus zwei 30-kHz- Segmenten dieses Bereichs besteht. Zur Vermeidung von Störungen zwischen Gesprächen dürfen zwei Gespräche nicht gleichzeitig in demselben geografischen Gebiet denselben Kanal einnehmen. Da der gesamte Teil des Funkspektrums, der für die zellulare Telefonie zugeteilt ist, endlich ist, beschränkt diese Einschränkung die Anzahl gleichzeitiger Benutzer eines zellularen Fernsprechsystems.

Zur Steigerung der Kapazität des Systems wurden mehrere Alternativen zu dem AMPS-Standard eingeführt. Zu diesen gehört der Interim-Standard-54 (IS-54), ausgegeben von der Electronic Industries Association und der Telecommunications Industry Association. Dieser Standard nutzt die Digitalsignalcodierung und Modulation unter Verwendung eines Zeitmultiplexverfahrens mit Mehrfachzugriff (TDMA). Unter dem TDMA- Verfahren wird jedes 30-kHz-Segment von drei gleichzeitigen Gesprächen gemeinsam benutzt, und jedes Gespräch darf den Kanal ein Drittel der Zeit verwenden. Die Zeit wird in 20-ms-Rahmen eingeteilt, und jeder Rahmen wird weiterhin in drei Zeitschlitze unterteilt. Jedem Gespräch wird ein Zeitschlitz pro Rahmen zugeteilt.

Damit alle Informationen, die 20 ms eines Gesprächs beschreiben, in einem einzigen Zeitschlitz übermittelt werden können, werden Sprach- und andere Audiosignale unter Verwendung eines als vektorsummenerregte lineare Prädiktion (VSELP) bekannten digitalen Sprachkomprimierungsverfahrens verarbeitet. Jede IS-54 entsprechende Basisstations- und Mobilfernsprecheinheit enthält einen VSELP-Codierer und -Dekodierer. Statt eine digitale Darstellung der Audio-Kurvenform über den Kanal zu übertragen, nutzt der VSELP-Codierer ein Modell der menschlichen Spracherzeugung zur Reduktion des digitalisierten Audiosignals auf eine Menge von Parametern, die den Zustand des Spracherzeugungsmechanismus während des Rahmens (z. B. die Tonhöhe, die Rachen- und Mundhohlraumkonfiguration usw.) darstellen. Diese Parameter werden zu einem digitalen Bitstrom codiert und dann über den Kanal mit 8 Kilobit pro Sekunde (kbs) zu dem Empfänger übertragen. Diese Bitrate ist wesentlich kleiner, als zur Codierung der tatsächlichen Audio-Kurvenform erforderlich wäre. Der VSELP-Decodierer im Empfänger verwendet diese Parameter dann zur Wiederherstellung einer Abschätzung der digitalisierten Audio-Kurvenform. Die übertragenen digitalen Sprachdaten werden zu digitalen Informationsrahmen mit 20 ms organisiert, die jeweils 160 Abtastwerte enthalten. Es liegen 159 Bit pro Sprachrahmen vor. Das VSELP-Verfahren wird ausführlich in dem Dokument TR45 Full-Rate Speech Codec Compatibility Standard PN-2972, 1990, veröffentlicht von der Electronics Industries Association, beschrieben, auf das hiermit ausdrücklich Bezug genommen wird (und im folgenden als "VSELP-Standard" bezeichnet wird).

Die VSELP reduziert die erforderliche Anzahl von Bit zur Übertragung von Audioinformationen über den Kommunikationskanal wesentlich. Sie erzielt diese Reduktion jedoch durch eine starke Abhängigkeit von einem Modell der Spracherzeugung. Dementsprechend werden Nicht-Sprachgeräusche schlecht wiedergegeben. Zum Beispiel ist der Innenraum eines sich bewegenden Kraftfahrzeugs eine naturgemäß rauschbehaftete Umgebung. Die eigenen Geräusche des Kraftfahrzeugs vereinigen sich mit externen Geräuschen und erzeugen einen akustischen Hintergrund-Rauschpegel, der wesentlich höher ist als in der Regel in Nicht-Mobil- Umgebungen angetroffen wird. Durch diese Situation ist VSELP gezwungen, einen großen Teil der Zeit zu versuchen, Nicht-Sprachinformationen sowie Kombinationen von Sprache und Hintergrundgeräusch zu codieren.

Bei der Verwendung von VSELP zur Codierung von Sprache bei Anwesenheit von Hintergrundrauschen entstehen zwei Probleme. Erstens klingt das Hintergrundrauschen ungeachtet dessen, ob Sprache vorliegt oder nicht, unnatürlich, und zweitens wird die Sprache auf eine charakteristische Weise verzerrt. Einzeln und kollektiv werden diese Probleme gewöhnlich als "Swirl" bezeichnet.

Obwohl es möglich wäre, diese Artefakte, die durch den Codierungs-/Decodierungsprozess eingeführt werden, zu beseitigen, indem der VSELP-Algorithmus durch einen anderen Sprachkomprimierungsalgorithmus ersetzt wird, der diese Unzulänglichkeiten nicht aufweist, würde diese Strategie erfordern, die Funkschnittstellenspezifikation IS-54 zu ändern. Eine solche Änderung ist unerwünscht, da Zellularfernsprech- Dienstanbieter, Hersteller und Teilnehmer beträchtlich in bestehende Geräte investiert haben. Zum Beispiel erkennt bei einem Verfahren des Stands der Technik der Sprachcodierer, wenn keine Sprache vorliegt, und codiert einen speziellen Rahmen, der zu dem Empfänger übertragen werden soll. Dieser spezielle Rahmen enthält Comfort-Rauschparameter, die anzeigen, dass der Sprachdecodierer Comfort-Rauschen erzeugen soll, das dem Hintergrundrauschen auf der Sendeseite gleicht. Diese speziellen Rahmen werden von dem Sender periodisch während Perioden ohne Sprache gesendet. Diese vorgeschlagene Lösung des Swirl-Problems erfordert eine Änderung des derzeitigen VSELP- Sprachalgorithmus, da sie spezielle codierte Rahmen einführt, um anzuzeigen, wann Comfort-Rauschen erzeugt werden soll. Sie wird sowohl auf der Sende- als auch der Empfängerseite des Kommunikationssignals implementiert und erfordert eine Änderung des derzeitigen Funkschnittstellenspezifikationsstandards. Sie ist deshalb eine unerwünschte Lösung.

Aus GB-A-2 256 351 ist ein Kommunikationssender/-empfänger zur Kommunikation in Rahmen von codierten Audiosignalen mit einem Sender und Empfänger, einem Sprachcodierer und -decodierer, einem Sprachaktivitätsdetektor und Comfort-Rauscherzeugung und -Einfügung während Perioden von Sprachstille bekannt.

Gemäß einem Aspekt der vorliegenden Erfindung wird eine Vorrichtung nach Anspruch 1 bereitgestellt.

Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Verfahren nach Anspruch 7 bereitgestellt.

Ein Vorteil der vorliegenden Erfindung besteht darin, dass sie die Stärke der durch VSELP (oder jeden anderen Sprachcodierungs/-decodierungsalgorithmus) eingeführten Artefakte mildert, wenn diese beim Vorliegen von akustischem Hintergrundrauschen verwendet werden, ohne dass die Funkschnittstellenspezifikation geändert werden muss.

Es wurde bestimmt, dass eine Kombination aus Signaldämpfung mit Comfort-Rauscheinfügung während Perioden ohne Sprache und eine selektive Hochpassfilterung auf der Grundlage einer Abschätzung der Hintergrundrauschenergie eine effektive Lösung für das oben besprochenen Swirl-Problem ist.

Bei einer Ausführungsform der Erfindung verwendet ein Sprachaktivitätsdetektor eine Energieabschätzung zur Erkennung des Vorliegens von Sprache in dem empfangenen Sprachsignal in einer Rauschumgebung. Wenn keine Sprache vorliegt, dämpft das System das Signal und fügt tiefpassgefiltertes weißes Rauschen (d. h. Comfort-Rauschen) mit einem entsprechenden Pegel ein. Dieses Comfort-Rauschen imitiert die typischen spektralen Kenngrößen von Kraftfahrzeug- oder anderem Hintergrundrauschen. Dadurch wird das Swirl geglättet und klingt deshalb natürlich. Wenn der Sprachaktivitätsdetektor bestimmt, dass Sprache in dem Signal vorliegt, wird das synthetisierte Sprachsignal ohne Dämpfung verarbeitet.

Es wurde bestimmt, dass die wahrnehmungsbezogen lästigen Artefakte, die durch den Sprachcodierer beim Versuch, sowohl Sprache als auch Rauschen zu codieren, eingeführt werden, hauptsächlich im unteren Frequenzbereich auftreten. Zusätzlich zu der sprachaktivitätsgesteuerten Dämpfung und Comfort- Rauscheinfügung wird deshalb abhängig von dem Hintergrundrauschpegel eine Menge von Hochpassfiltern verwendet. Diese Filterung wird an dem Sprachsignal unabhängig davon vorgenommen, ob Sprache vorliegt oder nicht. Wenn festgestellt wird, dass der Rauschpegel unter -52 dB liegt, wird keine Hochpassfilterung verwendet. Wenn der Rauschpegel zwischen -40 dB und - 52 dB liegt, wird ein Hochpassfilter mit einer Grenzfrequenz von 200 Hz auf das synthetisierte Sprachsignal angewandt. Wenn der Rauschpegel größer als -40 dB ist, wird ein Hochpassfilter mit einer Grenzfrequenz von 350 Hz angewandt. Das Ergebnis dieser Hochpassfilter ist ein verringertes Hintergrundrauschen mit nur wenigen Auswirkungen auf die Sprachqualität.

Die hier beschriebene Erfindung wird im Empfänger (entweder in der Basisstation, der Mobileinheit oder in beiden) verwendet und kann somit ohne Notwendigkeit einer Änderung des derzeitigen standardmäßigen Sprachcodierungs/-decodierungsprotokolls implementiert werden.

Kurze Beschreibung der Zeichnungen

Fig. 1 ist ein Blockschaltbild eines digitalen Funkempfangssystems, in das die vorliegende Erfindung integriert ist.

Fig. 2 ist ein Blockschaltbild einer sprachaktivitätsdektionsgesteuerten Rauschkorrekturvorrichtung, die die vorliegende Erfindung realisiert.

Fig. 3 ist eine Kurvenform der akustischen Gesamtenergie eines empfangenen Signals.

Fig. 4 ist ein Blockschaltbild eines Hochpassfiltertreibers.

Fig. 5 ist ein Flussdiagramm der Arbeitsweise des Sprachaktivitätsdetektors.

Fig. 6 zeigt ein Blockschaltbild einer Mikroprozessorausführungsform der vorliegenden Erfindung.

Ausführliche Beschreibung

Fig. 1 zeigt ein digitales Funkempfangssystem 10, in das die vorliegende Erfindung integriert ist. Ein Demodulator 20 empfängt übertragene Kurvenformen, die codierten Sprachsignalen entsprechen, und verarbeitet die empfangenen Kurvenformen zur Erzeugung eines digitalen Signals d. Dieses digitale Signal d wird einem Kanaldecodierer 30 zugeführt, der das Signal d verarbeitet, um Kanalfehler zu lindern. Das resultierende Signal, das durch den Kanalcodierer 30 erzeugt wird, ist ein codierter Sprachbitstrom b, der gemäß dem oben im Stand der Technik der Erfindung besprochenen VSELP-Standard zu digitalen Informationsrahmen organisiert wird. Dieser codierte Sprachbitstrom b wird einem Sprachdecodierer 40 zugeführt, der den codierten Sprachbitstrom b verarbeitet, um einen decodierten Sprachbitstrom s zu erzeugen. Dieser Sprachdecodierer 40 ist so konfiguriert, dass er Sprache decodiert, die gemäß dem VSELP-Verfahren codiert wurde. Dieser decodierte Sprachbitstrom s wird einer sprachaktivitätsdetektionsgesteuerten Rauschkorrekturvorrichtung (VADDNR) 50 zugeführt, um ein etwaiges, während Perioden ohne Sprache in dem Signal vorliegendes Hintergrund-"Swirl" zu entfernen. Bei einer Ausführungsform empfängt die VADDNR 50 außerdem einen Teil des codierten Sprachbitstroms b aus dem Kanaldecodierer 30 über die Signalleitung 35. Die VADDNR 50 verwendet den Energiewert r0 des VSELP-codierten Rahmens, der Teil des codierten Bitstroms b ist, was nachfolgend ausführlicher besprochen wird. Die VADDNR 50 erzeugt einen verarbeitete decodierte Sprachbitstromausgabe s". Die Ausgabe aus der VADDNR 50 kann dann einem Digital/Analog-Umsetzer 60 zugeführt werden, der das digitale Signal s" in eine analoge Kurvenform umsetzt. Diese analoge Kurvenform kann dann zu einem Zielsystem, wie zum Beispiel einem Fernsprechnetz, gesendet werden. Als Alternative kann die Ausgabe aus der VADDNR 50 einer anderen Einrichtung zugeführt werden, die die VADDNR-Ausgabe in ein anderes digitales Datenformat umsetzt, das von einem Zielsystem verwendet wird.

Die VADDNR 50 ist in Fig. 2 ausführlicher gezeigt. Die VADDNR empfängt den Energiewert r0 des VSELP-codierten Rahmens aus dem codierten Sprachbitstrom b über die Signalleitung 35 (siehe Fig. 1). Dieser Energiewert r0 stellt die mittlere Signalleistung in der Eingangssprache über das 20 ms- Rahmenintervall dar. Es gibt 32 mögliche Werte für r0, nämlich 0 bis 31. r0 = 0 stellt eine Rahmenenergie von 0 dar. Die übrigen Werte für r0 liegen zwischen einem Minimum von -64 dB, entsprechend r0 = 1, und einem Maximum von -4 dB, entsprechend r0 = 31. Die Schrittgröße zwischen r0-Werten beträgt 2 dB. Der Rahmenenergiewert r0 wird in VSELP Standard, S. 16, ausführlicher beschrieben. Der Energiewert r0 des codierten Rahmens wird einem Energieabschätzer 210 zugeführt, der die mittlere Rahmenenergie bestimmt.

Der Energieabschätzer 210 erzeugt ein Mittelwertsignal e[m] der Rahmenenergie, das die mittlere Rahmenenergie darstellt, die während eines Rahmens m berechnet wird, wobei m ein Rahmenindex ist, der den aktuellen digitalen Informationsrahmen darstellt. e[m] ist folgendermaßen definiert:

Einit für m = 0

e[m] =

α * r0[m] + (1-α) * e[m-1] für m> 0

Die mittlere Rahmenenergie wird anfänglich auf eine anfängliche Energieabschätzung Einit eingestellt. Einit wird auf einen Wert eingestellt, der größer als 31, der größte mögliche Wert für r0, ist. Zum Beispiel könnte Einit auf einen Wert von 32 eingestellt werden. Nach der Initialisierung wird die mittlere Rahmenenergie e[m] durch die Gleichung e[m] = α * r0[m] + (1-α) * e[m- 1] berechnet, wobei α eine Glättungskonstante ist, wobei 0 ≤ α ≤ 1 gilt. α sollte so gewählt werden, dass eine annehmbare Rahmenmittelwertbildung bereitgestellt wird. Die Autoren haben festgestellt, dass ein Wert von α = 0,25 optimal ist und eine effektive Rahmenmittelwertbildung über sieben Rahmen von digitalen Informationen (140 ms) liefert. Es könnten auch andere Werte von α gewählt werden, wobei der Wert vorzugsweise im Bereich von 0,25 ± 0,2 liegt.

Wie oben besprochen und in Fig. 1 gezeigt, empfängt die VADDNR 50 den Energiewert r0 VSELPcodierter Rahmen aus dem codierten Sprachbitstromsignal b, bevor das Signal b durch den Sprachdecodierer 40 decodiert wird. Als Alternative könnte dieser Rahmenenergiewert r0 durch die VADDNR 50 selbst aus dem decodierten Sprachbitstromsignal s berechnet werden, der aus dem Sprachdecodierer 40 empfangen wird. In einer Ausführungsform, bei der der Rahmenenergiewert r0 durch die VADDNR 50 berechnet wird, müssen keinerlei Teile des codierten Sprachbitstroms b der VADDNR 50 zugeführt werden, und die in Fig. 1 gezeigte Signalleitung 35 würde nicht vorliegen. Stattdessen würde die VADDNR 50 nur den decodierten Sprachbitstrom s verarbeiten, und der Rahmenenergiewert r0 würde wie in VSELP Standard, Seiten 16-17, beschrieben, berechnet. Indem über die Signalleitung 35 aus dem codierten Bitstrom b der VADDNR 50 r0 zugeführt wird, kann die VADDNR jedoch den decodierten Sprachbitstrom s schneller verarbeiten, weil sie r0 nicht berechnen muss.

Das Mittelwertsignal e[m] der Rahmenenergie, das durch den Energieabschätzer 210 erzeugt wird, stellt die in dem empfangenen Sprachsignal vorliegende mittlere akustische Gesamtenergie dar. Diese akustische Gesamtenergie kann sowohl Sprache als auch Rauschen umfassen. Als ein Beispiel zeigt Fig. 3 eine Kurvenform, die die akustische Gesamtenergie eines typischen empfangenen Signals 310 über der Zeit T darstellt. In einer Mobilumgebung besteht in der Regel ein bestimmter Pegel von Umgebungs-Hintergrundrauschen. Der Energiepegel dieses Rauschens ist in Fig. 3 als e&sub1; gezeigt. Wenn Sprache in dem Signal 310 vorliegt, stellt der akustische Energiepegel sowohl Sprache als auch Rauschen dar. Dies ist in Fig. 3 in dem Bereich gezeigt, in dem die Energie > e&sub2; ist. Während des Zeitintervalls t&sub1; liegt in dem Signal 310 keine Sprache vor, und die akustische Energie während dieses Zeitintervals t&sub1; stellt nur Umgebungs- Hintergrundrauschen dar. Während des Zeitintervals t&sub2; liegt Sprache in dem Signal 310 vor, und die akustische Energie während dieses Zeitintervalls t&sub2; stellt Umgebungs-Hintergrundrauschen plus Sprache dar.

Mit Bezug auf Fig. 2 wird das durch den Energieabschätzer 210 erzeugte Ausgangssignal e[m] einem Rauschabschätzer 220 zugeführt, der den mittleren Hintergrund-Rauschpegel in dem decodierten Sprachbitstrom s bestimmt. Der Rauschabschätzer 220 erzeugt ein Signal N[m], das einen

Rauschabschätzungswert darstellt, wobei:

Ninit für m = 0

N[m] = N[m-1] für e[m] > N[m-1] + Nthresh

β * e[m] + (1-β) * N[m-1] andernfalls

Anfänglich wird N[m] auf den Anfangswert Ninit eingestellt, bei dem es sich um eine anfängliche Rauschabschätzung handelt. Während der weiteren Verarbeitung nimmt der Wert N[m] auf der Grundlage des tatsächlichen, in dem decodierten Sprachbitstrom s vorliegenden Hintergrundrauschen zu oder ab. Ninit wird auf einen Wert eingestellt, der auf der Grenze zwischen mäßigem und starkem Hintergrundrauschen liegt. Die Initialisierung von N[m] auf diesen Wert ermöglicht, dass sich N[m] schneller in beiden Richtungen, wie durch das tatsächliche Hintergrundrauschen bestimmt, anpasst. Die Autoren haben festgestellt, dass es in einer Mobilumgebung vorzuziehen ist, Ninit auf einen r0-Wert von 13 einzustellen.

Die Sprachkomponente der Signalenergie sollte bei der Berechnung des mittleren Hintergrundrauschpegels nicht mit eingeschlossen werden. Zum Beispiel sollte, mit Bezug auf Fig. 3, der Energiepegel, der während des Zeitintervalls t&sub1; in dem Signal 310 vorliegt, bei der Berechnung der Rauschabschätzung N[m] mit eingeschlossen werden, aber der während des Zeitintervalls t&sub2; in dem Signal 310 vorliegende Energiepegel sollte nicht mit eingeschlossen werden, weil die Energie während des Zeitintervalls t&sub2; sowohl Hintergrundrauschen als auch Sprache darstellt.

Somit sollte jede mittlere Rahmenenergie e[m], die aus dem Energieabschätzer 210 empfangen wird, die sowohl Sprache als auch Rauschen darstellt, von der Berechnung der Rauschabschätzung N[m] ausgeschlossen werden, um zu verhindern, dass die Rauschabschätzung N[m] beeinflusst wird. Zum Ausschluss von Werten der mittleren Rahmenenergie e[m], die sowohl Sprache als auch Rauschen darstellen, wird ein oberer Rausch- Begrenzungsschwellenwert Nthresh verwendet. Wie oben erwähnt gilt somit N[m] = N[m-1], wenn e[m] > N[m-1] + Nthresh gilt. Anders ausgedrückt wird das N[m] gegenüber der Berechnung des vorherigen Rahmens nicht verändert, wenn die mittlere Rahmenenergie e[m] des aktuellen Rahmens um einen Betrag, der größer oder gleich Nthresh ist, größer als die Rauschabschätzung N[M-1] des vorherigen Rahmens ist, d. h. Sprache vorliegt. Wenn eine große Zunahme der Rahmenenergie über eine kurze Zeitspanne vorliegt, wird somit angenommen, dass diese Zunahme auf das Vorliegen von Sprache zurückzuführen ist, und die Energie wird nicht in der Rauschabschätzung mit eingeschlossen. Die Autoren haben festgestellt, dass es optimal ist, Nthresh auf den Gegenwert eines r0-Werts der Rahmenenergie von 2,5 einzustellen. Dadurch wird der Betriebsbereich des Rauschabschätzungsalgorithmus auf Umstände mit einem Verhältnis von Audiosignal zu Rauschen von besser als 5 dB beschränkt, da r0 in Einheiten von 2 dE skaliert ist. Nthresh könnte für eine annehmbare Leistung des Rauschabschätzers 220 auf einen beliebigen Wert im Bereich von 2 bis 4 eingestellt werden.

Wenn keine große Zunahme der Rahmenenergie über eine kurze Zeitspanne vorliegt, dann wird die Rauschabschätzung durch die Gleichung N[m] = β * e[m] + (1-β) * N[m-1] bestimmt, wobei β eine Glättungskonstante ist, die so eingestellt werden sollte, dass eine annehmbare Rahmenmittelwertbildung bereitgestellt wird. Ein Wert von 0,05 für β, der eine Rahmenmittelwertbildung über 25 Rahmen (500 ms) ergibt, hat sich als günstig erwiesen. Der Wert von β sollte im Allgemeinen im Bereich von 0,025 ≤ β ≤ 0,1 eingestellt werden.

Der durch den Rauschabschätzer 220 berechnete Rauschabschätzungswert N[m] wird einem Hochpassfiltertreiber 260 zugeführt, der den decodierten Bitstromsignal s verarbeitet, der aus dem Sprachdecodierer 40 bereitgestellt wird. Wie oben besprochen, enthält jeder digitale Informationsrahmen 160 Abtastwerte von Sprachdaten. Der Hochpassfiltertreiber 260 verarbeitet jeden dieser Abtastwerte s[i], wobei i ein Abtastindex ist. Der Hochpassfiltertreiber 260 ist in Fig. 4 ausführlicher gezeigt. Der Rauschabschätzungswert N[m], der durch den Rauschabschätzer 220 erzeugt wird, wird dem Logikblock 410 zugeführt, der Logikschaltkreise enthält, um zu bestimmen, welches einer Menge von Hochpassfiltern zur Filterung jedes Abtastwerts s[i] des decodierten Sprachbitstroms s verwendet wird. Es gibt zwei Hochpassfilter 430 und 440. Das Filter 430 besitzt eine Grenzfrequenz bei 200 Hz und das Filter 440 besitzt eine Grenzfrequenz bei 350 Hz. Diese Grenzfrequenzen wurden bestimmt, um optimale Ergebnisse zu liefern, es können jedoch auch andere Werte gemäß der vorliegenden Erfindung verwendet werden. Die Differenz der Grenzfrequenzen zwischen den Filtern sollte vorzugsweise mindestens 100 Hz betragen. Zur Bestimmung, welches Filter verwendet werden sollte, vergleicht der Logikblock 410 des Hochpassfiltertreibers 260 den Rauschabschätzungswert N[m] mit zwei Schwellen. Die erste Schwelle wird auf einen Wert gesetzt, der einem Rahmenenergiewert r0 = 7 entspricht (entsprechend -52 dE), und die zweite Schwelle wird auf einen Wert gesetzt, der einem Rahmenenergiewert r0 = 13 entspricht (entsprechend -40 dE). Wenn die Rauschabschätzung N[m] kleiner als r0 = 7 ist, dann wird keine Hochpassfilterung angewandt. Wenn der Rauschabschätzungwert N[m] größer oder gleich r0 = 7 und kleiner als r0 = 13 ist, dann wird das 200 Hz- Hochpassfilter 430 angewandt. Wenn der Rauschabschätzungswert N[m] größer oder gleich r0 = 13 ist, dann wird das 350 Hz-Hochpassfilter 440, angewandt. Die Logik zur Bestimmung der anzuwendenden Hochpassfilterung kann folgendermaßen zusammengefasst werden:

Allpass für N[m] < 7

Filter = Hochpass bei 200 Hz für 7 ≤ N[m] < 13

Hochpass bei 350 Hz für N[m] ≥ 13

Mit Bezug auf Fig. 4 wird diese Logik durch den Logikblock 410 ausgeführt. Der Logikblock 410 bestimmt, welches Filter angewandt werden soll, auf der Grundlage der obigen Regeln und liefert ein Steuersignal c[m] an die beiden Kreuzschalter 420, 450. Ein Steuersignal, das einem Wert von 0 entspricht, zeigt an, daß keine Hochpassfilterung angewandt werden sollte. Ein Steuersignal, das einem Wert von 1 entspricht, zeigt an, dass das 200 Hz-Hochpassfilter angewandt werden soll. Ein Steuersignal, das einem Wert von 2 entspricht, zeigt an, dass das 350 Hz-Hochpassfilter angewandt werden soll.

Das Signal s[i] wird dem Kreuzschalter 420 aus dem Sprachdecodierer 40 zugeführt. Der Kreuzschalter 420 lenkt das Signal s[i] zu der entsprechenden Signalleitung 421, 422, 423 zur Auswahl der entsprechenden Filterung. Ein Steuersignal von 0 lenkt das Signal s[i] zu der Signalleitung 421. Die Signalleitung 421 liefert das Signal s[i] ohne Filterung an den Kreuzschalter 450. Ein Steuersignal von 1 lenkt das Signal s[i] zu der Signalleitung 422, die mit dem Hochpassfilter 430 verbunden ist. Nachdem das Signal s[i] durch das Hochpassfilter 430 gefiltert wurde, wird es über die Signalleitung 424 dem Kreuzschalter 450 zugeführt. Ein Steuersignal von 2 lenkt das Signal s[i] zu der Signalleitung 423, die mit dem Hochpassfilter 440 verbunden ist. Nachdem das Signal s[i] durch das Hochpassfilter 440 gefiltert wurde, wird es über die Signalleitung 425 dem Kreuzschalter 450 zugeführt. Das Steuersignal c[m] wird ebenfalls dem Kreuzschalter 450 zugeführt. Auf der Grundlage des Steuersignals c[m] liefert der Kreuzschalter 450 eines der Signale aus der Signalleitung 421, 424, 425 an den Sprachdämpfer 270. Dieses Signal, das durch den Hochpassfiltertreiber 260 erzeugt wird, wird als s'[i] identifiziert. Fachleute werden erkennen, dass eine beliebige Anzahl von Hochpassfiltern oder ein einziges Hochpassfilter mit einer kontinuierlich einstellbaren Grenzfrequenz in dem Hochpassfiltertreiber 260 verwendet werden könnte, um den decodierten Bitstrom s zu filtern. Die Verwendung einer größeren Zahl von Hochpassfiltern oder eines einzigen Hochpassfilters mit einer kontinuierlich einstellbaren Grenzfrequenz würde die Übergänge zwischen Filterauswahlen weniger merkbar werden lassen.

Mit Bezug auf Fig. 2 wird das durch den Hochpassfiltertreiber 260 erzeugte Signal s'[i] einer Sprachdämpfungs-/Comfort-Rauscheinfügungsvorrichtung 270 zugeführt. Die Sprachdämpfungs-/Comfort- Rauscheinfügungsvorrichtung 270 verarbeitet das Signal s'[i] zur Erzeugung des verarbeiteten decodierten Sprachbitstromausgangssignals s"[i]. Die Sprachdämpfungs-/Comfort-Rauscheinfügungsvorrichtung 270 empfängt außerdem das Eingangssignal n[i] aus einem geformten Rauschgenerator 250 und das Eingangssignal atten[m] aus einem Dämpferkalkulator 240. Die Arbeitsweise des Sprachdämpfungs-/Comfort- Rauscheinfügungsvorrichtung 270 wird nachfolgend ausführlich besprochen, und zwar nach einer Besprechung, wie seine Eingangssignale n[i] und atten[m] berechnet werden.

Die durch den Rauschabschätzer 220 erzeugte Rauschabschätzung N[m] und die durch den Energieabschätzer 210 erzeugte mittlere Rahmenenergie e[m] werden dem Sprachaktivitätsdetektor 230 zugeführt. Der Sprachaktivitätsdetektor 230 bestimmt, ob der aktuelle Rahmen des Sprachsignals Sprache enthält oder nicht und erzeugt ein Sprachdetektionssignal v[m], das anzeigt, ob Sprache vorliegt oder nicht. Ein Wert von 0 für v[m] zeigt an, dass keine Sprachaktivität in dem aktuellen Rahmen des Sprachsignals erkannt wird. Ein Wert von 1 für v[m] zeigt an, dass Sprachaktivität in dem aktuellen Rahmen des Sprachsignals erkannt wird. Die Arbeitsweise des Sprachaktivitätsdetektors 230 wird in Verbindung mit dem Flussdiagramm von Fig. 5 beschrieben. Im Schritt 505 bestimmt der Sprachaktivitätsdetektor 230, ob e[m] < N[m] + Tdetect gilt, wobei Tdetect eine niedrigere Rauschdetektionsschwelle ist, und gleicht funktionsmäßig dem oben in Verbindung mit Fig. 3 besprochenen Wert Nthresh. Es wird angenommen, dass Sprache nur dann vorliegen kann, wenn die mittlere Rahmenenergie e[m] um einen bestimmten Wert Tdetect größer als der Rauschabschätzungswert N[m] ist. Tdetect wird vorzugsweise auf einen r0-Wert von 2,5 eingestellt, d. h., Sprache kann nur dann vorliegen, wenn die mittlere Rahmenenergie e[m] um 5 dB größer als der Rauschabschätzungswert N[m] ist. Es können auch andere Werte verwendet werden. Der Wert von Tdetect sollte im Allgemeinen in dem Bereich von 2,5 +/- 0,5 liegen.

Um zu verhindern, dass der Sprachaktivitätsdetektor 230 in Worten angibt, dass keine Sprachaktivität vorliegt, wird ein Zähler Nent für unerkannte Rahmen verwendet. Nent wird auf Null initialisiert und so eingestellt, dass er bis zu einer Schwelle Nentthresh hochzählt, die die Anzahl von Rahmen darstellt, die keine Sprachaktivität enthalten, die vorliegen muss, bevor der Sprachaktivitätsdetektor 230 angibt, dass keine Sprachaktivität vorliegt.

Nentthresh kann auf einen Wert von sechs eingestellt werden. Somit deklariert der Sprachaktivitätsdetektor 230 nur dann, dass keine Sprache vorliegt, wenn sechs Rahmen lang (120 ms) keine Sprache erkannt wird. Wieder mit Bezug auf Fig. 5 wird, wenn der Schritt 505 bestimmt, dass e[m] < N[m] + Tdetect gilt, d. h. die mittlere Energie e [m] kleiner als die Energie ist, für die bestimmt wurde, dass Sprache vorliegen kann, Nent im Schritt 510 um Eins erhöht. Wenn der Schritt 515 bestimmt, dass Nent ≥ Nentthresh ist, d. h., dass in 6 Rahmen keine Sprache erkannt wurde, dann wird v[m] im Schritt 530 auf 0 gesetzt, um für den aktuellen Rahmen keine Sprache anzuzeigen. Wenn der Schritt 515 bestimmt, dass Nent < Nentthresh ist, d. h., dass es noch keine 6 Rahmen gegeben hat, in denen Sprache erkannt wurde, dann wird v[m] im Schritt 520 auf 1 gesetzt, um anzuzeigen, dass in dem aktuellen Rahmen Sprache vorliegt. Wenn der Schritt 505 bestimmt, dass e[m] ≥ N[m] + Tdetect gilt, d. h. die mittlere Energie e[m] größer oder gleich der Energie ist, für die bestimmt wurde, dass Sprache vorliegen kann, dann wird Nent im Schritt 525 auf Null gesetzt und v[m] wird im Schritt 520 auf Eins gesetzt, um anzuzeigen, dass in dem aktuellen Rahmen Sprache vorliegt.

Das durch den Sprachaktivitätsdetektor 230 erzeugte Sprachdetektionssignal v[m] wird dem Dämpferkalkulator 240 zugeführt, der ein Dämpfungssignal atten[m] erzeugt, das den Grad der Dämpfung des aktuellen Rahmens darstellt. Das Dämpfungssignal atten[m] wird für jeden Rahmen aktualisiert, und sein Wert hängt teilweise davon ab, ob der Sprachaktivitätsdetektor 230 Sprachaktivität erkannt hat oder nicht. Das Signal atten[m] stellt einen bestimmten Wert zwischen 0 und 1 dar. Je näher bei 1, desto geringer die Dämpfung des Signals, und je näher bei 0, desto größer die Dämpfung des Signals. Die maximale Dämpfung, die angewandt wird, wird als maxatten definiert, und es wurde bestimmt, dass der optimale Wert für maxatten 0,65 (d. h. -3,7 dB) beträgt.

Es können jedoch auch andere Werte für maxatten verwendet werden, wobei der Wert im Allgemeinen im Bereich von 0,3 bis 0,8 liegt. Der Faktor, um den die Dämpfung des Sprachsignals erhöht wird, ist als attenrate definiert, und der bevorzugte Wert für attenrate hat sich als 0,98 herausgestellt. Es können jedoch auch andere Werte für attenrate verwendet werden, wobei der Wert im Allgemeinen im Bereich von 0,95 +/- 0,04 liegt.

In diesem Abschnitt soll die Berechnung des Dämpfungssignals atten[m] beschrieben werden. Die Verwendung von atten[m] bei der Dämpfung des Signals s'[i] wird während der nachfolgenden Besprechung in Verbindung mit der Sprachdämpfungs-/Comfort- Rauscheinfügungsvorrichtung 270 deutlich. Das Dämpfungssignal atten[m] wird folgendermaßen berechnet. Anfänglich wird das Dämpfungssignal atten[m] auf 1 eingestellt. Nach dieser Initialisierung wird atten[m] auf der Grundlage davon berechnet, ob Sprache vorliegt, was durch den Sprachaktivitätsdetektor 230 bestimmt wird, und ob die Dämpfung die durch maxatten definierte maximale Dämpfung erreicht hat. Wenn v[m] 1 ist, d. h. Sprache erkannt wird, dann wird atten[m] auf 1 eingestellt. Wenn v[m] = 0 ist, d. h. keine Sprache erkannt wird, und wenn der Dämpfungsfaktor, der auf die Dämpfung des vorherigen Rahmens angewandt wird (attenrate * atten[m-1]) größer als die maximale Dämpfung ist, dann wird die Dämpfung des aktuellen Rahmens berechnet, indem der Dämpfungsfaktor auf die Dämpfung des vorherigen Rahmens angewandt wird. Wenn v[m] = 0 ist, d. h. keine Sprache erkannt wird, und wenn der Dämpfungsfaktor, der auf die Dämpfung des vorherigen Rahmens angewandt wird, kleiner oder gleich der maximalen Dämpfung ist, dann wird die Dämpfung des aktuellen Rahmens auf die maximale Dämpfung eingestellt. Diese Berechnung der Dämpfung des aktuellen Rahmens wird folgendermaßen zusammengefasst:

1,0 für m = 0 oder v[m] = 1

atten[m] = attenrate * atten[m-1] für attenrate * atten[m-1] > maxatten

und v[m] = 0 maxatten für attenrate * atten[m-1] ≤maxatten

und v[m] = 0

Wenn der Sprachaktivitätsdetektor 230 keine Sprache erkennt, wird somit das Dämpfungssignal atten[m] um einen konstanten Faktor 0,98 von 1 auf 0,65 (maxatten) reduziert. Das aktuelle Rahmendämpfungssignal atten[m], das durch den Dämpfungskalkulator 240 erzeugt wird, wird der Sprachdämpfungs-/Comfort-Rauscheinfügungsvorrichtung 270 zugeführt.

Die Sprachdämpfungs-/Comfort-Rauscheinfügungsvorrichtung 270 empfängt außerdem das Signal n[i], das tiefpassgefiltertes weißes Rauschen darstellt, von dem geformten Rauschgenerator 250. Dieses tiefpassgefilterte weiße Rauschen wird auch als Comfort-Rauschen bezeichnet. Der geformte Rauschgenerator 250 empfängt die Rauschabschätzung N[m] von dem Rauschabschätzer 220 und erzeugt das Signal n[i], das das geformte Rauschen darstellt, und zwar folgendermaßen:

n[i] = ε * wn[i] + (1-ε) * n[i-1], wobei

wn[i] = δ * dB2lin (N[m]) * ran[i]

wobei i wie oben besprochen der Abtastindex ist. Somit wird n[i] für jeden Abtastwert in dem aktuellen Rahmen erzeugt. Die Funktion dB2lin bildet die Rauschabschätzung N[m] von einem dE- auf einen linearen Wert ab. Der Skalierungsfaktor δ wird auf einen Wert von 1,7 eingestellt, und der Filterkoeffizient ε wird auf einen Wert von 0,1 eingestellt. Die Funktion ran[i] erzeugt eine Zufallszahl zwischen -1,0 und 1,0. Somit wird das Rauschen unter Verwendung der Rauschabschätzung N[m] skaliert und dann durch ein Tiefpassfilter gefiltert. Die oben angegebenen Werte für den Skalierungsfaktor δ und den Filterkoeffizient ε haben sich als optimal erwiesen. Es können jedoch auch andere Werte verwendet werden, wobei der Wert von δ im Allgemeinen im Bereich von 1,5 bis 2,0 und der Wert s im Allgemeinen im Bereich 0,05 bis 0,15 liegt.

Das durch den geformten Rauschgenerator 220 erzeugte tiefpassgefilterte weiße Rauschen n[i] und die durch den Dämpfungskalkulator 240 erzeugte Dämpfung atten[m] des aktuellen Rahmens werden der Sprachdämpfungs-/Comfort-Rauscheinfügungsvorrichtung 270 zugeführt. Der Sprachdämpfer empfängt das hochpassgefilterte Signal s'[i] von dem Hochpassfiltertreiber 260 und erzeugt den verarbeiteten dekodierten Sprachbitstrom s" gemäß der folgenden Gleichung:

s"[i] = atten[m] * s'[i] + (1-atten[m]) * n[i],

für i = 0, 1 ..., 159

Für jeden Abtastwert s'[i] in dem hochpassgefilterten Sprachsignal s' dämpft die Sprachdämpfungs-/Comfort- Rauscheinfügungsvorrichtung 270 somit den Abtastwert s'[i] um das Dämpfungswert atten[m] des aktuellen Rahmens. Gleichzeitig fügt die Sprachdämpfungs- /Comfort-Rauscheinfügungsvorrichtung 270 außerdem auf der Grundlage des Werts von atten[m] das tiefpassgefilterte weiße Rauschen n[i] ein. Wie aus der obigen Gleichung ersichtlich ist, gibt es keine Dämpfung, wenn atten [m] = 1 ist, und s"[i] = s' [i]. Wenn atten [m] = maxatten (0,65) ist, dann ist s"[i] = < 0,65 * hochpassgefiltertes Sprachsignal) + (0,35 * tiefpassgefiltertes weißes Rauschen). Die Auswirkung der Dämpfung des Signals s'[i] plus die Einfügung des tiefpassgefilterten weißen Rauschens (Comfort- Rauschens) besteht darin, ein glatteres Hintergrundrauschen mit weniger wahrgenommenem Swirl bereitzustellen. Das durch die Sprachdämpfungs- /Comfort-Rauscheinfügungsvorrichtung 270 erzeugte Signal s"[i] kann dem Digital/Analog-Umsetzer 60 oder einer anderen Einrichtung zugeführt werden, die das Signal wie oben besprochen in ein anderes digitales Datenformat umsetzt.

Wie oben besprochen wirken der Dämpfungskalkulator 240, der geformte Rauschgenerator 250 und die Sprachdämpfungs-/Comfort- Rauscheinfügungsvorrichtung 270 zusammen, um das Hintergrund-Swirl zu reduzieren, wenn keine Sprache in dem empfangenen Signal vorliegt. Diese Elemente könnten als eine einzige Rauschkorrekturvorrichtung betrachtet werden, die in Fig. 2 in den gestrichelten Linien als 280 gezeigt ist. Diese Rauschkorrekturvorrichtung 280 empfängt das Sprachdetektionssignal v[m] aus dem Sprachaktivitätsdetektor 230, die Rauschabschätzung N[m] aus dem Rauschabschätzer 220 und das hochpassgefilterte Signal s'[i] aus dem Hochpassfiltertreiber 260 und erzeugt den verarbeiteten decodierten Sprachbitstrom s"[i] wie oben besprochen.

Eine geeignete VADDNR 50 gemäß der obigen Beschreibung könnte wie in Fig. 6 gezeigt in einem Mikroprozessor implementiert werden. Der Mikroprozessor (u) 610 ist über eine Datenleitung 621 und eine Adressleitung 622 mit einem nichtflüchtigen Speicher 620, beispielsweise einem ROM, verbunden. Der nichtflüchtige Speicher 620 enthält einen Programmcode zur Implementierung der Funktionen der VADDNR 50 wie oben besprochen. Der Mikroprozessor 610 ist außerdem über die Datenleitung 631 und die Adressleitung 632 mit einem flüchtigen Speicher 630, wie zum Beispiel einem RAM, verbunden. Der Mikroprozessor 610 empfängt den decodierten Sprachbitstrom s aus dem Sprachdecodierer 40 auf der Signalleitung 612 und erzeugt einen verarbeiteten decodierten Sprachbitstrom s". Wie oben besprochen wird bei einer Ausführungsform der vorliegenden Erfindung der Energiewert r0 VSELPcodierter Rahmen aus dem codierten Sprachbitstrom b der VADDNR 50 zugeführt. Dies ist in Fig. 6 durch die Signalleitung 611 gezeigt. Bei einer alternativen Ausführungsform berechnet die VADDNR den Rahmenenergiewert r0 aus dem decodierten Sprachbitstrom s, und die Signalleitung 611 würde nicht vorliegen.

Es versteht sich, dass die hier gezeigten und beschriebenen Ausführungsformen und Varianten lediglich Beispiele der Erfindung sind und dass Fachleute verschiedene Modifikationen implementieren können.

Im Verlauf der vorliegenden Beschreibung wurden verschiedene bevorzugte Werte und Bereiche von Werten offengelegt. Es versteht sich jedoch, dass diese Werte mit der Verwendung der vorliegenden Erfindung in einer Mobilumgebung zusammenhängen. Fachleute werden erkennen, dass die hier offengelegte Erfindung in verschiedenen Umgebungen verwendet werden kann, wobei Werte und Bereiche von Werten von den hier besprochenen abweichen können.


Anspruch[de]

1. Vorrichtung (50) zum Verarbeiten eines empfangenen Signals, das eine Sprachkomponente und eine Rauschkomponente umfasst, wobei die Vorrichtung folgendes umfasst:

einen Energieabschätzer (210) zum Erzeugen eines Energiesignals (e(m)), das die akustische Energie des empfangenen Signals (r0(m)) darstellt;

einen Rauschabschätzer (220) zum Empfangen des Energiesignals und zum Erzeugen eines Rauschabschätzungssignals (N(m)), das das mittlere Hintergrundrauschen in dem empfangenen Signal darstellt;

einen Sprachaktivitätsdetektor (230) zum Empfangen des Rauschabschätzungssignals und des Energiesignals und zum Erzeugen eines Sprachdetektionssignals (V(m)), das darstellt, ob Sprache in dem empfangenen Signal vorliegt; und

eine Rauschkorrekturvorrichtung (280), die auf das Rauschabschätzungssignal und das Sprachdetektionssignal reagiert, zum Verarbeiten des empfangenen Signals, wenn das Sprachdetektionssignal anzeigt, das keine Sprache in dem empfangenen Signal vorliegt, und zum Erzeugen eines verarbeiteten Signals,

wobei das verarbeitete Signal folgendes umfasst:

eine erste Komponente, die ein gedämpftes empfangenes Signal umfasst; und

eine zweite Komponente, die ein Comfort- Rauschsignal umfasst.

2. Vorrichtung nach Anspruch 1, wobei der Sprachdetektor ein Sprachdetektionssignal erzeugt, das nur dann anzeigt, dass keine Sprache vorliegt, wenn eine vorbestimmte Zeitspanne lang keine Sprache in dem empfangenen Signal erkannt wird.

3. Vorrichtung nach Anspruch 1, wobei das Comfort- Rauschen tiefpassgefiltertes weißes Rauschen umfasst.

4. Vorrichtung nach Anspruch 1, wobei die Rauschkorrekturvorrichtung weiterhin folgendes umfasst:

einen Dämpfungskalkulator (240) zum Empfangen des Sprachdetektionssignals und zum Erzeugen eines gedämpften Signals (atten(m)), das die Dämpfung darstellt, die auf das empfangene Signal angewandt werden soll;

einen geformten Rauschgenerator (250) zum Empfangen des Rauschabschätzungssignals und zum Erzeugen des Comfort-Rauschsignals (n(i)); und

eine Sprachdämpfungs-/Comfort-Rauscheinfügungsvorrichtung (270), die auf das Comfort-Rauschsignal und das Dämpfungssignal reagiert, zum Empfangen des empfangenen Signals und zum Dämpfen des empfangenen Signals und zum Einfügen des Comfort-Rauschsignals in das empfangene Signal.

5. Vorrichtung nach Anspruch 4, wobei das Comfort- Rauschsignal tiefpassgefiltertes weißes Rauschen darstellt, das auf der Grundlage des Rauschabschätzungssignals skaliert wird.

6. Vorrichtung nach Anspruch 1, mit Mitteln zum Empfangen eines codierten Signals, das Sprache und Rauschen darstellt, und Mitteln zum Decodieren des codierten Signals zur Erzeugung des empfangenen Signals.

7. Verfahren zum Verarbeiten eines empfangenen Signals, das Sprache und Rauschen darstellt, mit den folgenden Schritten:

Erzeugen eines Energiewerts, der die akustische Energie des empfangenen Signals darstellt;

Erzeugen eines Rauschabschätzungswerts, der das mittlere Hintergrundrauschen in dem empfangenen Signal darstellt;

Erzeugen von Comfort-Rauschen auf der Grundlage des Rauschabschätzungswerts;

Bestimmen, ob das empfangene Signal eine Sprachkomponente enthält, auf der Grundlage des Energiewerts und des Rauschabschätzungswerts; und

Erzeugen eines verarbeiteten Signals, wenn das empfangene Signal keine Sprachkomponente enthält;

wobei der Schritt des Erzeugens eines verarbeiteten Signals die folgenden Schritte umfasst:

Dämpfen des Signals; und

Einfügen des Comfort-Rauschens in das Signal.

8. Verfahren nach Anspruch 7, wobei ein hochpassgefiltertes Signal erzeugt wird, indem das empfangene Signal auf der Grundlage des Rauschabschätzungswerts an eines von mehreren Hochpassfiltern angelegt wird; und das hochpassgefilterte Signal anstelle des empfangenen Signals als Eingangssignal für den Schritt des Erzeugens eines verarbeiteten Signals verwendet wird.

9. Verfahren nach Anspruch 8, wobei die Differenz der Grenzfrequenzen jedes der mehreren Hochpassfilter mindestens 100 Hz beträgt.







IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com