PatentDe  


Dokumentenidentifikation DE19806015C2 23.12.1999
Titel Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen
Anmelder Siemens AG, 80333 München, DE
Erfinder Schmidt, Gerhard, 63303 Dreieich, DE
DE-Anmeldedatum 13.02.1998
DE-Aktenzeichen 19806015
Offenlegungstag 26.08.1999
Veröffentlichungstag der Patenterteilung 23.12.1999
Veröffentlichungstag im Patentblatt 23.12.1999
IPC-Hauptklasse H04M 1/58
IPC-Nebenklasse H04M 1/60   H04M 9/08   H03H 21/00   

Beschreibung[de]

Die vorliegende Erfindung betrifft ein Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen mit einer Pegelwaage, einer frequenzselektiven, steuerbaren Echokompensation mit Teilbandverarbeitung und einer Restfehlernachfilterung.

Bei Freisprecheinrichtungen ist es unbedingt erforderlich, die vom Lautsprecher ausgesandten und damit vom Mikrofon wieder aufgenommenen Signale des entfernten Teilnehmers zu unterdrücken, da sonst unangenehme Echos die Verbindung stören. Bisher wurde zur Unterdrückung dieser Echos, also zur akustischen Rückhördämpfung, üblicherweise eine Pegelwaage vorgesehen, die abhängig von der Gesprächssituation den Sende- oder den Empfangspfad stark dämpft. Dadurch wird jedoch ein Gegensprechen (Voll-Duplex-Betrieb) praktisch unmöglich.

Mit der bisherigen Technik wurde bereits versucht, eine ausreichende Rückhördämpfung trotz akzeptabler Gegensprechbetriebseigenschaften zur Verfügung zu stellen. Hierzu wurde zusätzlich zu der Pegelwaage eine frequenzselektive, steuerbare Echokompensation vorgesehen. Diesbezüglich wird auf die noch unveröffentlichte Patentanmeldung DE 197 14 966 der Anmelderin verwiesen. Andere Verfahren sind beispielsweise dem Werbeprospekt der Firma NEC "RefleXionTM Acoustic Echo Canceller on the µPD7701x Family", 1996, oder aus der Beschreibung des Motorola DSP5600x Digitalprozessors (M. Knox, P. Abbot, Cyox: A Highly Integrated H320 Audiosubsystem using the Motorola DSP5600x Digitalprozessor" beschrieben. Auch diese Verfahren können jedoch bei den langen Signallaufzeiten von Videokonferenzverbindungen bzw. bei GSM-Verbindungen keine ausreichende Echounterdrückung bieten, wenn gleichzeitig ein Gegensprechen möglich sein soll.

Es wurde daher bereits vorgeschlagen, eine zusätzliche Nachfilterung nach der frequenzselektiven Echokompensation mit Teilbandverarbeitung vorzusehen. Eine solche Nachfilterung ist beispielsweise in dem Artikel "V. Turbin, A. Gilloire, P. Scalart: Comparison Of Three Post-Filtering Algorithmus For Residual Acoustic Echo Reduction" ICASSP97, International Workshop on Acoustic Speech and Signal Processing, München 1997, oder aus dem Artikel von R. Martin "An improved Echo-shape Algorithm for Acoustic Echo Control", EUSIPCO96, 8th European Signal Processing Conference, Triest, Italien, 1996, bekannt. Diese Konzepte ließen sich bisher nur schwer verwirklichen, da ja sowohl für die Echokompensation mit Teilbandverarbeitung als auch für die Nachfilterung eine digitale Signalverarbeitung vorzusehen ist, und die dafür erforderlichen Rechenleistungen vor den derzeit verfügbaren Prozessoren nicht mit angemessenem Aufwand erbracht werden können.

Es ist daher Aufgabe der Erfindung, ein Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen anzugeben, bei dem der Rechenaufwand so minimiert ist, daß sowohl eine frequenzselektive Echokompensation mit Teilbandverarbeitung als auch die erforderliche Nachfilterung auf gebräuchlichen "Consumer-Prozessoren" verwirklicht werden können. Diese Aufgabe wird gelöst mit einem Verfahren mit den Merkmalen von Patentanspruch 1. Vorteilhafte Ausgestaltungen diese Verfahrens sind in den Unteransprüchen angegeben.

Nach der Erfindung wird daher lediglich eine einzige Steuergröße, nämlich der Schrittweitenvektor, sowohl für die Steuerung der frequenzselektiven Echokompensation, als auch für die Steuerung des weiteren Filters verwendet. Vorzugsweise können dabei mehrere unterschiedliche Abtastraten verwendet werden. Dadurch kann der Rechenaufwand weiter verringert werden.

Ebenso ist es bevorzugt, sowohl für die Echokompensation als auch für das weitere Filter adaptive Filter zu verwenden.

Die Echokompensation wird vorzugsweise mittels einer Filterbank in Frequenzteilbändern implementiert.

Vorzugsweise werden für die Adaptions- bzw. die Schrittweitentsteuerung sowohl leistungsbasierende Schätzungen als auch korrelationsbasierende Analysen verwendet.

Ebenso ist es bevorzugt, zur Schrittweitenbestimmung Leistungsübertragungsfaktoren in Teilbändern zu schätzen.

Ebenso ist es bevorzugt, daß sowohl die Echokompensatoren als auch die Restfehlernachfilterung die Schätzwerte für die durch sie eingebrachte Echodämpfung liefern, da diese Schätzwerte bevorzugt zur Steuerung der Dämpfung der Pegelwaage verwendet werden können. Dadurch kann die von der Pegelwaage einzubringende Dämpfung weiter reduziert und damit die Gesprächsqualität beim Gegensprechen weiter verbessert werden.

Zusätzlich ist es bevorzugt, die gleichzeitige Aktivität beider Gesprächsteilnehmer (Gegensprechen) zu detektieren. Es ist dann beispielsweise möglich, die Gesamtdämpfung der Pegelwaage im Gegensprechfall zu reduzieren, um die Gegensprechfähigkeit (Full-Duplex-Betrieb) der Freisprecheinrichtung weiter zu verbessern.

Die vorliegende Erfindung wird im folgenden anhand des in den beigefügten Zeichnungen dargestellten Ausführungsbeispiels näher beschrieben. Es zeigt:

Fig. 1 ein vereinfachtes Modell einer Freisprecheinrichtung mit Anschluß an eine digitale Verbindung;

Fig. 2 ein Blockschaltbild der erfindungsgemäßen Freisprecheinrichtung;

Fig. 3 Kurven für die Dämpfungsanforderungen an die Freisprecheinrichtung in Abhängigkeit von der Echolaufzeit;

Fig. 4 eine Übersichtsdarstellung des erfindungsgemäßen Verfahrens;

Fig. 5 die Struktur der Adaption der Teilbandechokompensatoren;

Fig. 6 eine Modellvorstellung für die Leistungsübertragungsfaktoren;

Fig. 7 eine Darstellung der Signale des fernen und des lokalen Teilnehmers anhand derer im folgenden das erfindungsgemäße Verfahren erläutert wird;

Fig. 8 die daraus resultierende Anregung und der gestörte Fehler im Band 1;

Fig. 9 den geschätzten Leistungsübertragungsfaktor unter den Bedingungen gem. Fig. 7 und 8 im Band 1;

Fig. 10 die von der Schrittweitensteuerung gewählte Schrittweite im Band 1 unter den Bedingungen gem. Fig. 7 und 8;

Fig. 11 die erfindungsgemäße Glättung der Dämpfungsabsenkung;

Fig. 12 eine Detaildarstellung der Nachfilterung des Fehlersignals;

Fig. 13 die erfindungsgemäße Glättung der Schrittweiten (Teil A für gleiche Zeitkonstanten, Teil B für unterschiedliche Zeitkonstanten);

Fig. 14 ein weiteres Beispiel für die Signale des fernen und des lokalen Teilnehmers, die in den weiteren Figuren der Verarbeitung zugrunde liegen;

Fig. 15 den Abgleichverlauf und die Dämpfung durch das weitere Filter im Band 1;

Fig. 16 die Dämpfung durch das weitere Filter in Band 1;

Fig. 17 die Übergabe der Dämpfungswerte an die Pegelwaage; und

Fig. 18 die Anregungs- und Fehlerleistung im Gesamtband (jeweils für den Eingangssignalverlauf gem. Fig. 14).

In Fig. 1 ist ein vereinfachtes Modell einer Freisprecheinrichtung 10 mit Anschluß an eine digitale Verbindung 12 dargestellt. Die im europäischen ISDN-Netz verwendete A-Law- Codierung bzw. Decodierung ist in den beiden linken Blöcken 14, 16 dargestellt. Auf der rechten Seite ist das Lautsprecher- Raum-Mikrophonsystem 18 (LRM-System) mit dem lokalen Gesprächsteilnehmer 20, dem Benutzer der Freisprecheinrichtung, skizziert.

Durch die akustische Kopplung zwischen Lautsprecher und Mikrophon kommt es zum Übersprechen über das LRM-System. Dieses Übersprechen wird vom fernen Teilnehmer als störendes Echo wahrgenommen. Akustische Wellen treten dabei aus dem Lautsprecher aus und breiten sich im Raum aus. Durch Reflexion an den Wänden und anderen sich im Raum befindlichen Gegenständen entstehen mehrere Ausbreitungspfade, durch die unterschiedliche Laufzeiten des Lautsprechersignals entstehen. Das Echosignal am Mikrophon besteht somit aus der Überlagerung einer Vielzahl von Echoanteilen und ggf. dem Nutzsignal n(t): dem lokalen Sprecher.

Auch die Verbindung zwischen den Teilnehmern kann an Übergängen zwischen verschiedenen Übertragungssystemen Echos erzeugen. Die Netzbetreiber versuchen jedoch, direkt an den kritischen Stellen besondere Maßnahmen gegen derartige Echoquellen zu treffen, so daß diese Echos hier außer Acht gelassen werden können. Auch Gabelechos, die in Telefonen mit analogem Interface durch Fehlanpassung der Leitungsnachbildung an die Leitungsimpedanz entstehen, können durch die Verwendung von digitalen Verbindungen außer Betracht gelassen werden.

In Fig. 2 ist eine Übersicht der erfindungsgemäßen Freisprecheinrichtung dargestellt. Zentrales Element ist eine Pegelwaage 22, welche im linken Teil der Fig. 2 dargestellt ist. Optional können zwei Verstärkungssteuerungen 24, 26 (Automatic Gain Control = AGC) in den Sende- und den Empfangspfad eingeschaltet werden. Die Pegelwaage 22 garantiert die durch die ITU- bzw. ETSI-Empfehlungen vorgeschriebenen Mindestdämpfungen, in dem sie abhängig von der Gesprächssituation Dämpfungen in den Sende- und/oder den Empfangspfad einfügt. Bei Aktivität des fernen Teilnehmers wird der Empfangspfad freigeschaltet und das Signal des fernen Teilnehmers wird ungedämpft auf dem Lautsprecher ausgegeben. Die bei abgeschalteten oder schlecht abgeglichenen Kompensatoren entstehenden Echos werden durch die in den Sendepfad eingefügte Dämpfung stark verringert. Bei Aktivität des lokalen Sprechers kehrt sich die Situation um. Während der Empfangspfad stark bedämpft wird, fügt die Pegelwaage 22 in den Sendepfad keine Dämpfung ein und das Signal des lokalen Sprechers wird ungedämpft übertragen. Schwieriger wird die Steuerung der Pegelwaage im Gegensprechfall. Hier erhalten beide Pfade (und damit auch die Teilnehmersignale) jeweils die Hälfte der einzufügenden Dämpfung oder bei nicht optimaler Steuerung wird zumindest einer der beiden Signalpfade gedämpft. Gegensprechen ist damit nicht oder nur eingeschränkt möglich.

Abhilfe schafft hier der Einsatz von adaptiven Echokompensatoren 28 - dargestellt im rechten Teil der Fig. 2. Diese versuchen das LRM-System digital nachzubilden, um dann den Echoanteil des fernen Teilnehmers aus dem Mikrophonsignal herauszurechnen. Je nachdem, wie gut die Kompensatoren dies bewerkstelligen, kann die durch die Pegelwaage einzufügende Gesamtdämpfung reduziert werden.

Die Echokomponsation wurde in Frequenzteilbändern implementiert, wobei die Breite der einzelnen Bänder vorzugsweise zwischen 250 Hz und 500 Hz bei 8 kHz Abtastrate bzw. zwischen 500 Hz und 1000 Hz bei 16 kHz Abtastrate liegt. Der Einsatz einer frequenzselektiven Echokompensation hat mehrere Vorteile. Zum einen kann durch Verwendung von Unter- und Überabtastung das System als Multiratensystem betrieben werden, wodurch sich der Berechnungsaufwand verringert. Zum anderen kann durch die Teilbandzerlegung die "Kompensationsleistung" unterschiedlich auf die einzelnen Frequenzbereiche verteilt werden und somit eine effektive Anpassung der "Kompensationsleistung" an Sprachsignale erreicht werden. Weiter hat die Teilbandverarbeitung eine dekorrelierende Wirkung, wenn die Gesamtbandverarbeitung mit den einzelnen Teilbandsystemen verglichen wird. Für Sprachsignale bedeutet dies eine Erhöhung der Konvergenzgeschwindigkeit der adaptiven Filter. Neben diesen Vorteilen darf der Nachteil einer Teilbandverarbeitung nicht außer Acht gelassen werden. Die Zerlegung eines Signals in einzelne Frequenzbereiche bewirkt stets eine Laufzeit - im vorliegenden bevorzugten Verfahren 32 ms bei 8 kHz Abtastrate bzw. 16 ms bei 16 kHz Abtastrate. Da das Verfahren jedoch für Videokonferenzen bzw. in GSM- Mobiltelephonen eingesetzt wird, sind solche Laufzeiten zulässig.

In Videokonferenzsystemen wird die Laufzeit hauptsächlich von der bildverarbeitenden Komponente bestimmt. Da im allgemeinen versucht wird, dem lokalen Teilnehmer Bild und Ton des fernen Teilnehmers lippensynchron auszugeben, kann sich die Laufzeit der akustischen Echos auf mehrere hundert Millisekunden erhöhen. In Fig. 3 sind die Ergebnisse einer Studie dargestellt, in der versucht wurde, herauszufinden, welche Echodämpfung abhängig von der Laufzeit dieses Echos notwendig ist, damit 90, 70 bzw. 50 Prozent der Befragten mit der Gesprächsqualität zufrieden waren.

Basierend auf dieser Studie sind bei der reinen Audiolaufzeit von 30-40 ms (bei 8 kHz Abtastrate) lediglich 35 dB Echodämpfung notwendig. Bei lippensynchroner Ausstrahlung von Bild und Ton und einer damit verbundenen Laufzeit von beispielsweise 300 ms erhöht sich die Anforderung auf 53 dB. Auch in GSM- Verbindungen kann die Laufzeit mehr als 100 ms betragen. Die Anforderungen, die an Echokompensationsverfahren in Videokonferenz- und GSM-Systemen gestellt werden, sind somit höher als die Anforderungen an herkömmliche Freisprechtelefone.

Da die Echokompensatoren in ihrer Leistungsfähigkeit begrenzt sind und derart hohe Echodämpfungen mit der zur Verfügung stehenden Hardware nicht erreichen können, wurde ein sog. Postfilter 30 eingeführt. Dieses wertet die Schrittweiten der einzelnen Teilbänder zusammen mit den anderen Detektorergebnissen aus und filtert das Synthesefilterausgangssignal nochmals frequenzselektiv. Da der Einstellalgorithmus des Filters 30 gemäß einem Wiener-Ansatz entworfen wurde, wird diese Postfilterung im folgenden auch mit Wiener-Filterung bezeichnet.

Die Steuerung der Echokompensatoren erfolgt in mehreren Stufen. Alle leistungsbasierenden Steuereinheiten 32 arbeiten für jeden Kompensator autonom, also unabhängig von den restlichen Frequenzbereichen. In Fig. 2 ist daher für jeden Kompensator eine eigene Adaptions- und Steuereinheit 32 skizziert. Die auf Korrelationsanalysen des Lautsprecher- und des Mikrophonsignals basierende Stufe der Steuerung wird zur Gegensprechdetektion verwendet und daher in allen Frequenzbereichen gleichermaßen ausgewertet. Eine weitere Stufe trägt der durch die Festkommaarithmetik begrenzten Genauigkeit Rechnung und steuert die Adaption in Abhängigkeit der Aussteuerung.

Die endgültige Gegensprecherkennung erfolgt ebenfalls gesondert mit einer eigenen Einheit, die sich sowohl auf die Detektoren der Pegelwaage als auch auf die der Echokompensatoren stützt. Diese Einheit veranlaßt die Pegelwaage in Gegensprechsituationen die einzufügende Gesamtdämpfung nochmals (gemäß der ITU- Empfehlung G. 167) zu reduzieren.

In Fig. 4 ist eine Übersichtsdarstellung des oben beschriebenen Zusammenhangs wiedergegeben. Zentrales Element ist hierbei die Berechnung des Schrittweitenvektors ≙(k). Dieser wird sowohl zur Steuerung der Teilbandechokompensatoren als auch zur Berechnung der Koeffizienten des Postfilters verwendet. Die beiden Teilverfahren berechnen jeweils die durch sie hervorgerufene Echodämpfung und teilen diese Informationen der Pegelwaage 22 mit. Die Waage 22 reduziert dann die vom Benutzer eingestellte Gesamtdämpfung und fügt nur noch die restliche Dämpfung in den Sende- bzw. den Empfangspfad ein.

Da sich die vorliegende Erfindung auf die Kombination der oben erwähnten Wiener-Filterung und der Adaptionssteuerung der Teilbandechokompensatoren bezieht, werden beide Verfahren in eigenen Kapiteln detailliert beschrieben. Neu an dem vorgestellten Ansatz ist die Verwendung einer einzigen Steuergröße - dem Schrittweitenvektor ≙(k) - für beide Verfahren. Durch den hierdurch verringerten Rechenaufwand (weniger 100 Zyklen/Abtasttakt für die Postfilterung) wird es ermöglicht, beide Verfahren auf preiswerten "Consumer"-Signalprozessoren zu implementieren und damit die Qualität der Freisprecheinrichtung zu erhöhen.

Bisherige Ansätze zur Fehlernachfilterung verwenden zunächst eine (aufwendige) FFT-Analyse bzw. andere rechenleistungsintensive Berechnungsverfahren und betrachten die Steuerung der Postfilterung stets getrennt von der Steuerung der Echokompensation.

Die für die Teilbandverarbeitung notwendige Frequenzbandanalyse und -synthese ist als Polyphasenfilterbank implementiert.

Zuerst wird - zunächst unabhängig von der späteren Verwendung innerhalb der Wiener-Filterung - eine Schrittweitensteuerung beschrieben, welche eine schnelle und stabile Adaption der Teilbandechokompensatoren gewährleistet. Zusätzlich werden Verfahren vorgestellt, welche die erreichte Echodämpfung schätzen. Die Pegelwaage 22 kann somit - basierend auf diesen Schätzwerten - die Gesamtdämpfung reduzieren. Für die Dämpfungsschätzung ist es dabei unerheblich, ob die Dämpfung von gut abgeglichenen Echokompensatoren, durch die akustische Anordnung von Lautsprecher und Mikrophon oder durch eine entsprechende Wahl der analogen Verstärkungen erreicht wird.

Die Adaption der Teilbandechokompensatoren wird mittels eines auf den verwendeten Signalprozessor angepaßten NLMS-Verfahrens durchgeführt. Um die Notation der folgenden Beschreibung zu erläutern, ist in Fig. 5 eine Strukturdarstellung des Adaptionsprozesses wiedergegeben.

Durch Faltung der geschätzten Teilbandimpulsantworten ≙(kr) mit den Teilbandanregungssignalen des fernen Teilnehmers ≙(kr) werden die geschätzten Mikrophonsignale ≙(kr) gebildet:





Der Index µ soll dabei die Teilbandnummer anzeigen. Durch Differenzbildung zwischen dem geschätzten und dem gemessenen Mikrophonsignal wird der Adaptionsfehler ≙(kr) berechnet:





Dieser Fehler setzt sich aus einem sog. ungestörten Fehler ≙(kr) und den durch den lokalen Sprecher hervorgerufene Anteil ≙(kr) zusammen:





Die Adaption erfolgt mittels einer Näherung des NLMS- Algorithmus





wobei mit F(χ) die bereits angesprochene Näherungsfunktion bezeichnet ist.

Die Koeffizienten der Teilbandechokompensatoren werden während des Betriebs der Freisprecheinrichtung mit den Adaptionsverfahren laufend an die Teilbandimpulsantworten des LRM-Systems angepaßt. Damit kann auch nach Systemänderungen eine Reduktion der akustischen Echos erreicht werden. Das Einstellkriterium für das verwendete Adaptionsverfahren ist die Minimierung des mittleren quadratischen Fehlers. Gemäß der Rechenvorschrift des NLMS-Algorithmus erfahren die Koeffizienten eine starke Änderung, wenn die Abtastwerte des kompensierten Signals ≙(kr) des µ-ten Teilbandes groß sind. Andauernd große Werte ≙(kr) können auf zwei Ursachen zurückgeführt werden:

  • 1. Nach Änderungen im LRM-System sind die adaptiven Filter schlecht an die Raum-Impulsantwort angepaßt. Es findet dann keine oder eine nur geringe Reduktion der akustischen Echos statt - die unkompensierten Echoanteile bewirken eine Vergrößerung der Signale ≙(kr). Die Kompensatoren sollten in solchen Situationen möglichst schnell angeglichen werden.
  • 2. Eine Erhöhung des lokalen Anteils n(k) - beispielsweise bei Aktivität des lokalen Sprechers - bewirkt ebenfalls eine Vergrößerung der Signal ≙(kr). Dieser Anteil ist für die Freisprecheinrichtung das zu übertragende Nutzsignal, für die adaptiven Filter stellt er jedoch ein Störung dar, die zu einer Fehleinstellung der Koeffizienten führen kann. In solchen Situationen sollten die Kompensatoren nicht oder nur wenig verstellt werden, damit der bereits erreichte Abgleich nicht wieder verschlechtert wird.

Es wurde bereits eine Schrittweitensteuerung vorgestellt, welche die beiden beschriebenen Gesprächssituationen bzw. Zustände der Kompensatoren berücksichtigt und die gestellten Forderungen an die Adaptionssteuerung erfüllt. Die Schrittweite im µ-ten Teilband sollte gemäß





eingestellt werden. Das gestörte Fehlersigna ≙(kr) im Nenner der Gleichung 3.5 ist direkt meßbar - der Erwartungswert davon kann durch





abgeschätzt werden. Die rechte Seite der Näherung 3.6 soll dabei eine rekursive Glättung erster Ordnung bezeichnen:





Für die Abschätzung des Zählers wird ein Leistungsübertragungsfaktor ≙ (r)|µ(kr) eingeführt. Dabei wird die Parallelschaltung aus LRM-System und Echokompensator einschließlich der Subtraktionsstelle in erster Näherung als einfaches Dämpfungsglied modelliert.

Die Größe dieser Dämpfung (Verhältnis von Anregungs- zu Fehlerleistung) wird durch den Leistungsübertragungsfaktor im Teilband





abgeschätzt. Das Modell setzt hierbei voraus, daß im LRM-System keine zusätzlichen Störungssignale - wie z. B. Aktivität des lokalen Sprechers - vorhanden sind. In Gleichung 3.8 wurde aus diesem Grund die Menge KES,FT eingeführt. Diese Menge soll die Zeitpunkte, in welchen sich die Freisprecheinrichtung im Zustand Einzelsprechen des fernen Teilnehmers befindet, beinhalten.

Das in Gleichung 3.8 verwendete, geglättete quadratische Anregungssignal wird dabei analog zur geschätzten Fehlerleistung bestimmt:





In Zuständen ohne Raumänderung wird sich der Leistungsübertragungsfaktor im Vergleich zu den (Kurzzeit-) Anregungsleistungen nur sehr langsam ändern. Zur Verbesserung der Varianz der obigen Schätzung können damit rekursive Glättungen mit großen Zeitkonstanten verwendet werden. Die Bezeichnung groß ist dabei im Verhältnis zu den Zeitkonstanten bei den Leistungsschätzungen zu sehen.

Bei Aktivität des lokalen Teilnehmers wird die Schätzung des Restechos stark gestört. In solchen Fällen sollte die Erneuerung der Schätzung des Leistungsübertragungsfaktors nicht vorgenommen werden - die zuletzt berechneten ≙ (r)|µ(kr) werden beibehalten. Durch diese Maßnahme können Raumänderungen bei Aktivität des lokalen Sprechers nicht detektiert werden. Erst nach dem erneuten Erreichen des Zustands Einzelsprechen des fernen Teilnehmers werden die Leistungsübertragungsfaktoren in solchen Fällen angeglichen. Die Bestimmungsgleichung für die geglätteten Leistungsübertragungsfaktoren kann damit gemäß





angegeben werden. Die Schrittweiten α (r)|µ(kr) können wie folgt angenähert werden:





Aus den bisherigen Überlegungen folgt, daß die Bestimmung der Leistungsübertragungsfaktoren in zwei Teile untergliedert werden kann. Zum einen muß eine effektive Berechnung der beiden Leistungsschätzungen bzw. der Divisionen dieser beiden Größen auf der zur Verfügung stehenden Hardware gefunden werden. Zum anderen müssen die Zeitpunkte, welche in der Menge KES,FT enthalten sind, detektiert werden.

Für das erste Teilproblem wurden nichtlineare, rekursive Glättungen verwendet. Als Eingangssignale dieser Filter wurde die Summe aus dem Betrag des Realteils und dem Betrag des Imaginärteils der Teilbandsignale gewählt. Zur Vermeidung der Division wurden die Leistungsfaktoren logarithmisch berechnet - die Division kann somit durch eine Subtraktion ersetzt werden.

Für das zweite Teilproblem wurde ein sog. Korrelationsmaß ξ(kr)eingesetzt. Hierbei wird eine normierte Kreuzkorrelationsanalyse des Anregungssignals des fernen Teilnehmers und des Mikrophonsignals durchgeführt. Bei Einzelsprechen des fernen Teilnehmers sind die beiden Signale stark korreliert und das Korrelationsmaß liefert Werte ξ(kr) ≈ 1. Bei Aktivität des lokalen Gesprächsteilnehmers verringert sich die Korrelation und es werden Werte ξ(kr) < 1 detektiert.

Zur Verdeutlichung der hier folgenden Überlegungen wurde die Steuerung mit den in Fig. 7 dargestellten Eingangssignalen des fernen und des lokalen Gesprächsteilnehmers getestet.

Für beide Signale wurde in den Aktivitätsphasen weißes, gaußverteiltes Rauschen gewählt. Zu Beginn der Sequenz liegt "Einzelsprechen" des fernen Teilnehmers vor (Phase A1). Die adaptiven Echokompensatoren können in dieser Phase abgleichen und erreichen nach etwa 3 bis 4 Sekunden ihren Endabgleich. Nach 7.5 Sekunden beginnt der lokale Teilnehmer den fernen zu unterbrechen (Gegensprechen, Bereich B1) und übernimmt dann die Rolle des "Alleinsprechenden" (Bereich C). Nach 10,75 Sekunden kehrt sich die Situation um. Der ferne Teilnehmer unterbricht den lokalen (Gegensprechen, Bereich B2) und "redet" schließlich allein weiter (Phase A2).

Das Mikrophonsignal wird durch Faltung des Anregungssignals mit der bereits vorgestellten Impulsantwort eines Büroraumes (Länge 2044 Koeffizienten bei 8 kHz Abtrastrate) und anschließender Addition des Signals des lokalen Sprechers gebildet.

In Fig. 8 sind die mittleren Leistungen des Anregungs- und des Fehlersignals dargestellt. Die Adaption wurde mit der im folgenden beschriebenen Schrittweitensteuerung durchgeführt, wobei davon ausgegangen wird, daß die Korrelationsauswertungen nur in den Bereichen A1 und A2 Freigaben liefern. In der Abbildung ist deutlich zu erkennen, daß der im Laufe der Phase A1 erreichte Abgleich von etwa 25 dB über die Bereiche des Gegensprechens und des Einzelsprechens des lokalen Teilnehmers gehalten werden kann.

Zur Bestimmung des Leistungsübertragungsfaktors im µ-ten Teilband müssen gemäß Gleichung 3.8 die mittleren Leistungen des Anregungssignals und des ungestörten Fehlersignals geschätzt werden. Um das Problem von Grenzzyklen zu vermeiden, wäre bei direkter Ausführung der Glättung wie sie in Gleichung 3.7 bzw. in Gleichung 3.9 vorgeschlagen wurde, eine Rechnung in Doppelwort-Genauigkeit (32 Bit) notwendig. Um den damit verbundenen Speicherbedarf bzw. die benötigte Rechenleistung zu reduzieren, werden lediglich Betragsglättungen durchgeführt:





Damit der kritische Fall der Aktivität des lokalen Teilnehmers bei Gegensprechen möglichst schnell erkannt werden kann, wurden bei der Glättung des Fehlersignals zwei unterschiedliche Zeitkonstanten (βer und βef) für steigende und fallende Flanken eingeführt. Die Zeitkonstante βe wird gemäß





gebildet. Die so erhaltene Schätzung verliert durch die Wahl von zwei unterschiedlichen Zeitkonstanten ihre Erwartungstreue. Aus diesem Grund werden im Stand der Technik Korrekturfaktoren eingeführt. Hier soll ein anderer Weg eingeschlagen werden. Die Schätzung der Anregungsleistung erfolgt mit den gleichen Zeitkonstanten wie die Schätzung der Fehlerleistung:





Durch die anschließende Division der beiden Größen kann auf den Korrekturfaktor verzichtet werden. Die Betragsbildungen wurden durch die aufwandgünstigeren Abschätzungen





angenähert. Auch hier kann wieder ein Korrekturterm durch die Divisionsbildung weggelassen werden. Wie bereits im vorigen Abschnitt erwähnt, werden die Leistungsübertragungsfaktoren nur logarithmisch bestimmt - die Division wird dadurch auf zwei Logarithmierungen und eine Subtraktion zurückgeführt. Die Leistungsübertragungsfaktoren werden somit gemäß





und





geschätzt. Mit LOG {...} wird dabei die Logarithmierung bezeichnet. Die Zeitkonstante βp, wurde ebenfalls unterschiedlich für steigende und fallende Flanken gewählt. Hiermit soll dem nicht kompensierbaren Teil der Systemlaufzeit (künstliche Verzögerung des Mikrophonsignals) gerecht werden. Durch diese Laufzeit fällt die Signalleistung des Anregungssignals früher ab als die des Fehlersignals - ohne Korrektur dieses Vorgangs würde die Schätzung eine Absenkung des Schätzwertes nach jeder Anregungsphase durchführen. Zusätzlich werden bei Detektion von Gegensprechen die Zeitkonstanten erhöht. Der verwendete Gegensprechdetektor ist weiter unten beschrieben. Die Bestimmungsgleichung für die Zeitkonstante βp lautet:





Mit KGS sollen dabei die Zeitpunkte, in welchen der oben beschriebene Detektor Gegensprechen erkennt, bezeichnet werden. Die Menge KES,FT bezeichnet die Zeitpunkte, in welchen das Korrelationsmaß Einzelsprechen des fernen Teilnehmers erkennt.

Vergleiche zwischen diesen Näherungen und der exakten Berechnung nach Gleichung 3.10 ergaben Abweichungen bei Sprachanregung von weniger als 2 dB. Für die Verwendung innerhalb der Schrittweitensteuerung reicht dies aus, somit wurde dieses Schätzverfahren für den Leistungsübertragungsfaktor verwendet.

In Fig. 9 ist der geschätzte Leistungsübertragungsfaktor im ersten Band ≙ dargestellt. Seine Schätzung wird in den Bereichen B1, C und B2 nicht erneuert, da hier vom Korrelationsmaß keine Freigaben geliefert werden. Im Vergleich mit Fig. 8 ist eine gute Übereinstimmung des Soll- und des Schätzwertes zu erkennen. Als Sollwert ist hierbei die Leistungsdifferenz zwischen Anregung und Fehler zu sehen. Sowohl der Verlauf als auch der auf Fig. 8 zu erkennende Endwert von etwa 26-30 dB wird in der Schätzung gut nachgebildet.

Aus den bisher berechneten Größen können die Schrittweiten α (r)|µ(kr) in den einzelnen Bändern gemäß





mit





bestimmt werden. Mit LIN {...} ist dabei die Linearisierung bezeichnet. Falls die Anregungsleistung eine Grenze |χ|min,µ unterschreitet, wird davon ausgegangen, daß die Anregung lediglich aus Hintergrundgeräusch besteht und die Adaption wird angehalten.

In Fig. 10 ist die Schrittweite im ersten Teilband logarithmisch dargestellt. In Phasen des Einzelsprechens des fernen Teilnehmers (A1 und A2) ist die Schrittweite etwa 1 - in Phasen des Einzelsprechens des lokalen Teilnehmers (B1 und B2) kann aus Fig. 8 eine Differenz von gestörter zu ungestörter Fehlerleistung von etwa 26 bis 30 dB ermittelt werden. Die Schrittweite liegt demnach auch in den Gegensprechphasen im erwarteten Bereich (ca. -27 dB).

Für die oben vorgestellte Schrittweitensteuerung wird eine Schätzung des Leistungsübertragungsfaktors benötigt. Diese Schätzung sollte nur bei Einzelsprechen des fernen Teilnehmers erneuert werden. In Gleichung 3.19 wurde aus diesem Grund die Menge KES,FT eingeführt, welche die Zeitpunkte beinhalten soll, in denen das gewünschte Einzelsprechen vorliegt. Durch die starke rekursive Glättung führen kurzzeitige Fehlentscheidungen bei der Auswahl der Zeitpunkte zu keinen großen Fehlschätzungen der Übertragungsfaktoren.

Der angestrebte Detektor sollte zwischen Einzelsprechen und Gegensprechen unabhängig von Raumänderungen und auch unabhängig von der Leistung der Eingangssignale entscheiden können. Es wird ein Korrelationsmaß verwendet - ein Detektor, welcher die obigen Anforderungen erfüllt. Hierbei wird die Kreuzkorrelation zwischen dem Lautsprechersignal und dem Mikrophonsignal in einer normierten Form ausgewertet.

Für die Auswertung werden die beiden Signale mit Schätzfenstern (Rechteckfunktionen) der Länge L1 multipliziert. Die so erhaltenen endlichen Signalfolgen werden gemäß





ausgewertet. Bei stark korrelierten Signalen wird ein Maximum der oben beschriebenen Auswertung erreicht, wenn die Schätzfenster gerade um die Laufzeit des LRM-Systems zueinander verschoben sind. Da diese Laufzeit unbekannt und auch veränderlich ist (z. B. durch Verschieben des Lautsprechers oder des Mikrophons), wird das Maximum aus einer Folge von L2 Auswertungen weiterverarbeitet. Die einzelnen Auswertungen verwenden dann ein um l Takte verzögertes Anregungssignal x(k - l). Die Bestimmungsgleichung erweitert sich zu:





Die Zähler und Nenner der obigen Gleichung müssen dabei in Doppelwort-Genauigkeit (32 Bit) ausgewertet werden. Um den Rechenaufwand zu verringern, werden die einzelnen Korrelationsmaße ≙(k, l) rekursiv berechnet:





Eine Freigabe wird dann gesetzt, wenn das Maximum aus den bestimmten Korrelationsmaßen größer als ein Grenzwert ξ0 ist. Um eine Division von zwei 32-Bit-Werten zu vermeiden, wird der Grenzwert ξ0 durch eine endliche Summe aus nichtpositiven Zweierpotenzen





angenähert. Der Schwellwertvergleich kann dann auf eine Summation von rechtsverschobenen Nennerwerten und einen Vergleich zurückgeführt werden:





Um den Rechenaufwand weiter zu reduzieren, wurden die Auswertungen nur im leistungsstärksten, ersten Teilband und dort auch nur mit den Realteilen der komplexwertigen Signale durchgeführt. In diesem Band ist bei Sprachanregung mit dem größten Signal-Geräusch-Abstand zu rechnen, was die Zuverlässigkeit der Detektorergebnisse verbessern sollte. Durch diese Maßnahme werden durch die Unterabtastung die Berechnungen nur alle r Abtasttakte durchgeführt werden. Der Zeitpunkt kr wird dann in die Menge KES,FT aufgenommen, falls einer der L2 Vergleiche ein Korrelationsmaß größer als ξ0 ergibt.

Entsprechend der ITU-Empfehlung G. 167 kann die durch die Freisprecheinrichtung zu erbringende Echodämpfung in Gegensprechsituationen um 15 dB verringert werden. Aus diesem Grund wurde ein Gegensprechdetektor gemäß den folgenden Überlegungen entwickelt. Gleichzeitig kann dieser Detektor dazu verwendet werden, die Schätzungen in der Schrittweitensteuerung bei auftretendem Gegensprechen "vorsichtiger" einzustellen.

Die Detektion von Gegensprechen wird in zwei Schritten durchgeführt. In einer ersten Stufe wird überprüft, ob der ferne Sprecher aktiv ist. Hierzu wird zum einen das betragsgeglättete Anregungssignal des fernen Teilnehmers mit einer Schwelle |x|1 verglichen - zum anderen wird überprüft, ob der Pegelwaagenalgorithmus Anregung des fernen Teilnehmers erkannt hat. Der zweite Vergleich ist immer dann notwendig, wenn die Pegelwaage große Dämpfungswerte einbringt (z. B. nach Raumänderungen). In solchen Situationen kann der Empfangspfad stark bedämpft sein. Hier würde der Vergleich mit dem geglätteten Eingangssignal kein zuverlässiges Ergebnis liefern. Anregung des fernen Teilnehmers (Afe = 1) wird demnach immer dann angenommen, wenn entweder der Leistungsvergleich oder der Pegelwaagendetektor (Variable SR = 1) dies erkennen:





Das betragsgeglättete Anregungssignal wird dabei analog zu den in der Schrittweitensteuerung beschriebenen rekursiven, nichtlinearen Glättungen berechnet. Zu beachten ist hier allerdings, daß durch die höhere Abtastrate größere Zeitkonstanten verwendet werden müssen und dadurch Grenzzyklen auftreten können. Eine Rechnung in Doppelwort-Genauigkeit (32 Bit) ist deshalb erforderlich:





Die Zeitkonstante βxg wird dabei wie folgt gewählt:





Die Verzögerung von N Takten wurde eingeführt, um bei den Vergleichen in der zweiten Detektorstufe die Laufzeit des Analyse- Synthese-Systems wieder auszugleichen. Es ist hierzu kein zusätzlicher Speicher notwendig, da das Analysefilter ohnehin die letzten N Signalwerte des Eingangssignals speichert.

In einer zweiten Stufe wird festgestellt, ob auch der lokale Gesprächsteilnehmer aktiv ist. Hierzu wird ein Vergleich zwischen der Leistung des geschätzten, ungestörten Fehlers und des meßbaren, gestörten Fehlers durchgeführt. Die Leistungsschätzungen werden wieder auf Betragsglättungen bzw. die Bestimmung eines Leistungsübertragungsfaktors zurückgeführt. Die Glättung des Fehlersignals wird gemäß





durchgeführt. Die Zeitkonstante βeg wird wie folgt gewählt:





Für die Schätzung der ungestörten Fehlerleistung wird ein (Gesamtband-) Leistungsübertragungsfaktor pEK(k)bestimmt:





Um die Varianz der Schätzung zu verbessern, wird auch diese Größe rekursiv geglättet. Da die Bestimmung des Übertragungsfaktors lediglich aus geglätteten Größen besteht, wird sie nur unterabgetastet ausgeführt:





Zur Detektion der Anregung des lokalen Teilnehmers (Alo = 1) wird die Differenz aus der gemessenen und der geschätzten Fehlerleistung bestimmt. Um Fehlentscheidung zu vermeiden wurde eine zusätzliche Sicherheitsschwelle pGS eingeführt. Der Detektor erkennt Anregung des lokalen Teilnehmers, wenn die gemessene Fehlerleistung um mindestens pGS dB größer ist als die aus der Anregungsleistung und dem Leistungsübertragungsfaktor geschätzte Fehlerleistung. Auch dieser Vergleich wird unterabgetastet ausgeführt:





Der Detektor erkennt Gegensprechen, wenn die UND-Verknüpfung der Variablen Afe und Alo den Wert eins ergibt. In diesen Fällen kann die Restdämpfung, welche durch die Pegelwaage eingebracht wird, um pGSmax = 15 dB verringert werden. Die Verringerung der Dämpfungsanforderung erfolgt tiefpaßgeglättet. Die Zeitkonstante für die steigende Flanke ßGsr sollte möglichst klein sein, um den Beginn einer Sprachpassage nicht abzuschneiden. Die Zeitkonstante für die fallende Flanke ßGsf sollte größer als die Anstiegskonstante gewählt werden, damit die Dämpfungsabsenkung ≙ in kurzen Sprachpausen nicht vollständig zurückgenommen wird. In Fig. 11 ist dieser Zusammenhang dargestellt. Die geglättete Dämpfungsabsenkung wird wie folgt bestimmt:





Der Zeitpunkt kr wird in die Menge Kgs aufgenommen, falls die Dämpfungsabsenkung über einem vorbestimmten Wert liegt. Ein beispielhafter Verlauf der Dämpfungsabsenkung ist in Fig. 11 dargestellt.

Die Gesamtdämpfung der Pegelwaage, welche durch die ITU-T- Empfehlung G. 167 vorgeschrieben ist, kann um die Dämpfung des Gesamtsystems aus Raum und Echokompensator abgesenkt werden. Selbst im Falle abgeschalteter Echokompensation erfolgt durch die beschriebene Steuerung eine Schätzung des Übertragungsfaktors der akustischen Strecke vom Lautsprecher zum Mikrophon einschließlich der analogen Verstärkungen. Hierdurch kann auf unterschiedliche Lautsprecher- bzw. verschiedene (analoge) Mikrophonverstärkungen reagiert und die Gesamtdämpfung entsprechend den geforderten Werten (digital) angepaßt werden. Im Gegensprechfall kann die Gesamtdämpfung ebenfalls gemäß der ITU- T-Empfehlung G. 167 auf einen geringeren Wert gesetzt werden. Auch hierfür wurde ein Detektor und eine entsprechende Übergabegröße vorgestellt bzw. definiert. Die Pegelwaagengesamtdämpfung DPW(k) wird damit (zunächst noch ohne Berücksichtigung der Postfilterung) nach folgendem Verfahren gesteuert:



DPW(k) = D0 - DEK(k) - DGS(k). (3.37)

Alle Größen der obigen Gleichung liegen entsprechend den Anforderungen des ARCOFI-Pegelwaagen-Verfahrens in logarithmischer Form vor. D0 ist dabei die geforderte Maximaldämpfung (z. B. 45 dB). Die Dämpfung des Echokompensators DEK(k) wird durch die Berechnungsform





bestimmt. Analog dazu kann die Gegensprechabsenkung DGS(k) mit





angegeben werden.

In der Echtzeitrealisierung des Echokompensationsverfahrens zeigt sich, daß die adaptiven Filter den Anteil des fernen Sprechers niemals vollständig aus dem Mikrophonsignal herausrechnen können. Dies kann viele verschiedene Ursachen haben, drei davon sind hier exemplarisch angeführt:

  • a) Die Raumimpulsantworten sind im allgemeinen länger als die Echokompensatoren, wodurch ein Restfehler übrig bleibt.
  • b) Die Festkommaarithmetik des verwendeten DSP's wirkt sich begrenzend auf den Endabgleich der Filter aus.
  • c) Bei Raumänderungen führt der NLMS-Algorithmus die adaptiven Filter nur mit einer endlichen Geschwindigkeit nach - bis zum erneuten Erreichen des Endabgleichs sind Echos wieder stärker wahrnehmbar.

Das Fehlersignal e(k) enthält somit neben dem Anteil des lokalen Sprechers n(k) auch noch den nicht kompensierten Anteil des fernen Sprechers, der bereits in den vorherigen Teilen dieser Beschreibung als "ungestörter" Fehler ε(k) bezeichnet wurde. Für den fernen Teilnehmer ist das Signal n(k) der Nutzanteil des Signals e(k) - das Signal ε(k) ist aus dieser Sicht die Störung.

Im folgenden wird gezeigt, wie eine Nachfilterung des Signals e(k) - zur Dämpfung der "Störung" ε(k) - basierend auf einem Wiener-Filter-Ansatz mit der Schrittweitensteuerung für die Teilbandechokompensatoren verknüpft werden kann. Hierzu wird ein Transversalfilter der Ordnung M - 1 im Anschluß an die Synthesefilterung eingefügt. Der Parameter M ist dabei gleichzeitig die Bandanzahl der Filterbank. Die Koeffizienten werden in der Teilbandebene bestimmt und mit einer inversen DFT in den Zeitbereich transformiert. Die Koeffizientenbestimmung ist durch mehrere Glättungen mit einer Trägheit und damit einer Laufzeit behaftet. Durch die zwischen der Koeffizientenbestimmung und -verwendung liegende, maximalphasig entworfene Synthesefilterung kann diese Laufzeit zumindest zum Teil wieder ausgeglichen werden. Die Nachfilterung erfolgt hierbei im Zeitbereich und frequenzselektiv.

Bei der Herleitung ergeben sich einfache Steuergrößen, mit denen der "Einfluß" des Wiener-Filters abhängig von der Kompensationsleistung der adaptiven Filter gesteuert werden kann. Auch die durch diese Maßnahme eingefügte Dämpfung kann mit geringem Aufwand geschätzt und der Pegelwaage "mitgeteilt" werden.

Im folgenden wird sich zeigen, daß die Bestimmung der Koeffizienten des Wiener-Filters sich auf die Berechnung von M/2 + 1 Subtraktionen, einer (vereinfachten) inversen Fourier- Transformation der Länge M und einigen rekursiven Glättungen zurückführen läßt. Sowohl die Subtraktionen als auch die inverse FFT und die Glättungen sind dabei nur alle r Abtastwerte auszuführen. Der Berechnungsaufwand ist damit im Vergleich zu den übrigen Komponenten der Freisprecheinrichtung sehr gering!

Gemäß Fig. 12 wird das Filter ≙(k) 30 hinter der Synthese plaziert. Die Ordnung des Filters betrage M - 1, es müssen also M Koeffizienten eingestellt werden. Das Filter 30 soll gemäß dem Wiener-Ansatz das "gestörte" Signal e(k) optimal von der "Störung" ε(k) befreien. Der Frequenzgang eines solchen Filters lautet:





Für das Signal e(k) gilt:



e(k) = ε(k) + n(k).

Der Filterfrequenzgang kann damit zu





umgeformt werden. Die Signale des fernen und des lokalen Teilnehmers (n(k) bzw. ε(k)) werden als unkorreliert vorausgesetzt. Bedingt durch die Hochpaßfilterung des Leitungseingang- und des Mikrophonsignals wird weiter Mittelwertfreiheit der Signale n(k) und ε(k) angenommen. Der Frequenzgang vereinfacht sich dadurch zu:





Da das Filter ≙(k) die Ordnung M - 1 haben und durch inverse Fourier-Transformation aus dem Frequenzgang Gopt(Ω) bestimmt werden soll, müssen M Stützstellen des Frequenzgangs bestimmt werden. Für die Frequenzen





ergibt sich:





Die Frequenzen Ωµ stellen aber neben den Stützstellen im Frequenzbereich auch gleichzeitig die Bandmitten der zuvor beschriebenen Bandpässe bei der Teilbandzerlegung dar. Bei der Schätzung der Größe Sεεµ)/Seeµ) kann somit auf entsprechende Größen in den einzelnen Teilbändern zurückgegriffen werden. Goptµ) kann durch





angenähert werden. Da bei der Herleitung des Wiener-Filters Stationarität der Eingangssignale vorausgesetzt wurde, dies aber bei Sprache nur für kurze Passagen angenommen werden kann, sollten die Leistungsdichtesprektren durch entsprechende Kurzzeitleistungsschätzwerte im jeweiligen Frequenzbereich ersetzt werden. Somit gelten für die Schätzung der Quotienten





die gleichen Voraussetzungen wie für die Schätzung der Schrittweiten in den jeweiligen Bändern. Die DFT-Transformierte des Filters ≙(k) könnte daher gemäß





bestimmt werden. Die hochgestellten "(r)" sollen dabei auf die Unterabtastebene hinweisen. ≙(k) bzw. ≙(1)(r)(k) ändern sich somit nur alle r Abtastschritte. Im bevorzugten Ausführungsbeispiel wurde r = 13 gewählt. Es wurde gezeigt, daß die komplexen Bänder nur für µ = 1 ... M/2 - 1 berechnet werden müssen - die Bänder µ = M/2 - 1 ... M - 1 können durch komplexe Konjugation ermittelt werden. Da die Schrittweiten αber reellwertig sind, kann der Vektor ≙(k) wie folgt gebildet werden





Da die Teilbandzerlegung den Bereich des letzten Teilbandes (bei 8 kHz Abtastrate 3750 Hz - 4000 Hz) herausfiltert, soll dieser Bereich im verwendeten Wiener-Filter ebenfalls undurchlässig sein, wodurch sich die Wahl von G (r)|8(k) = 0 bzw. α (r)|8(k) = 1 ergibt.

In der praktischen Anwendung dieses Verfahrens zeigt sich, daß ein leicht modifizierter Ansatz zu besseren Ergebnissen führt. Analog zu bekannten Verfahren der Geräuschreduktion werden die geschätzten Stützstellen des Filterfrequenzganges zeitlich geglättet, sowie mit einem sog. Überschätzungsfaktor β und einer Maximaldämpfung Gmin(k) versehen. Die zeitliche Glättung wird auf die Schrittweiten angewendet und erfolgt mit einem IIR- Filter erster Ordnung mit zwei verschiedenen Zeitkonstanten für steigende (γr) und fallenden (γf) Flanken:





Bei einer linearen Glättung (γr = γf) würde die Dämpfung bei Beginn einer Sprachpassage des fernen Teilnehmers zunächst langsam und dann immer schneller eingebracht. Am Ende der Sprachpassage würde die Dämpfung dann zunächst schnell und dann immer langsamer reduziert. Um diesen Zusammenhang zu verdeutlichen, ist in Fig. 13 ein beispielhafter Verlauf des Terms (1 - α(k)) in einem der Teilbänder dargestellt. Zu Beginn soll eine Sprachpause des fernen Sprechers vorliegen, der Term (1 - α(k)) ist dementsprechend gleich Eins. Mit dem Einsetzen der Sprachpassage werde die Schrittweite α(k) auf einen Wert nahe bei Eins gesetzt - zur Vereinfachung bleibe die Schrittweite bis zum Ende der Sprachsequenz auf diesem Wert, anschließend wird die Schrittweite wieder auf Null gesetzt. Zur Verdeutlichung der Größe der eingefügten Dämpfung (es wird vereinfachend davon ausgegangen, daß in allen Bändern der gleiche Verlauf vorliegt) sind die Stellen, an denen die Kurve mit der geglätteten Schrittweite die Werte (1 - 1/2), (1 - 1/4) und (1 - 1/8) erreicht, gekennzeichnet. Diese Werte entsprechen dann einer Dämpfung von 6 dB, 12 dB bzw. 18 dB. Im unteren Teil der Fig. 13 ist der mit zwei unterschiedlichen Zeitkonstanten geglättete Term α(k) dargestellt. Zu Beginn der Sprachpassage wird die Dämpfung hier schnell eingefügt - am Ende erfolgt eine langsamere Reduktion der eingebrachten Dämpfung.

Der in der Implementierung verwendete Vektor ≙(r)(k) setzt sich somit aus den geglätteten Schrittweiten zusammen:





Der Filterfrequenzgang wird dann gemäß





geschätzt. Der Überschätzungsfaktor β beschleunigt bei einer Wahl größer als eins das Einbringen der Dämpfung und er vergrößert die Dämpfung. Für β wird vorzugsweise ein Wert zwischen 1.0 und 3.0 gewählt.

Durch den Parameter Gmin(k) können die Spektralschätzwerte des Filters nach unten begrenzt werden. Wird dieser Parameter beispielsweise zu Null gewählt, so könnte durch das Filter das Ausgangssignal zu Null gesetzt werden. Wird Gmin(k) = 1 gesetzt, so erfährt das Ausgangssignal keine Änderung. Mit dem Parameter Gmin(k) kann somit der "Einfluß" des Wiener-Filters gesteuert werden. In Echtzeitversuchen zeigte sich, daß es sinnvoll ist, die Steuerung dieses Parameters mit dem Abgleichzustand der Echokompensatoren zu verknüpfen. Zu Beginn eines Abgleichvorgangs ist die Dämpfung, welche durch die Echokompensatoren erreicht wird, noch sehr gering. Hier sollte das Wiener-Filter stark eingreifen und große Dämpfungen (z. B. bis zu 45 dB gemäß den ITU-Empfehlungen) einbringen können. Ist in dem Raum, in dem sich die Freisprecheinrichtung befindet, starkes Hintergrundgeräusch vorhanden, so werden durch das Wiener-Filter die Echos zwar unterdrückt, der ferne Teilnehmer nimmt dann aber eine Art Modulation des Hintergrundgeräusches wahr. In seinen Sprachpausen wird das Geräusch ungedämpft übertragen, während er spricht, erfährt es eine (z. B. 45 dB große) Dämpfung.

Zu Beginn eines Abgleichvorgangs sind solche "Effekte" tolerabel, zumal "herkömmliche" Verfahren wie die Pegelwaage ähnliches bewirken. Mit zunehmendem Abgleich der Kompensatoren sollte dieser Effekt aber verringert werden. Auch hier liefert die Schrittweitensteuerung eine geeignete Steuergröße - den geschätzten Leistungsübertragungsfaktor DEK(k). Die Einstellung des Parameter Gmin(k) erfolgt daher gemäß:



Gmin(k) = LIN {Max {0, (Gmax,log - DEK(k) - DGS(k))}}. (4.2)

Mit "LIN" wird dabei die bereits in der Schrittweitensteuerung verwendete Linearisierung von logarithmischen Größen bezeichnet. Mit dem Parameter Gmax,log kann die maximale Einfügedämpfung (z. B. 45 dB) eingestellt werden. Dieser Festwert wird dann um die Dämpfung DEK(k), welche die Echokompensatoren im Mittel leisten, sowie um die Gegensprechabsenkung DGS(k) reduziert. Die Größen DEK(k) und DGS(k) liegen dabei in der gleichen logarithmischen Form wie die Konstante Gmax,log vor. Die Begrenzung der errechneten Größe auf 0 dB dient der Anpassung an die Linearisierung.

Damit sind alle Steuergrößen zur Einstellung des Wiener-Filters und die Filterkoeffizienten im Teilbandbereich bestimmt. Die so erhaltenen Spektralschätzwerte des Filters werden mit Hilfe einer inversen DFT so in den Zeitbereich transformiert, daß ein phasenlineares Filter entsteht. Hierbei kann von der Tatsache, daß die Systemfunktion sowohl reellwertig als auch symmetrisch ist, Gebrauch gemacht werden und der Aufwand der IDFT auf etwa ein Viertel reduziert werden.

Die Dämpfung DW(k) des Signals e(k) durch das Wiener-Filter wird analog zur Dämpfung der Echokompensatoren und der Dämpfungsreduktion bei Gegensprechen über eine Schittstelle der Pegelwaage mitgeteilt. Die Dämpfung wird dabei durch den Mittelwert über alle zu übertragenden Frequenzbereiche angenähert:





Mit "LOG" wird dabei die bereits in der Schrittweitensteuerung verwendete Normierung bzw. Logarithmierung bezeichnet. Sie sorgt für die schnittstellenspezifische Kommunikation mit der Pegelwaage. Die Division durch 8 wird durch Rechtsschieben um 3 Bit erreicht. Bevor die Dämpfung dann endgültig an die Pegelwaage übergeben wird, erfolgt eine rekursive, nichtlineare Glättung:





Die Verwendung von unterschiedlichen Zeitkonstanten für steigende und fallende Flanken bewirkt, daß die Schätzung "vorsichtiger" wird. Wird durch das Wiener-Filter Dämpfung eingefügt, so verringert die Pegelwaage ihre Dämpfung langsamer. Kurzzeitig wird das Fehlersignal damit mehr als die geforderten 45 dB gedämpft. Verringert das Wiener-Filter umgekehrt seine Dämpfung, fügt die Pegelwaage sehr schnell die restliche Dämpfung ein. Durch die zeitliche Verzögerung durch die Synthesefilterung kann es auch hier zu einer kurzzeitigen Gesamtdämpfung von mehr als der eingestellten Obergrenze (z. B. 45 dB) kommen.

Zur Verdeutlichung der bisherigen Überlegungen wurde die im Abschnitt der Schrittweitensteuerung beschriebene Simulation wiederholt - diesmal aber erweitert mit dem oben vorgestellten Wiener-Filter. Als Raumimpulsantwort wurde die gemessene Raumimpulsantwort eines Büroraumes mit etwa 300 ms Nachhallzeit verwendet. Als Anregungen wurde sowohl auf der fernen als auch auf der lokalen Teilnehmerseite weißes Rauschen gemäß Fig. 14 eingespeist.

Um den Einfluß des Wiener-Filters deutlich darzustellen, wurde die Maximaldämpfung Gmax,log zu 60 dB gewählt. Im Bereich A1 findet der Anfangsabgleichvorgang der Kompensatoren statt. Zu Beginn dieses Bereiches sind die Kompensatoren noch nicht abgeglichen - am Ende wurde in allen Bändern der Endabgleichszustand erreicht. Da in dieser Phase kein Gegensprechen stattfindet, sollte das Wiener-Filter die Differenz zwischen 60 dB und der Dämpfung, welche durch die Echokompensatoren erreicht wird, einfügen. Hierzu ist im Bereich A1 der Koeffizient





im Teilband 1 (250-750 Hz bei 8 kHz Abtastrate) zusammen mit dem Anregungs- und Fehlersignal vor dem Wiener-Filter in Fig. 15 dargestellt. Zu erkennen ist hierbei zunächst der Einschwingvorgang des Wiener-Filters. Bedingt durch die Trägheit der Tießpaßglättungen wird die Dämpfung nicht sofort eingefügt - dieser Effekt wird durch die Transformation in den Zeitbereich und die dazwischenliegende Synthesefilterung zum Teil wieder ausgeglichen. Im Gesamtbandsignal (s. Fig. 18) werden dadurch immerhin schon zu Beginn der Aktivität des fernen Sprechers 25 dB Dämpfung eingefügt. Nach etwa 200 ms hat sich die Dämpfung dann bereits auf ihren Endwert von 60 dB erhöht. Mit zunehmendem Abgleichen des Kompensators verringert sich die Dämpfung durch das Wiener-Filter im Band 1 und erreicht erwartungsgemäß einen Endwert von etwa 30 dB (60 dB Maximalbegrenzung - 30 dB Echodämpfung durch den Kompensator). Da das Wiener-Filter erst nach der Synthese eingefügt wurde, können die Verläufe der Anregung, des Fehlers, der Schrittweite und des Leistungsübertragungsfaktors im Band 1 aus den Fig. 9 und 10 entnommen werden.

Für den Fall des Einzelsprechens des fernen Gesprächsteilnehmers (Bereich A1 und A2) ist somit die Maximalgrenze der einzufügenden Dämpfung Gmin(k) die bestimmende Größe. Entsprechend dem Ansatz des Filters soll das Gesamtsignal e(k) von seiner Störung ε(k) getrennt werden. Da der lokale Teilnehmer - das Nutzsignal in e(k) - jedoch nicht aktiv ist, besteht das Gesamtsignal lediglich aus der Störung. Würde die Begrenzung bei der Bestimmung der Koeffizienten G (r)|1(k)weggelassen, so würden diese Koeffizienten zu Null gesetzt und die Störung damit eliminiert.

In Fig. 16 ist zur Verdeutlichung dieses Zusammenhangs die Dämpfung, welche durch das Wiener-Filter eingefügt wird, im Band 1 dargestellt. Der anfängliche Wert von etwa 60 dB wird durch die eingestellte Maximaldämpfung Gmax,log bestimmt. Die zu Beginn der Simulation mit Nullvektoren initialisierten Kompensatoren gleichen im Verlauf der Phase A1 ab und reduzieren damit die Obergrenze der einzufügenden Dämpfung auf etwa 30 dB. In der nun folgenden Gegensprechphase B1 wird diese Obergrenze durch den Gegensprechdetektor nochmals um 15 dB auf nun noch etwa 15 dB verringert. Da die Leistung des lokalen Sprechers aber deutlich über der des Restechos liegt, wird diese Grenze nicht erreicht. Gemäß dem gewählten Einstellalgorithmus wird somit in der Gegensprechphase B1 fast keine Dämpfung eingefügt. Die bestimmende Größe in der Gegensprechphase ist das Leistungsverhältnis des Signals des lokalen Sprechers und des Restechos des fernen Sprechers. Die Leistung des Restechos hängt zum einen von der Anregungsleistung des fernen Teilnehmers und zum anderen vom Abgleichzustand der Kompensatoren ab. Je besser diese abgeglichen sind, um so geringer wird der Einfluß des Wiener-Filters in diesen Passagen sein.

In der folgenden Gesprächssituation C hat der lokale Teilnehmer das Wort übernommen. Die Schrittweiten werden in diesen Situationen zu Null gesetzt, wodurch das Wiener-Filter zu einer Durchschaltung wird. Die Passagen B2 und A2 sind analog zu den eben beschriebenen Phasen zu sehen.

Da die Schätzung der Dämpfung, welche durch das Wiener-Filter eingefügt wird, mit unterschiedlichen Zeitkonstanten ausgeführt wird, kommt es in bestimmten Phasen zu einer zu "vorsichtigen" Schätzung. Um diesen Sachverhalt zu verdeutlichen sind in Fig. 17 die Verläufe der Schätzung der Dämpfungen durch die Echokompensatoren und durch das Wiener-Filter, sowie die Absenkung im Gegensprechfall aufgetragen. Die Summe dieser drei Größen wird der Pegelwaage übergeben und ist im unteren Teil der Fig. 17 dargestellt. Diese Schätzung kann mit den wirklichen Signalverläufen der Anregung und des Fehlers im Gesamtband in Fig. 18 verglichen werden. In den Bereichen B1 und B2 erkennt der Gegensprechdetektor die Aktivität der beiden Teilnehmerseiten und erhöht die Dämpfungsübergabe um 15 dB. Diese Erhöhung wird mit einer kurzen Zeitkonstante eingefügt und am Ende der Gegensprechphase langsam wieder herausgenommen. Diese Maßnahme wurde zur Überbrückung kurzer Sprachpausen eingeführt. Gleichzeitig wird mit dem Einsetzen des Gegensprechens die Schrittweite reduziert und das Wiener-Filter verringert seine Dämpfung. In den Passagen ohne Anregung (Bereich C) des fernen Teilnehmers wird die Schrittweite zu Null gesetzt - das Wiener-Filter wirkt dadurch lediglich als Verzögerungsglied.

Das bisher vorgestellte Verfahren wurde für die endgültige Implementierung allerdings noch einmal leicht modifiziert - hierdurch konnte der Rechenaufwand noch einmal gesenkt werden, ohne merkliche Qualitätseinbußen zu erhalten.

Nach einer schrittweitenabhängigen Bestimmung der Filterkoeffizienten im Teilbandbereich, wurde gemäß Gleichung 4.1 eine Obergrenze der Dämpfung bestimmt. Diese Obergrenze wurde in Abhängigkeit von der bereits erreichten Dämpfung, welche durch die Leistungsübertragungsfaktoren im jeweiligen Band bzw. durch die Gegensprechdämpfung gegeben ist, bestimmt. Beide Größen wurden in der Schrittweitenberechnung lediglich in logarithmischer Darstellung berechnet und gespeichert. Um die Größen in der Begrenzungsfunktion verwenden zu können, sind demnach acht Linearisierungen notwendig. Die Bestimmung der Maximalwerte würde damit mehr Rechenleistung benötigen als die gesamte restliche Koeffizientenberechnung. Aus diesem Grund wurde für alle Bänder eine einheitliche Obergrenze eingeführt. Diese wird ebenfalls gemäß Gleichung 4.1 berechnet, allerdings mit den Gesamtbandgrößen. Der Resourcenbedarf der so erhaltenen Nachfilterung liegt bei deutlich unter 1 MIPS bei Verwendung von 16- Bit-Festkomma-Signalprozessoren.

Bei eingeschaltetem Wiener-Filter 30 kann die Gesamtdämpfung zusätzlich um die Dämpfung des Wiener-Filters 30 abgeschwächt werden. Der Maximalhub der Pegelwaage kann damit durch



DPW(k) = D0 - DEK(k) - DGS(k) - DW(k) (4.3)



angegeben werden. Die Größe DW(k) wird dabei gemäß





bestimmt.


Anspruch[de]
  1. 1. Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen mit einer Pegelwaage (22) und einer frequenzselektiven steuerbaren Echokompensation (28) mit Teilbandverarbeitung, wobei das abgehende Signal nach der frequenzselektiven Echokompensation (28) einer Nachfilterung in einem weiteren frequenzselektiven Filter (30) mit Einstellalgorithmus gemäß einem Wiener-Ansatz unterworfen wird (Wiener-Filterung), dadurch gekennzeichnet, daß eine einzige Steuergröße (Schrittweitenvektor ≙ (k) sowohl für die Steuerung der frequenzselektiven Echokompensation, als auch für die Steuerung des weiteren Filters (30) verwendet wird.
  2. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß mehrere unterschiedliche Abtastraten verwendet werden.
  3. 3. Verfahren nach Anspruch 1 oder Anspruch 2, dadurch gekennzeichnet, daß sowohl bei der Echokompensation (28) als auch für das weitere Filter (30) adaptive Filter verwendet werden.
  4. 4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Echokompensation (28) mittels einer Filterbank in Frequenzteilbändern implementiert wird.
  5. 5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß zur Steuerung der Adaption und der Schrittweite sowohl leistungsbasierende Schätzungen als auch korrelationsbasierende Analysen verwendet werden.
  6. 6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß zur Schrittweitenbestimmung Leistungsübertragungsfaktoren in Teilbändern geschätzt werden.
  7. 7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß sowohl die Echokompensation (28) als auch der weitere Filter (30) Schätzwerte für die durch sie eingebrachte Echodämpfung liefern.
  8. 8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Schätzwerte für die Dämpfung zur Steuerung der Dämpfung der Pegelwaage (22) verwendet werden.
  9. 9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß die gleichzeitige Aktivität beider Gesprächsteilnehmer (Gegensprechen) detektiert wird.
  10. 10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß die Gesamtdämpfung der Pegelwaage im Gegensprechfall reduziert wird.






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com