PatentDe  


Dokumentenidentifikation DE69619442T2 19.09.2002
EP-Veröffentlichungsnummer 0758781
Titel Verifizierung einer Sprachäusserung für die Erkennung einer Folge von Wörtern mittels wortbezogenem Training zur Minimierung des Verifizierungsfehlers
Anmelder AT&T IPM Corp., Coral Gables, Fla., US
Erfinder Setlur, Anand Rangaswamy, Warrenville, Illinois 60555, US;
Sukkar, Rafid Antoon, Aurora, Illinois 60504, US
Vertreter Blumbach, Kramer & Partner GbR, 65187 Wiesbaden
DE-Aktenzeichen 69619442
Vertragsstaaten DE, FR, GB
Sprache des Dokument EN
EP-Anmeldetag 31.07.1996
EP-Aktenzeichen 963056189
EP-Offenlegungsdatum 19.02.1997
EP date of grant 27.02.2002
Veröffentlichungstag im Patentblatt 19.09.2002
IPC-Hauptklasse G10L 15/06
IPC-Nebenklasse G10L 15/28   

Beschreibung[de]

Die Erfindung betrifft eine automatische Spracherkennung, und insbesondere ein Verfahren und eine Vorrichtung zum Überprüfen eines oder mehrerer Worte einer Folge von Worten.

Die Überprüfung einer Sprachäußerung ist ein Prozeß, mittels welchem eine von einem Spracherkenner erzeugte Schlüsselworthypothese überprüft wird, um zu ermitteln, ob die Eingangssprache in der Tat die erkannten Wörter enthält. In vielen Spracherkennungsanwendungen, wie z. B. einer Schlüsselwort-Beobachtung (Spotting), wird die Überprüfung der Sprachäußerung unter Verwendung statistischer Hypothesentests durchgeführt. Typischerweise werden Wahrscheinlichkeitsfunktionen für diesen Zweck formuliert, wobei eine Null-Hypothese, daß das Eingangssprachsegment das erkannte Schlüsselwort enthält, gegen eine alternative Hypothese, daß das Segment das Schlüsselwort nicht enthält, getestet wird. In einem bekannten System 100, das in Fig. 1 dargestellt ist, enthält die alternative Hypothese zwei gleichermaßen wichtige Kategorien: Nicht-Schlüsselwortsprache und Schlüsselwortsprache, welche durch den Spracherkenner mißverstanden wurde. Bekannte Sprachäußerungs- Überprüfungsverfahren betonen die erste Kategorie der Alternativ-Hypothese, wenn die Wahrscheinlichkeitsverteilung bestimmt wird. Da die zweite Kategorie nicht in Betracht gezogen wird, ist die Fähigkeit, Tests zuverlässig auf Mißverständnisfehler hin durchzuführen, eingeschränkt. Ferner verwenden viele von den als Lösung vorgeschlagenen Systemen und Verfahren die Erkennungsmodelle selbst zur Formulierung der Überprüfungswahrscheinlichkeitsverhältnisse. Somit sind sprecherunabhängige Erkenner-Verborgenes-Markov-Modell (HMMs) und Füller-HMMs in einer Massenspeichervorrichtung 110 gespeichert. Diese Modelle werden von einer sprecherunabhängigen Erkennungseinheit 104 zur Formulierung des Hypothesenschlüsselwortes verwendet, welches anschließend überprüft wird. In dem System 100 verbinden die Verbindung 122 und 124 die in der Massenspeichereinheit 110 gespeicherten sprecherunabhängigen Erkenner-HMMs und die Füller HMMs mit einer Sprachäußerungsüberprüfungseinheit 130. Somit werden dieselben Modelle sowohl für die Erkennung als auch die Rückweisung verwendet. In dem System 100 und in ähnlichen Systemen werden die Erkenner-HMMs dazu verwendet, zwei unterschiedliche Funktionen durchzuführen, so daß Erkennungsleistung/Überprüfungsleistung-Kompromisse notwendigerweise in einer derartigen Konstruktion vorliegen.

Daher gibt es in dem Fachgebiet einen Bedarf nach einem Spracherkennungssystem und einem Verfahren, in welchem sowohl die Spracherkennung als auch Sprachäußerungsüberprüfungskategorien berücksichtigt und unabhängig modelliert werden, um die Gesamtüberprüfungsleistung zu verbessern.

Es gibt einen weiteren Bedarf im Fachgebiet nach einem Spracherkennungssystem und Verfahren, in welchem die Überprüfung unter Anwendung Überprüfungs-spezifischer Modelle durchgeführt wird, die so aufgebaut sind, daß sie insbesondere die Überprüfungsfehlerrate minimieren.

Ein Artikel mit dem Titel: "Robust Utterance Verification for Connected Digits Recognition" von Rahim et al., veröffentlicht von ICASSP 1995, pp. 285 bis 288 beschreibt ein Verfahren und eine Vorrichtung, welche sowohl eine gute Überprüfungs- als auch eine gute Erkennungsleistung bereitstellen.

Ein Verfahren und eine Vorrichtung gemäß der Erfindung sind in Anspruch 1 und 4 beschrieben. Bevorzugte Ausführungsformen sind in den abhängigen Ansprüchen beschrieben.

Kurz zusammengefaßt werden gemäß einem Aspekt der Erfindung die vorstehend erwähnten Bedürfnisse erfüllt, indem ein Überprüfungstest durch Aufbau und unterscheidendes Lernen Überprüfungs-spezifischer Modelle zum Abschätzen der Verteilungen der Null- und der Alternativ-Hypothesen formuliert wird. Zusätzlich wird ein Modell einer zusammengesetzten Alternativ-Hypothese aufgebaut, das beide vorstehend beschriebenen Alternativ-Hypothesenkategorien enthält. Der Hypothesentest wird im Kontext mit der Erkennung und Überprüfung einer Folge von Schlüsselworten (z. B. verbundener Ziffernfolgen) entwickelt. Dieses unterscheidende Lernverfahren wird aufgebaut, um die Überprüfungsfehlerrate jedes Wortes in der erkannten Folge zu minimieren. Dieses Lernverfahren wird somit als Wort-basierendes Minimumüberprüfungsfehler (WB-MVI)-Lernen bezeichnet. Die Anwendung eines derartigen Lernverfahrens zusammen mit Überprüfungs-spezifischen Modellen stellt eine Möglichkeit bereit, sich ausschließlich auf die Minimierung der Gesamtüberprüfungsfehlerrate bei der Durchführung eines Wahrscheinlichkeitsverhältnistestes zu konzentrieren.

Fig. 1 stellt ein bekanntes Spracherkennungssystem dar.

Fig. 2 stellt ein Spracherkennungssystem gemäß der vorliegenden Erfindung dar.

Fig. 3 ist ein Flußdiagramm, welches das Verfahren der Sprachäußerungs-Überprüfung gemäß der vorliegenden Erfindung darstellt.

Fig. 4 ist ein Flußdiagramm, welches ein Lernverfahren eines Spracherkennungssystems gemäß der Erfindung darstellt.

Fig. 5 bis 7 zeigen graphische Daten, welche Leistungskennlinien der vorliegenden Erfindung und eines weiteren gut funktionierenden Systems darstellen.

Fig. 2 stellt ein System 200 gemäß der vorliegenden Erfindung dar. Das System 200 weist eine sprecherunabhängige automatische Spracherkennungseinheit 206 auf, welche Spracherkenner-HMMs aus einer Speichereinheit 210 verwendet, um die Spracherkennung durchzuführen. Die Spracherkennungseinheit 206 empfängt Eingangssprache, welche durch eine Art Wandler, wie z. B. ein Mikrophon, in entsprechende elektrische oder elektromagnetische Signale auf der Leitung 202 umgewandelt wurde.

Die Spracheingabesignale auf der Leitung 202 entsprechen einer Folge oder einem Ablauf von Worten, z. B. einer Folge gesprochener Ziffern. Diese Sprachsignale werden in Zeitsegmente und in eine Anzahl charakteristischer Statistiken verarbeitet. Diese Segmentierung und Verarbeitung kann entweder vor der Spracherkennungseinheit 206 durchgeführt werden, oder sie kann der erste Teil der Operation der Spracherkennungseinheit 206 sein. Der Spracherkenner-HMM-Satz besteht aus Modellen, welche einem Schlüsselwortvokabularsatz entsprechen. Die Spracherkenner- HMMs führen in Verbindung mit der Spracherkennungseinheit 206 die Funktionen der Erkennung einer Wortfolge in der Eingangssprache und der Segmentierung jeder Eingangswortfolge durch. Die Spracherkennungseinheit 206 verwendet einen (nicht dargestellten) Hochleistungsprozessor und einen (nicht dargestellten) Speicher, um diese Spracherkennung in Echtzeit durchzuführen. Derartige Prozessor- und Speicheranordnungen findet man in Hochleistungs-Personal-Computern, Workstations, Sprachverarbeitungs-Einbaukarten und Minicomputern.

Die Worterkennungsfunktion des Spracherkenners 206 und die Segmentierungsfunktion sind bereits Standard. Der verwendete Erkennungs-Ziffernmodellsatz ist ähnlich einem, der in dem Artikel "Contex-dependent acoustic modeling for connected digit recognition" von C.H. Lee, W. Chou, B.H. Juang, L.R. Rabiner and J.G. Wilpon in Proceedings of the Acoustical Society of America 1993 beschrieben ist; und besteht aus Kontex-abhängigen Teilwort-HMMs zusammenhängender Dichte, die in einem Ziel-abhängigen Modus gelernt werden. Das Lernen dieser Erkennungsmodelle basiert auf einem Minimumklassifizierungsfehler-Lernprozeß unter Verwendung der verallgemeinerten Wahrscheinlichkeitsabnahme- Unterscheidungslernstruktur. Nach dem Lernen werden die Spracherkenner-HMMs in der Massenspeichervorrichtung 210 gespeichert. Das Ausgangssignal der Spracherkennungseinheit 206 ist eine Hypothese von dem, was den Schlüsselworten der Folge gesprochener Worte entspricht, welche auf der Leitung 202 eingegeben wurden. Diese Folgenhypothese und die verarbeiteten Sprachsegmente und Komponenten werden über die Leitung 226 und 228 der Sprachäußerungsüberprüfungseinheit 230 für eine weitere Verarbeitung gemäß der vorliegenden Erfindung zugeführt.

Die Sprachäußerungsüberprüfungseinheit 230 testet die Hypothese für jedes Wort einer gesprochenen Folge gegenüber einem mehrteiligen Überprüfungsmodell. Letzten Endes wird ein Folgen-basierender Test durchgeführt und die Folge entweder akzeptiert oder zurückgewiesen, wie es noch erläutert wird. Zur Durchführung dieser Tests werden Wahrscheinlichkeitsverhältnisse verwendet. Um einen Folgenbasierenden Wahrscheinlichkeitsverhältnistest zu formulieren, wird zuerst ein Wort-basierendes Wahrscheinlichkeitsverhältnis definiert, das Wahrscheinlichkeitsverteilungsparameter aufweist, welche auf unterscheidende Weise ermittelt werden. Zuerst sei die allgemeine Folge S = wq(1) wq(2) wq(3) ... wq(N) eine Darstellung einer Schlüsselwortfolgenhypothese der Länge N, welche von einem Verborgenes-Markov-Modell-(HMM)-Erkenner mit einem Vokabularsatz von {wk} erzeugt wird, wobei 1 ≤ k ≤ K ist. Die Funktion q(n), wobei 1 ≤ n ≤ N ist, ordnet dann die Wortnummer in dem Folgenablauf S dem Index des Wortes in dem Vokabularsatz zu. Durch die Definition von On als die Beobachtungsvektorfolge, welche dem Sprachsegment des Wortes wq(n) in S entspricht, wie sie von der HMM-Segmentierung ermittelt wurde, kann das Wortwahrscheinlichkeitsverhältnis ausgedrückt werden als:

T(On',wq(n)) = L[On H&sub0;(Wq(n))]/L[On H&sub1;(wq(n))]

wobei H&sub0;(wq(n) und H&sub1;(wq(n) die Null- und Alternativhypothesen für die entsprechende Überprüfung von wq(n) sind. In dem System 200 werden die Wahrscheinlichkeitsfunktionen unter Verwendung von HMMs moduliert, welche andere sind als die in der Erkennungseinheit 206 verwendeten HMMs. Daher kann die unmittelbar vorhergehende Gleichung umgeschrieben werden in:

T(On',wq(n)) = L[On H&sub0;(Λq(n))]/L[On H&sub1;(Ψq(n))]

wobei Lq(n) und Yq(n) die HMM-Sätze sind, welche der Null - und Alternativhypothese für das Wort wq(n) entsprechen. Im allgemeinen können Lg(n) und Yq(n) jeweils aus einem oder mehreren HMMs bestehen. In dieser Arbeit wird Lq(n) durch ein einzelnes HMM-Modell, bezeichnet durch lq(n), dargestellt:

L[On λq(n)] = LOn λq(n)

Die Wortwahrscheinlichkeit für wq(n), T(On; Wq(n)) wird auch als Überprüfungsvertrauenswert für die wq(n) bezeichnet. Die Definition des Alternativ-Hypothesenmodels wird auch durch eine Systemaufgabe einer zuverlässigen Detektion sowohl von Fehlerkennungen, als auch einer Nicht-Schlüsselwortsprache motiviert. Demzufolge wird ein zusammengesetztes alternatives Hypothesenmodell, welches aus einem Satz von zwei HMMs besteht, für die Anwendung definiert. Insbesondere ist Yq(n) = {Yq(n), fq(n)}, wobei Yq(n) eine ein "Anti-Schlüsselwort-Modell" modelliernde Fehlerkennung ist und fq(n)ein Füllermodell ist, das enthalten ist, um eine Nicht-Schlüsselwortsprache zu modellieren. Die Wahrscheinlichkeiten des Anti- Schlüsselwortes - und des Füllermodells werden kombiniert, um die Wahrscheinlichkeit der zusammengesetzten Alternativ- Hypothese wie folgt zu ergeben:

L[On Ψq(n)] = [¹/&sub2;L[On[Ψq(n)]κ + LOn φq(n)]κ]1/κ

wobei k eine positive Konstante ist. Wir bezeichnen den überprüfungsspezifischen Modellsatz für ein gegebenen Schlüsselwort wie wg(n) als Vq(n) = {lq(n), Yq(n), fq(n)]. Die Wahrscheinlichkeiten der Modelle, welche Vq(n) aufweisen, werden als die Überprüfungsbewertungen für die Überprüfungswahrscheinlichkeit für wq(n) bezeichnet.

Ein Folgen-basierendes Wahrscheinlichkeitsverhältnis ist als ein geometrisches Mittel des Wahrscheinlichkeitsverhältnisses der Wörter in der Folge definiert, in welcher das Folgenwahrscheinlichkeitsverhältnis gegeben ist durch:

wobei O die Beobachtungsfolge der gesamten Folge und g eine positive Konstante ist. Die Folgenwahrscheinlichkeitsverhältnisbewertung T(O; S) wird mit einem Schwellenwert verglichen, um eine Folgenüberprüfungsentscheidung zu treffen. Die Definition der Folgenwahrscheinlichkeitsbewertung gemäß der vorstehenden Gleichung legt nahe, daß die Schlüsselworte mit niedrigem Wahrscheinlichkeitsverhältnisbewertungen dazu tendieren, die Folgenbewertung zu dominieren. Für viele Anwendungen (z. B. verbundene Ziffern, welche beispielsweise Telefonnummern oder Kontonummern sein können) macht es Sinn, eine ganze Folge zurückzuweisen, wenn eines oder mehrere Worte in der Folge fehlerhaft sind. Weitere Formen der Gewichtung und Kombination der Wortwahrscheinlichkeitsverhältnisse neben der geometrischen Mittelung können ebenfalls angewendet werden. Die Kombination der Wortwahrscheinlichkeitsverhältnisse wird von der Kombinierereinheit 250 vorgenommen.

Ein wichtiges Merkmal der vorliegenden Erfindung besteht darin, daß die Überprüfungs-HMMs für einen minimalen Überprüfungsfehler gelernt/optimiert werden. Die Überprüfungs-HMMs beruhen auf ganzen Worten. Diese Überprüfungs-HMMs unterscheiden sich von den von der Spracherkennungseinheit 206 verwendeten Spracherkenner-HMMs. Konzeptionell ist die Spracherkennungseinheit 206 ein Netz, das jede Sprachäußerung einfängt, die entfernt einem Schlüsselwort ähnelt. Die Sprachäußerungsüberprüfungseinheit 230 ist konzeptionell ein Filter, welches die echten Schlüsselworte passieren läßt und alles andere zurückweist. Da sich diese Überprüfungs-HMMs von den Erkenner-HMMs unterscheiden, können sie für eine optimale Überprüfung ohne Berücksichtigung von Nachteilen, wie sie nach dem Stand der Technik auftraten, trainiert werden. Somit werden die in der Massenspeichereinheit 240 gespeicherten Wort-basierenden Überprüfungs-HMMs trainiert, um minimale Überprüfungsfehler zu erzeugen.

Die Prozedur zum Erzeugen minimaler Überprüfungsfehler verwendet ein unterscheidendes Lernen bzw. Trainieren, welches angewendet wird, um die Parameter des Überprüfungsmodellsatzes Vq(n) für jedes der Schlüsselworte in dem Erkennervokabularsatz zu ermitteln. Auf der Basis des für T(On; Wq(n)) in der vorstehenden Gleichung gegebenen Wortwahrscheinlichkeitsverhältnisses ist das Ziel dieses unterscheidenden Lernens ein dreifaches: (i) L[On lq(n)] groß im Vergleich zu L[On Yq(n)] und L[On fq(n)]] zu machen, wenn wq(n) korrekt in der Folge erkannt wird, (ii) L[On Yq(n)] groß im Vergleich zu L [On lq(n)] zu machen, wenn wq(n) fehlerkannt wird, und iii) L[On fq(n)] groß im Vergleich zu L [On]fq(n)] zu machen, wenn die Eingangssprache keinerlei Schlüsselwort enthält und wq(n) erkannt wird.

Der Logarithmus des invertierten Wortwahrscheinlichkeitsverhältnisses ergibt eine logarithmische Wahrscheinlichkeitsdifferenz, geschrieben als:

G(On; wq(n) = -logL[On Λq(n)] + log[L[OnΨq(n)]

Das Lernverfahren paßt die Parameter von Vq(n) durch Minimierung von G(On; wq(n)) an, wenn wq(n) korrekt erkannt wird, und durch Maximierung von G(On; wq(n)), wenn wq(n) fehlerhaft erkannt wird oder wenn die Eingangssprache keinerlei Schlüsselwort enthält und wq(n) erkannt wird.

Beispiele all dieser drei Fälle werden während des Lernverfahrens präsentiert. Da fehlerhafte Erkennungen in einem Hochleistungserkenner wesentlich weniger häufig auftreten als korrekte Erkennungen, wird ein N-Best- Algorithmus während des Lernens verwendet, um mehr Schlüsselwortfolgenhypothesen zu erzeugen, die fehlerhafte Erkennungen enthalten.

Während dieses Lernens wird die Funktion G(On; Wq(n)) unter Verwendung eines verallgemeinerten Wahrscheinlichkeitsabnahmestruktur optimiert, wie es in "Segmental GPD Training of HMM based speech recognizer" von W. Chou, B.H. Juang und C.H. Lee in Proceedings of ICASSP 1992 beschrieben ist. In einer solchen Struktur wird G(On; wq(n)) in eine glatte Verlustfunktion einbezogen, die zur Anwendung einer Gradientenabnahmeprozedur dient, um iterativ die Parameter von Vq(n) anzupassen. Insbesondere ergibt die Verlustfunktion ein Maß der Überprüfungsfehlerrate für ein gegebenes wq(n) und nimmt die Form einer Sigmoid-Funktion an, welche geschrieben wird als:

wobei a eine Konstante ist, welche die Glattheit der Sigmoid- Funktion steuert und b einen der binären Werte von +1 und -1 wie folgt annimmt:

+1, wenn wq(n) CR

-1, wenn wq(n) MR

-1, wenn wq(n) NR

Für die Werte von b bezieht sich CR auf die Klasse, in welcher wq(n) korrekt erkannt wird, NR bezieht sich auf die Klasse in welcher wq(n) fehlerhaft erkannt wird und NK bezieht sich auf die Klasse, in welcher die Eingangssprache kein Schlüsselwort enthält, wobei wq(n) erkannt wird. Die vorstehend dargestellte Verlustfunktion R(On; wq(n)) wird iterativ im Bezug auf die Parameter Vq(n) während des Lernverfahrens minimiert. Jedoch wird bei jeder Iteration nur ein Teilsatz der Modelle in dem Satz Vq(n) in der Klasse, in welche wq(n) fällt aktualisiert. Wenn wq(n) CR ist, werden alle drei Modelle in dem Satz aktualisiert. Wenn wq(n) MR, werden lq(n) und yq(n) aktualisiert. Zum Schluß wird, wenn wq(n) NK ist, nur das Füllermodel fq(n) aktualisiert. Auf diese Weise wird die Funktion von jedem der Modelle in dem Überprüfungsmodellsatz Vq(n) gesteuert und auf den gewünschten Minimumfehlerbetrieb feinabgestimmt.

Eine Aufgabe zur Erkennung verbundener Ziffern wurde für die Bewertung der Überprüfungsleistung des Wort-basierenden Minimumüberprüfungsfehler (WB-MVE)-Verfahren verwendet. Die bei der Bewertung verwendete Datenbank bestand aus einem Lernsatz von 16089 Ziffernfolgen und einem Testsatz von 21723 Folgen. Die Folgenlängen reichten von 1 bis 16 Ziffern mit einer mittleren Folgenlänge von 5,5. Diese Datenbank repräsentiert eine Sammlung von aus vielen unterschiedlichen Versuchen gesammelter Sprache und Datensammlungsbemühungen über das U.S. Telefonnetz. Daher umfaßt sie einen breiten Bereich von Aufzeichnungsbedingungen. Um das "Nicht im Vokabular"-Verhalten zu bewerten, benutzten wir eine zweite Sprachdatenbank, welche keinerlei Ziffernfolgen enthält. Sie besteht aus 6666 phonetisch ausgewogenen Phrasen und Sätzen, wobei 3796 Phrasen zum Lernen verwendet wurden und der Rest zum Testen.

Der Erkennungsmerkmalvektor bestand aus den nachstehenden 39 Parametern: 12 LPC-abgeleiteten Cepstral-Koeffizienten, 12 Delta-Cepstral-Koeffizienten, 12 Delta-Delta-Cepstral-Koeffizienten, normierter logarithmischer Energie, und dem Delta- und Delta-Delta-Energieparameter. Der Erkennungsziffernmodellsatz war ähnlich dem, welcher in dem vorstehend erwähnten Artikel "Contex-dependent acoustic modeling for connected digit recognition" von C.H. Lee, W. Chou, B.H. Juang, L.R. Rabiner and J.G. Wilpon in Proceedings of the Acoustical Society of America 1993 verwendet wurde, und bestand aus Kontex-abhängigen Teilwort-HMMs kontinuierlicher Dichte, welche in einem Ziel-abhängigen Modus gelernt wurden. Das Lernen dieser Erkennungsmodelle basierte auf einem Minimumklassifizierungsfehler-Lernen unter Verwendung der verallgemeinerten Wahrscheinlichkeitsabnahme- Unterscheidungslernstruktur, welche in dem Artikel "Contexdependent acoustic modeling for connected digit recognition" von C.H. Lee, W. Chou, B.H. Juang, L.R. Rabiner and J.G. Wilpon in Proceedings of the Acoustical Society of America 1993 beschrieben ist. Die gelernten Spracherkenner-HMMs werden in der Speichervorrichtung 210 zur Verwendung durch eine CPU und in einen (nicht dargestellten) Speicher gespeichert, um eine Sprecher-unabhängige Erkennungsfunktion bereitzustellen. Eine Folgenfehlerrate von 4,86% ohne Grammatik wurde mit diesem Modell erzielt. Die entsprechende Wortfehlerrate war 1,14%.

Zur Einordnung der Leistung des WB-MVE-Verfahrens der vorliegenden Erfindung wurde es mit einem weiteren Hochleistungs-Sprachäußerungs-Überprüfungsverfahren, vorgeschlagen von M. G. Rahim, C.H.Lee und B.H, Juang in ihrem Artikel "Discriminative Utterance Verification for Connected Digits Recognition" zur Veröffentlichung in Proceedings of Eurospeech'95' in September 1995, verglichen.

Bei diesen Grundlinienverfahren wurde der Test der Überprüfungshypothese unter Verwendung derselben Modelle durchgeführt, die in der Erkennungsphase verwendet wurden. Es sei angemerkt, daß, da die in dem Grundlinienverfahren vorgeschlagene Technik keinen zusätzlichen Modellspeicherraum für die Sprachäußerungsüberprüfung verwendet, der für die Bestimmung der Folgenwahrscheinlichkeitsbewertung erforderliche Rechenaufwand wesentlich höher als bei dem WB- MVE-Verfahen der vorliegenden Erfindung ist.

Der WB-MVE-Modellsatz Vq(n) repräsentiert Kontext-unabhängige Modelle, die unterscheidend gelernt werden. Jedes Modell in dem Satz Vq(n) wird durch ein 10-Zustände-8-Gemische-HMM repräsentiert. Insgesamt werden elf Sätze, welche den Ziffern 0 bis 9 und "oh" entsprechen, gelernt. Fig. 5 bis 7 stellen die Leistung des Grundlinien-Verfahrens im Vergleich zu dem des WB-MVE-Verfahrens dar. Fig. 5 stellt die Folgengenauigkeit als eine Funktion der Folgenrückweisungsrate dar. Eine andere Möglichkeit zur Betrachtung der Verbesserung in der Erkennungsgenauigkeit ist als eine Funktion der Folgenrückweisungsrate in Fig. 6 dargestellt. Fig. 6 stellt eine ROC-Kurve dar, welche die Falschalarmrate gültiger Ziffernfolgen darstellt, welche falsch erkannt worden, gegenüber der Falscherkennungsrate von Folgen, welche korrekt erkannt wurden. Fig. 5 und 6 zeigen, daß das WB-MVE-System und Verfahren deutlich das Grundliniensystem und Verfahren übertreffen. Beispielsweise ergeben an einem Arbeitspunkt von 5% Folgenrückweisung das WB-MVE-basierende System und Verfahren eine 2,70% Folgenfehlerrate im Vergleich zu 3,51% Folgenfehlerrate für Grundliniensystem und Verfahren. Die Überprüfungsleistung in der Nicht-Schlüsselwortdatenbank ist in Fig. 7 dargestellt. Fig. 7 stellt eine ROC-Kurve der Falschalarmrate von Nicht- Schlüsselwortfolgen gegenüber der falschen Rückweisung von korrekt erkannten Folgen dar. Hier ist die Leistung der zwei Verfahren vergleichbar, und beide sind in der Lage, bis zu 99% der Nicht-Schlüsselwortsätze bei dem 5% Gesamtfolgenrückweisungspegel zurückzuweisen.

Nachdem die Erfindung im Detail unter Bezugnahme auf ihre bevorzugten Ausführungsformen dargestellt und beschrieben wurde, dürfte es für den Fachmann auf diesem Gebiet selbstverständlich sein, daß verschiedene Änderung in Form, Detail und Anwendungen daran vorgenommen werden können. Daher sollen die beigefügten Ansprüche alle derartigen Veränderungen in Form, Details und Anwendungen, welche nicht von der Erfindung abweichen, wie sie in den beigefügten Ansprüchen definiert ist, mit einschließen.


Anspruch[de]

1. Verfahren für ein Spracherkennungssystem zur Überprüfung, ob Spracheingabesignale, welche digitalisierte Sprache umfassen, ein mögliches Schlüsselwort darstellen, wobei das mögliche Schlüsselwort von einem Spracherkenner bestimmt wird und wobei das Verfahren die Schritte umfaßt:

Verarbeiten der digitalisierten Sprache zu Erkenner-Beobachtungsvektoren;

Verarbeiten der Erkenner-Überwachungsvektoren in einem Verborgenes-Markov-Modell- (HMM-)Schlüsselwort- Erkenner, wobei der HMM-Schlüsselwort-Erkenner Ausgabesignale hat, welche das mögliche Schlüsselwort und eine Wahrscheinlichkeitsbewertung für das Wort darstellen;

Entwickeln einer Vielzahl von zumindest drei Überprüfungsbewertungen für das mögliche Schlüsselwort;

Entwickeln einer Bewertung für das Vertrauen in die Schlüsselwortüberprüfung durch Verbinden der Vielzahl von Schlüssel-Überprüfungsbewertungen einem Wortwahrscheinlichkeits-Verhältnis für das Schlüsselwort;

Überprüfen, ob das mögliche Schlüsselwort in den Spracheingabesignalen vorhanden ist durch Vergleichen der Bewertung für das Vertrauen in der Schlüsselwortüberprüfung mit einem Schwellwert; und

Ausgeben des möglichen Schlüsselworts als Ausgangssignal, wenn der Schwellwert-Test erfüllt wurde und Ausgeben eines Hinweises als Ausgangssignal, daß kein Schlüsselwort ermittelt wurde, falls der Schwellwert-Test nicht erfüllt wurde,

dadurch gekennzeichnet, daß Modelle, die zur Entwicklung der Vielzahl von Überprüfungsbewertungen verwendet wurden, durch unterscheidendes Lernen bestimmt werden, wobei die Modelle von den im HMM-Erkenner benutzten Modellen unabhängig sind.

2. Verfahren nach Anspruch 1, wobei das unterscheidende Lernverfahren den Schritt des iterativen Lernens aller für die Entwicklung der Vielzahl von Überprüfungswahrscheinlichkeiten für ein Schlüsselwort verwendeten Modelle umfaßt, um minimale Überprüfungsfehler zu liefern.

3. Verfahren nach Anspruch 1, wobei das unterscheidende Lernen eine verallgemeinerte Wahrscheinlichkeitsabnahme-Technik verwendet.

4. Schlüsselwort-Erkennungsvorrichtung (200), welche bestimmt, ob ein digitalisiertes Sprachsignal (202) ein Wort aus einer vorausgewählten Vielzahl von Schlüsselwörtern umfaßt, mit

einer Einrichtung zum Empfangen von Eingabesignalen (Teil von 206), welche digitalisierte Sprache darstellen und zum Entwickeln einer Vielzahl von das Signal darstellenden Eigenschaftsvektoren der digitalisierten Sprache (210);

einer Einrichtung, die unter Ansprechen auf die Eingangssignale und die Signale, welche die Eigenschaftsvektoren der digitalisierten Sprache darstellen, Ausgangssignale entwickelt, die ein mögliches Schlüsselwort (226), ein oder mehrere Unterwortsegmente des möglichen Schlüsselworts (228) und eine oder mehrere Wahrscheinlichkeitsbewertungen für jedes der Sprachsegmente darstellen;

einer Einrichtung (230, 240) zur Entwicklung einer Vielzahl von wortbasierten Überprüfungsmodell- Bewertungen für das mögliche Schlüsselwort;

einer Einrichtung zur Bestimmung einer Vertrauensbewertung durch Verbinden der Vielzahl von wortbasierten Überprüfungsbewertungen des Wortes (250);

einer Einrichtung (Block "ENTSCHEIDUNG" nach 250) zum Vergleichen der Vertrauensbewertung mit einem Schwellwert zum Bestimmen, ob das mögliche Schlüsselwort in den Eingangssignalen vorhanden ist; und

einer Einrichtung (Block "ENTSCHEIDUNG" nach 250) zum Ausgeben des möglichen Schlüsselworts als ein Ausgangssignal, wenn der Schwellwert-Test erfüllt wird und zum Ausgeben eines Hinweises als Ausgangssignal, daß kein Schlüsselwort ermittelt wurde, falls der Schwellwert-Test nicht erfüllt wurde,

gekennzeichnet durch

eine Einrichtung zur Bestimmung durch unterscheidende Lernmodelle, die zur Entwicklung der Vielzahl von Überprüfungsbewertungen verwendet wurden, wobei die Modelle von den im HMM-Erkenner benutzten Modellen unabhängig sind.

5. Vorrichtung nach Anspruch 4, wobei das unterscheidende Lernen eine verallgemeinerte Wahrscheinlichkeitsabnahme-Technik verwendet.







IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com