PatentDe  


Dokumentenidentifikation DE69732769T2 04.08.2005
EP-Veröffentlichungsnummer 0000890249
Titel EINRICHTUNG UND VERFAHREN ZUR VERMINDERUNG DER UNDURCHSCHAUBARKEIT EINES SPRACHERKENNUNGSWORTVERZEICHNISSES UND ZUR DYNAMISCHEN SELEKTION VON AKUSTISCHEN MODELLEN
Anmelder Nortel Networks Ltd., St. Laurent, Quebec, CA
Erfinder WONG, Chi, Palo Alto, US
Vertreter Patentanwälte Wallach, Koch & Partner, 80339 München
DE-Aktenzeichen 69732769
Vertragsstaaten DE, FR, GB, SE
Sprache des Dokument EN
EP-Anmeldetag 09.01.1997
EP-Aktenzeichen 979000593
WO-Anmeldetag 09.01.1997
PCT-Aktenzeichen PCT/CA97/00008
WO-Veröffentlichungsnummer 0097037481
WO-Veröffentlichungsdatum 09.10.1997
EP-Offenlegungsdatum 13.01.1999
EP date of grant 16.03.2005
Veröffentlichungstag im Patentblatt 04.08.2005
IPC-Hauptklasse H04M 1/27
IPC-Nebenklasse G10L 15/00   

Beschreibung[de]
Gebiet der Erfindung

Diese Erfindung bezieht sich auf die automatische Spracherkennung in Telekommunikationssystemen und auf die Verwendung derartiger Systeme zur Bereitstellung von einen großen Umfang aufweisenden sprachaktivierten Wähl- und Informationsrückgewinnungsdiensten.

Hintergrund der Erfindung

Bei der anfänglichen Entwicklung von Telefonsystemen war es für einen Telefonteilnehmer üblich, direkt mit einem Telefonisten an einem Fernsprechamt zu sprechen. Der Telefonteilnehmer forderte den Telefonisten auf, eine Verbindung zu einem angerufenen Teilnehmer herzustellen. Weil Telefon-Vermittlungen klein waren, kannte der Telefonist praktisch alle Teilnehmer mit ihrem Namen und stellte von Hand die angeforderte Verbindung her. Mit der Einführung von Wähltelefondiensten wurden Verbindungen innerhalb einer Vermittlung automatisch hergestellt, und lediglich bestimmte Ferngespräche erforderten die Unterstützung eines Telefonisten. Heute sind von einem Telefonisten unterstützte Verbindungen die Ausnahme geworden und sind üblicherweise vergleichsweise kostspielig. Maschinensimulierte Funktionen eines Telefonisten, unter Einschluss begrenzter Spracherkennungsdienste, wurden in letzter Zeit verfügbar, um einige typische von einem Telefonisten unterstützte Funktionen zu beschleunigen. Dies schließt R-Ferngespräche ein, bei denen die Herstellung der Verbindung von dem Einverständnis des angerufenen Teilnehmers abhängt, für den Dienst zu zahlen. Diese Funktionen sind jedoch auf die einfache Erkennung von „ja" oder „nein" beschränkt, so dass es wenig Raum für Fehlfunktionen aufgrund der Unsicherheit gibt, welches Wort gesprochen wurde. Es gab weiterhin Fortschritte bei Spracherkennungsdiensten, die sich auf Telefonnummer-Auskünfte beziehen, doch waren auch diese auf einen sehr beschränkten Wortschatz gerichtet.

Der Stand der Technik enthält mehrere neuere Entwicklungen, die sich auf die Spracherkennung allgemein und insbesondere auf die Spracherkennung beziehen, die auf Telekommunikationssysteme anwendbar sind.

Das US-Patent 5 091 947, das am 25. Februar 1992 auf den Namen von Ariyoshi et al. mit dem Titel „Speech Recognition Method and Apparatus" erteilt wurde, beschreibt ein Spracherkennungssystem zum Vergleich von sowohl Sprecherabhängigen als auch Sprecher-unabhängigen Äußerungen mit gespeicherten Sprachmustern innerhalb eines Koeffizienten-Speichers. Der Sprachidentifikations-Vergleicher wählt das eine Sprachmuster aus, das den höchsten Grad an Ähnlichkeit mit der betreffenden Äußerung hat.

Das US-Patent 5 165 095, das am 17. November 1992 auf den Namen von Borcherding erteilt wurde, beschreibt ein Spracherkennungssystem zur Einleitung eines Dialogs zur Feststellung der richtigen Telefonnummer. Gemäß dem '095-Patent wird der anrufende Teilnehmer zunächst identifiziert, so dass ein Zugriff auf eine Datenbank ausgeführt werden kann, die Sprecher-Schablonen enthält. Diese Schablonen werden dann zum Vergleich des Wählbefehls verwendet, so dass die Wählbefehle erkannt und ausgeführt werden können. Ein Beispiel der Wählbefehle in dem Patent ist „nach Hause anrufen", wobei „anrufen" der Wählbefehl und „nach Hause" die Zielidentifikation ist.

Gupta et al. beschreiben in dem US-Patent 5 390 278 vom 14. Februar 1995 eine Spracherkennung mit flexiblem Vokabular zur Erkennung von Sprache, die über das öffentliche Fernsprechwählnetz übertragen wird. Diese Spracherkennungstechnik ist ein Phonem-basiertes System, bei dem die Phoneme als verdeckte Markov-Modelle modelliert werden.

Trotz dieser fortlaufenden Entwicklungen ist die Funktionalität der automatischen Erkennung der menschlichen Sprache durch eine Maschine nicht so weit fortgeschritten, dass ein anrufender Teilnehmer einfach den Namen des angerufenen Teilnehmers sprechen kann und danach mit der gleichen Zuverlässigkeit wie durch einen Telefonisten in Fällen vermittelt wird, in denen die Datenbank für einen möglichen angerufenen Teilnehmer sehr groß ist (größer als 100 Namen).

Zusammenfassung der Erfindung

Die vorliegende Erfindung liegt auf dem Gebiet der Erkennung der menschlichen Sprache, die durch Maschinen durchgeführt wird, und bezieht sich insbesondere auf eine Verringerung der Kompliziertheit der Spracherkennungsaufgabe in Zusammenhang mit Namen, die von einem Telefonbenutzer in einem Telefonsystem gesprochen werden.

Einzelne Benutzer von Telefonnetzwerken werden in Teilmengen unterteilt, um die Identifikation der großen Anzahl von Teilnehmern an dem Dienst zu erleichtern. In dem öffentlichen Netz sind diese Teilmengen Ortsvermittlungen. Private Vermittlungsnetze, wie z. B. das Nortel Electronic Switching Network (elektroniches Vermittlungsnetzwerk, ESN) ordnen einzelne ESN-Nummern jedem Ort innerhalb des privaten Netzes zu. Die vorliegende Erfindung beruht auf diesen Teilmengen oder Ortsidentifikationen zur Verringerung der Kompliziertheit der Spracherkennungsanwendung.

Daher wird gemäß einem ersten Gesichtspunkt der vorliegenden Erfindung ein Telefon-Netzwerk geschaffen, das Folgendes einschließt:

eine Vielzahl von Telefonvermittlungen, die jeweils eine Vielzahl von Telefonapparaten mit Diensten versorgen, und die jeweils mit zumindest einer anderen der Telefonvermittlungen verbunden sind, um Telefon-Kommunikationen zwischen Benutzern bereitzustellen, die den Telefonapparaten zugeordnet sind, wobei das Netzwerk weiterhin Folgendes umfasst:

eine simulierte Telefonisten-Vorrichtung zum Empfang einer Sprachanforderung von einem Benutzer zur Verbindung mit einem anderen der Telefonbenutzer und zur Umsetzung der Anforderung in eine Telefonnummer zur Verwendung durch eine der Telefonvermittlungen (20) gemäß einem Spracherkennungs-Algorithmus und einem aktiven Spracherkennungs-Vokabular, das entsprechend der Ortsinformation der Anforderung ausgewählt wird.

In einer ESN-Anwendung ist das aktive Spracherkennungs-Vokabular auf die Namen von Individuen beschränkt, die von der ESN-Nummer mit Diensten versorgt werden. Bei einer bevorzugten Ausführungsform ist die ESN-Nummer, die außerdem ein Ortscode ist, in den ersten zwei oder drei Ziffern der Telefonnummer enthalten.

Gemäß einem weiteren Gesichtspunkt der Erfindung wird eine simulierte Telefonisten-Einrichtung für ein Telefonnetzwerk geschaffen, die Einrichtungen zum Speichern von Sprachäußerungen eines anrufenden Telefonbenutzers umfasst, wobei der Server weiterhin Folgendes umfasst:

Einrichtungen, die auf eine Ortsinformation in Zuordnung zu dem Telefonbenutzer ansprechen, um ein aktives Spracherkennungs-Vokabular auszuwählen;

Spracherkennungs-Einrichtungen zur Verarbeitung der gespeicherten Sprache-Äußerungen gemäß einem Spracherkennungs-Algorithmus und dem aktiven Spracherkennungs-Vokabular;

Telefonverzeichnis-Nachschlageeinrichtungen zur Identifikation eines Telefonnummer-Eintrags eines angerufenen Teilnehmers, der einem Ergebnis der Verarbeitung durch die Spracherkennungs-Einrichtung entspricht; und

Einrichtungen zur Übertragung des Telefonverzeichnis-Eintrags an eine Telefonvermittlung, die den angerufenen Teilnehmer mit Diensten versorgt.

Gemäß einem weiteren Gesichtspunkt der Erfindung wird eine Telefonvermittlung geschaffen, die Folgendes umfasst:

eine Vielzahl von Telefonapparaten und ein Vermittlungsnetzwerk zum Verbinden und Trennen der Telefonapparate, dadurch gekennzeichnet, dass die Telefonvermittlung weiterhin Folgendes umfasst:

eine simulierte Telefonisten-Telefonvorrichtung in Kommunikation mit dem Vermittlungsnetzwerk zum Empfang und zur Umsetzung von Sprachbandsignalen, die von einem ersten der Telefonapparate ausgehen, entsprechend einem Spracherkennungs-Algorithmus und einem aktiven Spracherkennungs-Vokabular, das entsprechend der Ortsinformation ausgewählt ist, die dem ersten der Telefonapparate entspricht, in eine Ziel-Nummer; und

eine Anrufsteuerung in Kommunikation mit der simulierten Telefonisten-Vorrichtung und dem Vermittlungsnetzwerk zur Herstellung einer Verbindung, die den ersten der Telefonapparate beinhaltet, entsprechend der Ziel-Nummer.

Die Erfindung ergibt weiterhin ein Verfahren zur Erfassung einer von einem anrufenden Telefonbenutzer gesprochenen Sprachanforderung zur Verbindung mit einem anderen Telefonbenutzer über eine automatische Telefonvermittlung, wobei das Verfahren die folgenden Schritte umfasst:

Speichern einer Vielzahl von Spracherkennungs-Vokabularen in Zuordnung zu geografischen Orten von Benutzern;

Empfangen der gesprochenen Sprachanforderung und Information hinsichtlich des geografischen Ortes des anrufenden Telefonbenutzers von der automatischen Telefonvermittlung;

Auswählen eines aktiven Spracherkennungs-Vokabulars entsprechend der Information hinsichtlich dem geografischen Ort des anrufenden Telefonbenutzers; und

entsprechend dem Spracherkennungs-Algorithmus und dem ausgewählten aktiven Spracherkennungs-Vokabular, Umsetzen der empfangenen Anforderung in eine Telefonverzeichnis-Nummer zur Verwendung durch die automatische Telefonverbindung bei dem Aufbau einer Telefonverbindung zwischen dem anrufenden Telefonbenutzer und dem anderen Telefonbenutzer.

Kurze Beschreibung der Zeichnungen

Die Erfindung wird nunmehr ausführlicher unter Bezugnahme auf die beigefügten Zeichnungen beschrieben, in denen:

1 ein Blockschaltbild ist, das Fernverbindungen zwischen privaten Vermittlungs-Orten zeigt;

2 ein Blockschaltbild der System-Hardware-Architektur ist;

3 ein Gesamt-Systemzustandsdiagramm ist; und

4 ein Zustandsdiagramm einer Schlüsselwort-Handhabungseinrichtung ist.

Ausführliche Beschreibung der Erfindung

Die folgende Beschreibung bezieht sich auf einen unternehmensweiten Sprach-Teilnehmerverzeichnis-Anrufdienst innerhalb einer Firma oder Gesellschaft, die eine Anzahl von Standorten hat. Jedem Standort ist ein einzigartiger elektronischer Vermittlungsnetzwerk-(ESN-)Ortscode oder eine ESN-Nummer zugeordnet. Wie dies in dem Blockschaltbild nach 1 gezeigt ist, ist die an einem Ort angeordnete Nebenstellenanlage (PBX) 20 an jedem Ort mit jedem anderen Ort oder Standort über Fernverbindungen 22 verbunden. Bei dieser Diskussion umfasst die ESN einen dreistelligen Code zur Identifikation des Standortes. Es ist jedoch verständlich, dass es nicht wesentlich ist, dass alle drei Ziffern zur Identifikation des Standortes verwendet werden, weil es ausreichend sein kann, beispielsweise die zwei ersten Ziffern zu verwenden.

2 erläutert die Hardware-Architektur gemäß einer bevorzugten Ausführungsform der Erfindung. Wie dies gezeigt ist, ist die PBX 20 mit einer Fernleitung 22 und einer Vielzahl von an diesem Ort angeordneten Telefonapparaten verbunden, wie dies in der Technik bekannt ist. Das Spracherkennungssystem 30 der Erfindung ist mit der PBX 20 über eine T1-Leitung 32 über eine T1-Karte 34 und über eine Signalisierungs-Verbindungsstrecke 36 und eine Signalisierungsstrecken-Karte 38 verbunden. Das Spracherkennungssystem 30 schließt einen Spracherkennungs-Prozessor, der mit einem Spracherkennungs-Algorithmus arbeitet, einen zentralen Prozessor und Steuereinheiten sowie Speicherkarten zum Speichern von aktiven Spracherkennungs-Vokabular-Datenbanken ein.

Obwohl sich 1 auf ein privates Vermittlungsnetzwerk unter Verwendung von ESN's bezieht, ist es verständlich, dass die Erfindung nicht auf derartige Netzwerke beschränkt ist, sondern auch zur Verwendung in öffentlichen Vermittlungssystemen angepasst werden kann.

Eine objektive Metrik, die zur Messung der Genauigkeit eines Spracherkennungssystems verwendet wird, ist die Wortfehlerrate (WER). Die WER ist als die Gesamtzahl von fehlerhaft erkannten Worten, die in einem Spracherkennungssystem auftritt, dividiert durch die Gesamtzahl der Worte, die von einem Benutzer des Systems gesprochen werden, definiert.

Die vorliegende Erfindung benutzt die Information hinsichtlich des Ortes oder Standortes des anrufenden Teilnehmers, um automatisch die Verbesserung der WER eines Spracherkennungssystems für den gesprochenen Namen eines angerufenen Teilnehmers zum Zweck der Verbindung eines Telefonanrufs zu unterstützen.

Es wurde empirisch gezeigt, dass sich die WER eines Spracherkennungssystems mit der Quadratwurzel der Perplexität des Vokabulars der Worte ändert, die erkannt werden (Kimbal, O. et al. „Recognition Performance and Grammatical Constraints", Proceedings of a Workshop on Speech Recognition, Report Number SAIC-86/1546, Defense Advanced Research Projects Agency, Palo Alto, 19.–20. Februar 1986).

Die Perplexität eines Vokabulars ist als das Maß der Beschränkungen definiert, die durch eine Grammatik auferlegt ist, oder des Grades der Unsicherheit, die der Grammatik einer Population von Benutzern gegeben wird. Die Perplexität wird mathematisch modelliert und in der folgenden Weise quantifiziert:

B = 2H worin: H die Entropy ist

P(w) die Wahrscheinlichkeit ist, dass w gesprochen wird

B die Perplexität der Anwendung ist.

Das Vokabular von Worten bei dieser Realisierung besteht vollständig aus Eigennamen, Ortsnamen und einer kleinen Anzahl von Schlüsselworten für die Befehlsgabe und Steuerung. Für große Firmen mit einer großen Anzahl von Angestellten werden die Eigennamen zu dem bestimmenden Faktor bei der Messung der Perplexität, weil die Anzahl von Angestellten die Anzahl von Ortsnamen und Schlüsselworten bei weitem übersteigt. Somit können Ortsnamen und Schlüsselworte bei dieser Berechnung ignoriert werden. Wenn wir eine vereinfachende Annahme machen, dass jeder Name mit gleicher Wahrscheinlichkeit gesprochen wird, so kann die vorstehende Gleichung zu der folgenden Gleichung vereinfacht werden:

worin L die durchschnittliche Anzahl von Worten in einem Satz ist,

S die Anzahl von Sätzen in dem Vokabular V ist.

Wenn wir weiterhin die Vereinfachung machen, dass Eigennamen zwei Worte enthalten – Vorname und Nachname –, und die Anzahl der Sätze in dem Vokabular äquivalent zu der Anzahl von Namen der Angestellten ist, so können wir die Gleichung weiterhin auf die folgende Gleichung vereinfachen: Perplexität =√|S|

Wenn wir die Annahme machen, dass das Ausmaß der Verwechselbarkeit zwischen Namen innerhalb einer großen Datenbank bei großen Datenbanken ähnlich ist, so hat die Genauigkeit eines Spracherkennungssystems die folgende Beziehung zu der Anzahl von Namen in dem Vokabular:

Wir können aus den vorstehenden Gleichungen beobachten, dass die WER mit der Kompliziertheit ansteigt und somit mit der Anzahl der Eigennamen in dem Vokabular ansteigt.

In der Vergangenheit haben Spracherkennungswissenschaftler verschiedene Verfahren zur Verringerung der Perplexität in dem Bemühen verwendet, die WER eines Spracherkennungssystems zu verbessern. Um dieses Ergebnis zu erzielen, wurden die meisten dieser Anstrengungen auf die linguistische Ebene fokussiert. Beispielsweise haben Wissenschaftler statistische Sprachenmodelle und linguistische Regeln der Phonologie verwendet, um die Perplexität oder Unsicherheit bei der Erkennung eines gesprochenen Wortes oder eines Satzes zu verringern.

Bei dieser Realisierung wird die Liste von Namen von Angestellten für jeden Standort in einem getrennten Spracherkennungsvokabular gespeichert. Der Name des Angestellten wird normalerweise den vier Ziffern der Telefonnummer zugeordnet, die auf den dreistelligen ESN- oder Ortscode folgen. Gemäß dem System der vorliegenden Erfindung wird ein anrufender Teilnehmer, der mit einem anderen Beschäftigten an dem gleichen Ort sprechen möchte, einfach den Vornamen und Nachnamen des Beschäftigten sprechen, mit dem eine Verbindung erwünscht ist. Das Spracherkennungssystem nimmt an, dass der anrufende Teilnehmer und der angerufene Teilnehmer sich an dem gleichen Standort befinden und die aktive Spracherkennungsvokabular-Datenbank laden, die die Namen aller Beschäftigten an diesem Standort enthält. Unter Verwendung eines üblichen Spracherkennungs-Algorithmus wird der von dem anrufenden Teilnehmer gesprochene Name von dem System mit dem Namen aller Beschäftigten in der Datenbank verglichen, und die beste Übereinstimmung wird ausgewählt. Der ausgewählte Name wird dem anrufenden Teilnehmer angekündigt, und der Anruf wird automatisch mit der Leitung verbunden, die der Telefonnummer zugeordnet ist, die dem angerufenen Teilnehmer zugeordnet ist, sofern nicht der anrufende Teilnehmer den Prozess dadurch unterbricht, dass er „nein" sagt. Danach trennt sich das Spracherkennungssystem von dem Anruf.

Wenn sich der angerufene Teilnehmer an einem anderen Standort als der anrufende Teilnehmer befindet, so kündigt der anrufende Teilnehmer zunächst den Standort des angerufenen Teilnehmers gefolgt von dem Namen des angerufenen Teilnehmers an. Das Spracherkennungssystem spricht durch die Ankündigung des Standortes und das nachfolgende Laden der aktiven Spracherkennungsvokabular-Datenbank an, die die Namen aller der Beschäftigten an dem angekündigten Standort des angerufenen Teilnehmers einschließt. Das Spracherkennungssystem wählt dann den Namen in der geladenen Datenbank aus, das am besten mit dem Namen des angerufenen Teilnehmers übereinstimmt. Der ausgewählte Name wird dem anrufenden Teilnehmer angekündigt, und der Anruf wird automatisch mit der Leitung verbunden, die der Telefonnummer zugeordnet ist, die dem angerufenen Teilnehmer zugeordnet ist, sofern nicht der anrufende Teilnehmer den Prozess dadurch unterbricht, dass er „nein" sagt. Danach trennt sich das Spracherkennungssystem von dem Anruf.

Weil der aktive Spracherkennungs-Vokabularsatz, der jeder ESN oder jedem Standort zugeordnet ist, lediglich einen Teil der Gesamtzahl der Beschäftigten der Firma oder Gesellschaft enthält, ist die WER wesentlich niedriger, als wenn das vollständige Verzeichnis aller Beschäftigten in die Datenbank geladen würde.

Die tatsächliche Verringerung der firmenweiten WER (C WER) hängt davon ab, wie gleichmäßig die Beschäftigten über die unterschiedlichen Standorte verteilt sind. In dem besten Fall, in dem die Beschäftigten gleichförmig auf jeden Standort verteilt sind, nimmt C WER entsprechend der folgenden Beziehung ab:

worin: n die Anzahl der Standorte ist.

Im Schlimmstfall, in dem sich lediglich ein Beschäftigter an jedem Standort befindet, mit Ausnahme eines Standortes, an dem sich alle die verbleibenden Beschäftigten befinden, ergibt sich eine vernachlässigbare Verringerung von C_WER:

worin: m die Anzahl der Beschäftigten in der Firma ist. C_WER = WER

für: m >> n.

In einer ähnlichen Weise, wie die ESN-Information von dem Spracherkennungssystem verwendet wird, um dynamisch den aktiven Vokabularsatz zu laden, kann die ESN-Information auch von dem Spracherkennungssystem dazu verwendet werden, den passenden akustischen Modellsatz auszuwählen. Spracherkennungssysteme verwenden vorher gesammelte Sprachabtastproben, damit diese als Bezugs-Schablonen dienen, mit denen neue gesprochene Sprachabtastproben für eine Klassifizierung verglichen und auf Übereinstimmung geprüft werden. Statistische Mustererkennungstechniken werden zum Vergleich neuer Sprachabtastproben mit Bezugsschablonen verwendet, um die beste Übereinstimmung festzustellen. Diese Bezugsschablonen werden als akustische Modelle in dem Spracherkennungssystem bezeichnet. Akustische Modelle können sich entsprechend dem regionalen Akzent und entsprechend gemäß den ESN-Standorten ändern. Das Spracherkennungssystem kann Standort-spezifische akustische Modelle verwenden, die dynamisch auf der Grundlage der ESN-Information geladen werden, die zum Zeitpunkt des Anrufes geliefert wird. Das Vorhandensein von Standort-spezifischen akustischen Modellen verringert ebenfalls die WER des Systems.

Die folgende Beschreibung erläutert ein Beispiel des Nortel-Sprach-Teilnehmerverzeichnis-Anrufdienstes. Das Zustandsdiagramm in den 3 und 4 beschreibt die Benutzerschnittstelle, wie sie für Benutzer des Dienstes erkennbar wird, und dieses Zustandsdiagramm soll nicht als eine Realisierungs-Spezifikation betrachtet werden. Einige Teile des Systems, wie die Fehlerbehebung und Befehle wurden fortgelassen.

In der folgenden Beschreibung bezeichnet die Verwendung der Kursivschrift den Systemzustand und die Verwendung eines Dollar-Symbols bezeichnet einen Parameter.

Beschreibung der Zustände in alphabetischer Ordnung Beendigung: 403
  • Spiele „Wer" ab
  • gehe zu Hör-Zeitablauf
Leerlauf: 301
  • /* gehe zu Leerlauf jedesmal dann, wenn ein Benutzer einhängt*/
  • Bei einem ankommenden Anruf
  • Holen ESN-Information
  • Setze $ORT auf der Grundlage von ESN-Information
  • gehe zu Hör-Zeitablauf
Schlüsselwort-Handhabung: 401
  • Fall Dienste-Orte: gehe zu Dienste-Ort Vermittlung: gehe zu Übergabe-Rezeption Beenden: gehe zu Beenden
  • Ende Fall
Bekannter Ort: 309
  • Setze $Ort auf $erkanntes Wort
  • Spiele $Ort ab
  • Spiele Beschäftigten-Namen ab
  • Gehe zu Hör-Zeitablauf
Hör-Zeitablauf: 302
  • Höre auf $Zeitablauf
  • Wenn der Benutzer spricht

    gehe zu Sprache
  • Sonst

    gehe zu Aufforderung
Ort-Handhabung: 306
  • Wenn $Ort bekannter Ort ist,

    Gehe zu bekannter Ort
  • Sonst

    Gehe zu unbekannter Ort
Aufforderung: 303
  • Fall (Zustand vor Hör-Zeitablauf)

    Leerlauf:

    Spiele „Wer"

    gehe zu Hör-Zeitablauf

    Der Rest der Zustände:

    Wenn $Zeitablauf die ersten zwei Male abläuft

    spiele Zeitablauf Hilfe.$Ort

    $Zeitablauf = 4 Sekunden

    gehe zu Hör-Zeitablauf

    Wenn $Zeitablauf zum dritten Mal abläuft

    spiele Schwierigkeiten

    gehe zu Übergabe-Rezeption
  • Ende Fall
Dienste-Ort: 402
  • Spiele verfügbaren Dienst ab
  • Spiele $Orts-Liste
  • Spiele „Wer" ab
  • gehe zu Hör-Zeitablauf
Sprache: 304
  • Lade den aktiven Vokabularsatz von $Ort
  • Hole $erkanntes Wort von Spracherkennung
  • Fall ($erkanntes Wort) Zurückweisung: gehe zu Zurückweisungs-Abwicklung $Name: gehe zu Anrufübergabe $Ort: gehe zu Orts-Abwicklung Schlüsselwort: gehe zu Schlüsselwort-Abwicklung
  • Ende Fall
Übergabeanruf: 305
  • Datenbank nachschlagen nach Telefonnummer Beschäftigter
  • Anruf übergeben
  • gehe zu Leerlauf
Übergabe an Rezeption: 404
  • Spiele Übergabe-Rezeption ab
  • Anruf an Rezeption übergeben
  • gehe zu Leerlauf
Unbekannter Ort: 308
  • Spiele nicht bedient.$Ort
  • Gehe zu Hör-Zeitablauf
Index der vorher aufgezeichneten Aufforderungen in alphabetischer Reihenfolge
  • Anrufen:

    Anruf $Name?
  • Schwierigkeiten:

    Das System hat Schwierigkeiten mit ihrer Anforderung.
  • Übergabe zur Rezeption.
  • Beschäftigten-Name:

    Beschäftigten-Name?
  • Nicht bedient:

    Dieser Dienst ist in $Ort nicht verfügbar. Wähle einen anderen Ort oder spreche für eine Liste von versorgten ESN-Orten „Dienste-Orte".
  • Dienst verfügbar:

    Dieser Dienst ist für die folgenden Nortel/BNR-Standorte verfügbar:

    $Ortsliste
  • Übergabe-Rezeption:

    Übergabe an Rezeption
  • Wer:

    Wen möchten Sie anrufen?

Anspruch[de]
  1. Telefon-Netzwerk mit:

    einer Vielzahl von Telefonvermittlungen (20), die jeweils zur Versorgung einer Vielzahl von Telefonapparaten mit Diensten dienen und die jeweils mit zumindest einer anderen der Telefonvermittlungen verbunden sind, um Telefonkommunikationen zwischen Telefonbenutzern bereitzustellen, die den Telefonapparaten zugeordnet sind, dadurch gekennzeichnet, dass das Netzwerk weiterhin Folgendes umfasst:

    eine simulierte Telefonisten-Vorrichtung zum Empfang einer Sprachanforderung von einem Benutzer für eine Verbindung mit einem anderen der Telefonbenutzer und zur Umsetzung der Anforderung in eine Teilnehmernummer zur Verwendung durch eine der Telefonvermittlungen (20) entsprechend einem Spracherkennungs-Algorithmus und einem aktiven Spracherkennungs-Vokabular, das entsprechend dem Ursprung der Anforderung ausgewählt ist.
  2. Simulierte Telefonisten-Vorrichtung für ein Telefon-Netzwerk, mit Einrichtungen zum Speichern von Sprachäußerungen eines einen anrufenden Teilnehmer darstellenden Telefonbenutzers, dadurch gekennzeichnet, dass der Server weiterhin Folgendes umfasst:

    auf eine Ortsinformation in Verbindung mit dem Telefonbenutzer ansprechende Einrichtungen zur Auswahl eines aktiven Spracherkennungs-Vokabulars;

    Spracherkennungs-Einrichtungen (30) zur Verarbeitung der gespeicherten Sprachäußerungen entsprechend einem Spracherkennungs-Algorithmus und dem aktiven Spracherkennungs-Vokabular;

    Telefonverzeichnis-Nachschlageeinrichtungen zur Identifikation eines Telefonverzeichnis-Eintrags eines angerufenen Teilnehmers, der einem Ergebnis der Verarbeitung durch die Spracherkennungs-Einrichtungen (30) entspricht; und

    Einrichtungen zur Übertragung des Telefonverzeichnis-Eintrages an eine Telefonvermittlung (20), die den angerufenen Teilnehmer mit Diensten versorgt.
  3. Simulierte Telefonisten-Vorrichtung nach Anspruch 2, bei der die Telefonverzeichnis-Nachschlageeinrichtung als Vorgabe auf die Identifikation durch einen Telefon-Bedienungsperson-Verzeichniseintrag in dem Fall aufläuft, dass es keinen Telefon-Verzeichniseintrag für den angerufenen Teilnehmer gibt, der dem Ergebnis der Verarbeitung durch die Spracherkennungs-Einrichtung (30) entspricht.
  4. Telefonvermittlung mit:

    einer Vielzahl von Telefonapparaten und einem Vermittlungsnetzwerk zum Verbinden und Trennen der Telefonapparate, dadurch gekennzeichnet, dass die Telefonvermittlung weiterhin Folgendes umfasst:

    eine simulierte Telefonisten-Telefonvorrichtung in Kommunikation mit dem Vermittlungsnetzwerk zum Empfangen und Umsetzen von Sprachbandsignalen, die von einem ersten der Telefonapparate ausgehen, entsprechend einem Spracherkennungs-Algorithmus und einem aktiven Spracherkennungs-Vokabular, das entsprechend einer Ortsinformation ausgewählt ist, die dem ersten der Telefonapparate entspricht, in eine Ziel-Nummer; und

    eine Anrufsteuerung in Kommunikation mit der simulierten Telefonisten-Telefonvorrichtung und dem Vermittlungsnetzwerk zur Herstellung einer Verbindung, die den ersten der Telefonapparate entsprechend der Zielnummer beinhaltet.
  5. Verfahren zur Erfassung einer von einem anrufenden Telefonbenutzer geäußerten Sprachanforderung zur Verbindung mit einem anderen Telefonbenutzer über eine automatische Telefonvermittlung (20), wobei das Verfahren durch die folgenden Schritte gekennzeichnet ist:

    Speichern einer Vielzahl von Spracherkennungs-Vokabularen in Zuordnung zu einem geografischen Ort von Benutzern;

    Empfangen der gesprochenen Sprachanforderung und Informationen hinsichtlich des geografischen Ortes des anrufenden Telefonbenutzers durch die automatische Telefonvermittlung (20);

    Auswahl eines aktiven Spracherkennungs-Vokabulars entsprechend der Information hinsichtlich des geografischen Ortes des anrufenden Telefonbenutzers; und

    in Abhängigkeit von dem Spracherkennungs-Algorithmus und dem ausgewählten aktiven Spracherkennungs-Vokabular, Umsetzen der empfangenen Anforderung in eine Telefonnummer zur Verwendung durch die automatische Telefonvermittlung (20) beim Aufbau einer Telefonverbindung zwischen dem anrufenden Telefonbenutzer und dem anderen Telefonbenutzer.
Es folgen 2 Blatt Zeichnungen






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

  Patente PDF

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com