PatentDe  


Dokumentenidentifikation DE69026866T2 02.10.1996
EP-Veröffentlichungsnummer 0404502
Titel Wähleinheit mit Spracherkennung
Anmelder NEC Corp., Tokio/Tokyo, JP
Erfinder Shimada, Keiko, c/o NEC Corporation, Minato-ku, Tokyo 108-01, JP
Vertreter Vossius & Partner, 81675 München
DE-Aktenzeichen 69026866
Vertragsstaaten DE, FR, GB, NL
Sprache des Dokument En
EP-Anmeldetag 19.06.1990
EP-Aktenzeichen 903066553
EP-Offenlegungsdatum 27.12.1990
EP date of grant 08.05.1996
Veröffentlichungstag im Patentblatt 02.10.1996
IPC-Hauptklasse H04M 1/27

Beschreibung[de]

Die Erfindung betrifft eine Wähleinheit eines Telefons, das an einem Mobil- oder ähnlichen Körper angebracht ist, und insbesondere eine Wähleinheit mit Spracherkennung, die als Reaktion auf in sie eingegebene Sprache betätigt werden kann.

Kommunikationsausrüstungen der Spracherkennungstechnologien verwendenden Art werden entwickelt und weisen ein in einem Fahrzeug angebrachtes Telefon mit einer Wähleinheit mit Spracherkennung auf. Bei der Wähleinheit mit Spracherkennung ist es aus Sicherheitsgründen bevorzugt, daß der Benutzer des Telefons, ohne es zu berühren, eine Verbindung beim Führen des Fahrzeugs aufbauen kann.

Eine herkömmliche Wähleinheit mit Spracherkennung weist einen Spracheingabeabschnitt auf, in den der Anrufer, d. h., der Telefonbenutzer, ein Kommando sprachlich eingeben kann. Ein Sprachmerkmals-Extraktionsabschnitt extrahiert die Merkmale von Sprache, die in den Eingabeabschnitt eingegeben wird. Ein Aufzeichnungsabschnitt für registrierte Sprache registriert die Sprache des Benutzers als Sprachmuster und zeichnet sie auf. Ein Teilnehmerspeicherabschnitt speichert die Telefonnummern und Namen von Teilnehmern, mit denen der Benutzer kommunizieren kann, in eineindeutiger Entsprechung. Ein Erkennungsabschnitt erkennt ein eingegebenes Sprachkommando durch Vergleichen der eingegebenen Sprache mit den im Aufzeichnungsabschnitt für registrierte Sprache registrierten Sprachmerkmalen. Ein Verarbeitungsabschnitt führt eine Verbindungsaufbauverarbeitung als Reaktion auf das erkannte Sprachkommando und entsprechend einem vorprogrammierten Verbindungsaufbauverfahren durch. Tastschalter können zur Eingabe digitaler Daten in den Verarbeitungsabschnitt betätigt werden. Als Reaktion auf einen vom Verarbeitungsabschnitt zugeführten Verbindungsaufbaubefehl liest ein Verbindungsaufbauabschnitt die Rufnummer des entsprechenden Teilnehmers aus und steuert dadurch die Erzeugung von Wahlimpulsen. Ein Wahlimpuls-Erzeugungsabschnitt gibt Wahlimpulse zu einer Kommunikationsleitung aus. In einen Speicherabschnitt für registrierte Antworten sind vorbestimmte Antwortinformationen zum Antworten auf der Grundlage eines Befehls vom Verarbeitungsabschnitt geladen. Ein Meldeabschnitt meldet Antwortinformationen.

Gewöhnlich erfolgen mit dem vorgenannten Verarbeitungsabschnitt Verbindungsaufbauoperationen und Bestätigungen durch ein Dialogverfahren zwischen dem Benutzer und dem Verarbeitungsabschnitt. Im folgenden wird ein spezifisches Dialogverfahren beschrieben.

Zunächst spricht der Telefonbenutzer ein Abrufkommando "SPEICHERABRUF". Die in den Spracheingabeabschnitt eingegebene Sprache wird als Abrufkommando durch die Spracherkennungsfunktion erkannt, die dem Sprachmerkmals-Extraktionsabschnitt, dem Aufzeichnungsabschnitt für registrierte Sprache und dem Erkennungsabschnitt zugewiesen ist. Das erkannte Abrufkommando wird vom Erkennungsabschnitt zum Verarbeitungsabschnitt geführt, der es seinerseits zum Speicherabschnitt für registrierte Antworten führt. Als Reaktion darauf gibt der Speicherabschnitt für registrierte Antworten Antwortinformationen aus, z. B. "BITTE DEN NAMEN", die vorab im Meldeabschnitt gespeichert sind, was den Meldeabschnitt veranlaßt, diese zu melden. Anschließend nennt der Benutzer einen im Teilnehmerspeicherabschnitt registrierten gewünschten Namen als Kommandowort. Wiederum erkennt die zuvor genannte Spracherkennungsfunktion den Namen als Kommandowort. Danach erzeugt der Meldeabschnitt als Antwort einen Ton, z. B. "TUT". Danach folgt eines von zwei unterschiedlichen Verfahren, d. h., ein Verfahren A, in dem eine Wähloperation unmittelbar erfolgt, oder ein Verfahren B, in dem der Benutzer die gewünschte Telefonnummer des Teilnehmers bestätigt.

Gibt der Benutzer im Verfahren A z. B. ein Sprachkommando "SENDEN" ein, operiert der Verarbeitungsabschnitt den Verbindungsaufbau-Steuerabschnitt und Wahlsignal-Erzeugungsabschnitt, um ein Anrufsignal zur Telefonleitung auszugeben. Gleichzeitig meldet der Meldeabschnitt ein spezielles Wort, das im Speicherabschnitt für registrierte Antworten gespeichert ist, z. B. "WÄHLE".

Äußert der Benutzer im Verfahren B "BESTÄTIGEN", meldet der Meldeabschnitt die registrierte Telefonnummer. Danach wird eine Verbindung auf die gleiche Weise wie im Verfahren A aufgebaut. Ist die gemeldete Telefonnummer gemäß der Bestimmung durch den Bestätigungsschritt falsch, gibt der Benutzer ein Sprachkommando, z. B. "LÖSCHEN", ein, um das Programm zum Anfangs schritt zurückzuführen.

Problematisch beim vorgenannten spezifischen Verfahren ist, daß bei ähnlichen Mustern einiger der im Aufzeichnungsabschnitt für registrierte Sprache gespeicherten Namen das Wort als Darstellung des richtigen Namens nicht immer das erstplazierte Erkennungsergebnis ist. Wird ein Wort als Darstellung eines Namens gemeldet, der dem gewünschten ähnelt, muß der Vorgang des Verbindungsaufbaus auf halbem Weg abgebrochen werden. Somit leidet die durch ein solches Verbindungsaufbauverfahren implementierte Wähleinheit nicht nur unter einer geringen Erkennungsrate, sondern zwingt den Benutzer auch dazu, die Operation zum Verbindungsaufbau wieder von vorn zu beginnen.

Die deutsche Patentanmeldung Nr. DE 3837385 beschreibt eine sprachbetätigte Wählvorrichtung dieser Art und beschreibt außerdem ein Verfahren zum Vermeiden des Problems einer mangelhaften Erkennung eines sprachlich eingegebenen Namens. Insbesondere wird bei Spracheingabe eines Namens eine Vorauswahl von Namen aus den in einer gespeicherten Teilnehmerliste registrierten Namen auf der Grundlage des Anfangsabschnitts des sprachlich eingegebenen Namens getroffen (siehe Fig. 5). Auf diese Weise wählt die Vorauswahl etwa ein Drittel bis ein Fünftel der Namen in der gespeicherten Liste aus. Danach werden diese ausgewählten Namen sprachlich ausgegeben und angezeigt, so daß der Benutzer oder Anrufer einen der Namen als Grundlage für das Wählverfahren festlegen kann. In der DE 3837385 findet sich kein Hinweis darauf, wie dies zu erreichen ist.

Bei einem weiteren bekannten Ansatz zur Bestätigung des gewünschten Teilnehmers handelt es sich um die Tastschalter, die der Benutzer bedienen kann, um mehrere Namen mit ähnlichen Sprachmustern melden zu lassen. Wie zuvor beschrieben wurde, ist es jedoch aus Sicherheitsgründen nicht wünschenswert, die Tastschalter während der Fahrt des Fahrzeugs zu betätigen.

Bisher wurde gemäß der zuvor gegebenen Beschreibung die Antwort bei der Bestätigung des Teilnehmers als Telefonnummer realisiert. Selten jedoch merkt sich der Benutzer jede der Teilnehmernummern oder ähnliche, Gegenstationen zugewiesene Telefonnummern. Da der Benutzer die Teilnehmernamen und die zugehörigen Telefonnummern sorgfältig eingibt, reicht es aus, eine Sprachantwort nur als Darstellung des Namens zur Bestätigung zu erzeugen. Daraus folgt, daß die Namen in einem Speicher, der im Adressatenaufzeichnungsabschnitt aufgebaut ist, als synthetische Sprachdaten gespeichert werden können, wenn sie zusammen mit den zugehörigen Telefonnummern registriert werden. Dies würde jedoch zu notwendiger zusätzlicher Speicherkapazität zum Synthetisieren der Namen führen. Zusammen mit der Tatsache, daß die gespeicherten Daten semipermanent gehalten werden müssen, macht dies die Adreßverwaltung und Datenspeicherung des Adreßspeicherabschnitts kompliziert und damit teuer.

ZUSAMMENFASSUNG DER ERFINDUNG

Die Erfindung sieht ein Verfahren zum Durchführen eines Verbindungsaufbauverfahrens in einer Wähleinheit mit Spracherkennung gemäß der Festlegung in den beigefügten selbständigen Ansprüchen vor, auf die bezug genommen werden sollte. Bevorzugte Merkmale der Erfindung sind in Unteransprüchen festgelegt.

Die Erfindung kann vorteilhaft eine Wähleinheit mit Spracherkennung vorsehen, durch die eine Verbindung leicht aufgebaut werden kann.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

Diese und andere Aufgaben, Merkmale und Vorteile der Erfindung gehen aus der nachfolgenden näheren Beschreibung der Erfindung im Zusammenhang mit den beigefügten Zeichnungen deutlicher hervor. Es zeigen:

Fig. 1 ein Blockschaltbild, das schematisch eine Wähleinheit mit Spracherkennung gemäß der Erfindung zeigt;

Fig. 2 einen Ablaufplan als Darstellung eines durch die veranschaulichte Ausführungsform durchgeführten Verbindungsaufbauverfahrens;

Fig. 3 einen Ablaufplan als Darstellung eines spezifischen Betriebs eines Verarbeitungsabschnitts zum Registrieren der Namen und zugehörigen Telefonnummern in einem Speicherabschnitt für registrierte Sprache und einem Adressatenspeicherabschnitt, die der veranschaulichten Ausführungsform eigen sind;

Fig. 4(a) und 4(b) Ablaufpläne zum Demonstrieren eines spezifischen Betriebs des Verarbeitungsabschnitts zum Aufbauen einer Verbindung in der veranschaulichten Ausführungsform;

Fig. 5 ein Blockschaltbild, das schematisch eine alternative Ausführungsform der Erfindung zeigt;

Fig. 6 eine Speichertabelle als Darstellung eines Speichers für aufgezeichnete Daten, der zur Ausführungsform von Fig. 5 gehört;

Fig. 7(a) und 7(b) Ablaufpläne zur Darstellung eines spezifischen Betriebs des Verarbeitungsabschnitts von Fig. 5, der die Bestätigung des Namens des anderen Teilnehmers betrifft; und

Fig. 8 ein Blockschaltbild, das schematisch eine weitere alternative Ausführungsform der Erfindung zeigt.

NÄHERE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN

In Fig. 1 der Zeichnungen ist eine erfindungsgemäße Wähleinheit mit Spracherkennung gezeigt, die einen Spracheingabeabschnitt 1 aufweist, in den der Telefonbenutzer ein Kommando sprachlich eingeben kann. Ein Sprachmerkmals-Extraktionsabschnitt 2 extrahiert die Merkmale von Sprache, die in den Spracheingabeabschnitt 1 eingegeben wird. Ein Aufzeichnungsabschnitt 3 für registrierte Sprache registriert die Sprache des Benutzers in Form von Sprachmustern und zeichnet sie auf. Ein Teilnehmerspeicherabschnitt 4 speichert die Telefonnummern und Namen registrierter Teilnehmer, mit denen der Benutzer kommunizieren kann. Ein Erkennungsabschnitt 5 vergleicht die eingegebene Sprache mit den im Sprachaufzeichnungsabschnitt 3 registrierten Sprachmerkmalen und erkennt dadurch ein Sprachkommando. Ein Verarbeitungsabschnitt 6 führt eine Verbindungsaufbauverarbeitung als Reaktion auf ein durch den Erkennungsabschnitt 5 erkanntes Sprachkommando und entsprechend einem Verfahren durch, das vorab als Verbindungsaufbauprogramm geladen wird. Tastschalter 7 dienen zur Eingabe digitaler Daten in den Verarbeitungsabschnitt 6. Als Reaktion auf einen Verbindungsaufbaubefehl vom Verarbeitungsabschnitt 6 liest ein Verbindungsaufbauabschnitt 8 die Rufnummer des festgelegten Teilnehmers aus und steuert die Erzeugung von Wahlimpulsen. Ein Wahlimpuls-Erzeugungsabschnitt 9 führt ein Anrufsignal zu einer Telefonleitung, die mit einer Telefonvermittlung über eine Funkfrequenz oder eine Drahtleitung verbunden sein kann. Ein Speicherabschnitt 10 für registrierte Antworten speichert vorbestimmte Antwortinformationen zum Beantworten eines Kommandos vom Verarbeitungsabschnitt 6. Ein Meldeabschnitt 11 meldet die Antwortinformationen, indem die Informationen über einen Lautsprecher ausgegeben und/oder die Informationen auf einer Anzeigetafel angezeigt werden.

Gemäß Fig. 2 und anhand von Fig. 1 beginnt das Verbindungsaufbauverfahren der veranschaulichten Ausführungsform mit dem Start 20 zum Inbetriebnehmen der Einheit. In Fig. 2 ist zu beachten, daß Kästchen mit Vollinien durch den Benutzer eingegebene Sprachkommandos und Kästchen mit Strichlinien durch den Meldeabschnitt 11 gemeldete Antwortinformationen darstellen. Zunächst spricht der Benutzer ein Abrufkommando "SPEICHERABRUF", um es in den Spracheingabeabschnitt 1 einzugeben. Das resultierende Sprachsignal wird als Abruf kommando durch die Spracherkennungsfunktion erkannt, die dem Sprachmerkmals-Extraktionsabschnitt 2, dem Aufzeichnungsabschnitt 3 für registrierte Sprache und dem Erkennungsabschnitt 5 zugewiesen ist. Wird das Abrufkommando vom Erkennungsabschnitt 5 zum Verarbeitungsabschnitt 6 geführt, führt der Verarbeitungsabschnitt 6 das Abrufkommando zum Speicherabschnitt 10 für registrierte Antworten zusammen mit einem Antwortbefehl. Als Reaktion darauf befiehlt der Speicherabschnitt 10 für registrierte Antworten dem Meldeabschnitt 11, die Antwort 22 zu melden, die zum Abrufkommando gehört und vorab gespeichert ist, z. B. "BITTE DEN NAMEN". Danach meldet der Meldeabschnitt 11 die Antwortinformationen sprachlich. Als nächstes gibt der Benutzer ein Kommando 23 in Form eines Kommandoworts ein, das den im Teilnehmerspeicherabschnitt 4 registrierten Namen darstellt. Wiederum wird der Name des Kommandoworts durch die Spracherkennungsfunktion erkannt. Dem folgt eine Antwort 24, die ein Antwortton ist, z. B. "TUT", und durch den Meldeabschnitt 11 erzeugt wird. Danach kann der Benutzer eines von zwei unterschiedlichen Verfahren wählen, d. h., ein Verfahren A, das unmittelbar einen Wählvorgang beginnt, oder ein Verfahren B, in dem der Benutzer die Telefonnummer des anderen Teilnehmers bestätigen kann.

Im Verfahren A äußert der Benutzer z. B. "SENDEN" als Kommando 25. Als Reaktion darauf veranlaßt der Verarbeitungsabschnitt 6 den Verbindungsaufbauabschnitt 8 und den Wahlimpuls-Erzeugungsabschnitt 9, Operationen zum Verbindungsaufbau mit dem Ergebnis durchzuführen, daß ein Anrufsignal zur Kommunikationsleitung ausgesendet wird. Gleichzeitig veranlaßt der Verarbeitungsabschnitt 6 den Meldeabschnitt 11, spezielle, im Speicherabschnitt 10 für registrierte Antworten registrierte Informationen zu melden, z. B. "WÄHLE", was dürch eine Antwort 26 dargestellt ist.

Andererseits äußert im Verfahren B der Benutzer das Wort "BESTÄTIGEN", um es in den Spracheingabeabschnitt als Kommando 27 einzugeben, so daß der Meldeabschnitt 11 die im Teilnehmerspeicherabschnitt 4 registrierte Telefonnummer der Gegenstation durch eine Antwort 28 meldet. Das Kommando 29 und die Antwort 30 sind die gleichen wie im Verfahren A.

Es wird angenommen, daß sich die durch den Meldeabschnitt 11 als Antwort 28 als Reaktion auf das Kommando 23 genannte Telefonnummer vom erwarteten Namen unterscheidet, d. h., daß der Erkennungsabschnitt 5 den eingegebenen Namen falsch erkannt hat. In diesem Fall braucht in der veranschaulichten Ausführungsform der Benutzer den Ablauf des Verbindungsaufbaus nicht von neuem zu beginnen. Insbesondere kann der Benutzer einen niedriger plazierten Kandidaten durch Eingeben eines Sprachkommandos "NÄCHSTER" in den Spracheingabeabschnitt als Kommando 31 abrufen. Hat der Erkennungsabschnitt 5 mehrere Kandidaten als Reaktion auf das Kommando 31 erkannt, meldet der Meldeabschnitt 11 die zum niedriger plazierten Kandidaten gehörende Telefonnummer. Wenn auch der zweite Kandidat nicht der gewünschte ist, wird das Kommando 31 erneut eingegeben, um den Meldeabschnitt 11 zu veranlassen, dem Benutzer die Telefonnummer des nachfolgenden Kandidaten zu melden. Findet der Erkennungsabschnitt 5 keine Kandidaten oder sind die Kandidaten erschöpft, meldet er "KEIN NAME" als Antwort 33. Anschließend kehrt das Programm zum Anfangsschritt zurück, d. h., zum Start 20.

Unterscheidet sich gemäß der vorangegangenen Beschreibung der durch den Erkennungsabschnitt 5 erkannte Name des erstplazierten Kandidaten vom gewünschten Namen, kann der Benutzer die zum Namen des niedriger plazierten Kandidaten gehörende Telefonnummer durch Eingeben eines speziellen Kommandos abrufen. Dadurch wird die Erkennungsfehlerrate auch dann erfolgreich verringert, wenn ein Name oder ein Wort mit einem Sprachmuster eingegeben wird, das denen der im Speicherabschnitt 3 für registrierte Sprache gespeicherten Namen ähnelt. Außerdem braucht der Benutzer nicht den Ablauf zum Verbindungsaufbau von neuem zu beginnen, so daß eine Verbindung rationell aufgebaut werden kann.

Anhand von Fig. 3 wird beschrieben, wie die Teilnehmer, mit denen das Telefon kommunizieren kann, durch den Benutzer registriert werden. Betätigt der Benutzer die Tastschalter 7, um ein Registrierkommando zum Verarbeitungsabschnitt 6 zu führen, startet der Verarbeitungsabschnitt 6 ein Verfahren zum Registrieren der Telefonnummern und Namen der Teilnehmer (Schritt 301). Anschließend gibt der Benutzer eine Telefonnummer eines Teilnehmers und danach ein Speicherkommando mit den Tastschaltern 7 in den Verarbeitungsabschnitt 6 ein. Ferner gibt der Benutzer eine Speichernummer z. B. zur Zielwahl entsprechend der Telefonnummer des Teilnehmers und danach ein Speicherkommando mit den Tastschaltern 7 ein. Als Reaktion darauf schreibt der Verarbeitungsabschnitt 6 die zum Teilnehmer gehörende Telefonnummer und die Speichernummer in einen Speicher, der im Teilnehmerspeicherabschnitt 4 eingebaut ist (Schritt 302). Anschließend gibt der Benutzer einen Namen sprachlich in den Spracheingabeabschnitt 1 ein. Das resultierende Sprachsignal wird zum Sprachmerkmals-Extraktionsabschnitt 2 mit dem Ergebnis geführt, daß das Sprachmerkmalsmuster extrahiert wird. Das extrahierte Sprachmuster wird zum Erkennungsabschnitt 5 geführt. Der Verarbeitungsabschnitt 6 veranlaßt den Erkennungsabschnitt 5, das zur vorgenannten Speichernummer gehörende extrahierte Sprachmuster in den Speicher des Speicherabschnitts 3 für registrierte Sprache zu schreiben (Schritt 303). Damit ist die Schrittfolge zum Registrieren der Telefonnummer und des Namens eines Teilnehmers abgeschlossen. Anschließend kann der Benutzer die Schritte 301 bis 304 wiederholen, wobei die Anzahl der Wiederholungen der Anzahl gewünschter Teilnehmer entspricht.

Gemäß Fig. 4(a) und 4(b) ist die Wähleinheit bei ihrer Inbetriebnahme vollständig auf den Verbindungsaufbau vorbereitet (Schritt 401).

Zunächst äußert der Benutzer ein Kommando "SPEICHERAB- RUF", um es in den Spracheingabeabschnitt 1 einzugeben. Der Erkennungsabschnitt 5 vergleicht die Merkmale der eingegebenen Sprache mit den vorab im Speicherabschnitt 3 für registrierte Sprache registrierten Merkmalen und erkennt dadurch die Spracheingabe als Abrufkommando. Das Abrufkommando wird vom Erkennungsabschnitt 5 zum Verarbeitungsabschnitt 6 geführt. Bei Empfang des Abrufkommandos (Schritt 402) führt der Verarbeitungsabschnitt 6 das Abrufkommando und einen Antwortbefehl zum Speicherabschnitt 10 für registrierte Antworten (Schritt 403). Danach führt der Speicherabschnitt 10 zum Abrufkommando gehörende Antwortinformationen "BITTE DEN NAMEN" zum Meldeabschnitt 11 und veranlaßt diesen dadurch, die Antwortinformationen zu nennen.

Nach Empfang der Antwortinformationen gibt der Benutzer den Namen des gewünschten Teilnehmers in den Spracheingabeabschnitt 1 ein. Der Erkennungsabschnitt 5 erkennt den eingegebenen Namen und führt eine zum eingegebenen Namen gehörende Speichernummer zum Verarbeitungsabschnitt 6. Wie zuvor erläutert wurde, gehört die Speichernummer zur Telefonnummer oder zum Namen, die im Teilnehmerspeicherabschnitt 4 gespeichert sind. Während der Erkennungsabschnitt 5 Namen auswählt, die den Sprachmerkmalen des eingegebenen Namens ähneln, werden mehrere zu diesen Namen gehörende Speichernummern zum Verarbeitungsabschnitt 6 geführt. Beispielsweise werden der erstbis drittplazierte Kandidat ausgewählt, die im Speicherabschnitt 3 für registrierte Sprache gespeichert sind. Bei Empfang der Speichernummern (Schritt 404) führt der Verarbeitungsabschnitt 6 die dem ersten Kandidaten zugewiesene Speichernummer zusammen mit einem Antwortbefehl zum Speicherabschnitt 10 für registrierte Antworten (Schritt 405). Als Reaktion auf die Speichernummer und den Antwortbefehl führt der Speicherabschnitt 10 zugehörige Antwortinformationen "TUT" zum Meldeabschnitt 11, um diesen zu veranlassen, die Antwortinformationen zu melden.

Bei Empfang der Antwort "TUT" gibt der Benutzer ein Sprachkommando "SENDEN" oder "BESTÄTIGEN" in den Spracheingabeabschnitt 1 ein. Als Reaktion daraufführt der Erkennungsabschnitt 5 das Kommando "SENDEN" oder "BESTÄTIGEN" zum Verarbeitungsabschnitt 6. Bei Empfang des Kommandos (Schritt 406) bestimmt der Verarbeitungsabschnitt 6, ob das Kommando "SENDEN" oder "BESTÄTIGEN" lautet (Schritt 407).

Lautet das Kommando "SENDEN", führt der Verarbeitungsabschnitt 6 das Kommando "SENDEN" und einen Antwortbefehl zum Speicherabschnitt 10 für registrierte Antworten. Der Speicherabschnitt 10 weist den Meldeabschnitt 11 an, eine Antwort "WÄHLE" zu erzeugen (Schritt 408), wodurch der Meldeabschnitt 11 diese Antwortinformationen nennt. Nach Abschluß des Meldens befiehlt der Verarbeitungsabschnitt 6 dem Verbindungsaufbauabschnitt 8, die im Schritt 404 empfangene Speichernummer des erstplazierten Kandidaten bereitzustellen und eine Verbindung aufzubauen (Schritt 409). Als Reaktion auf den Befehl liest der Verbindungsaufbauabschnitt 8 eine zur empfangenen Speichernummer gehörende Telefonnummer aus dem Teilnehmerspeicherabschnitt 4 aus und führt die Telefonnummer zum Wahlimpuls-Erzeugungsabschnitt 9. Nachdem der Wahlimpuls-Erzeugungsabschnitt 9 ein Wahlsignal zur Telefonleitung ausgesendet hat, beendet der Verarbeitungsabschnitt 6 das Verbindungsaufbauverfahren (Schritt 410).

Lautet andererseits das am Verarbeitungsabschnitt 6 eintreffende Sprachkommando "BESTÄTIGEN", liest der Verarbeitungsabschnitt 6 die zugehrige Telefonnummer aus dem Teilnehmerspeicherabschnitt 4 auf der Grundlage der empfangenen Speichernummer des erstplazierten Kandidaten aus (Schritt 411). Der Verarbeitungsabschnitt 6 führt die ausgelesene Telefonnummer und einen Antwortbefehl zum Speicherabschnitt 10 für registrierte Antworten (Schritt 412), während der Speicherabschnitt 10 den Meldeabschnitt 11 anweist, "TELEFONNUM- MER" zu melden. Als Ergebnis meldet der Meldeabschnitt 11 die Telefonnummer sprachlich.

Indem er die durch den Meldeabschnitt 11 genannten Telefonnummer vernimmt, bestimmt der Benutzer, ob zu wählen oder die Telefonnummer des zweitplazierten Kandidaten zu betrachten ist. Ist die gemeldete Telefonnummer die gewünschte, gibt der Benutzer ein Sprachkommando "SENDEN" ein, ist sie dagegen nicht die gewünschte, gibt der Benutzer ein Sprachkommando "NÄCHSTE" ein. Der Erkennungsabschnitt 5 identifiziert das in den Spracheingabeabschnitt 1 eingegebene Kommando und führt einen entsprechenden Befehl zum Verarbeitungsabschnitt 6. Bei Empfang dieses Befehls (Schritt 413) identifiziert ihn der Verarbeitungsabschnitt 6 und führt den Schritt 408 aus, falls er "SENDEN" darstellt.

Lautet der Befehl "NÄCHSTE", bestimmt der Verarbeitungsabschnitt 6, ob die Speichernummer des nächsten Kandidaten vorhanden ist (Schritt 415). Bei einer bejahenden Antwort im Schritt 415 kehrt das Programm zum Schritt 411 zurück. Bei einer verneinenden Antwort im Schritt 415, führt der Verarbeitungsabschnitt 6 ein Kommando als Meldung von "KEIN NAME" und einen Antwortbefehl zum Speicherabschnitt 10 für registrierte Antworten (Schritt 416). Danach wird das Verbindungsaufbauverfahren beendet (Schritt 417), und der Verarbeitungsabschnitt 6 kehrt wieder in den Bereitschaftszustand zurück, der dern Schritt 401 vorausgeht.

Zu beachten ist, daß die Operationen des Verarbeitungsabschnitts 6 und des Erkennungsabschnitts 5 durch eine integrierte Schaltung µPD702161, hergestellt und vertrieben von der Firma NEC, realisiert sein können.

Anhand von Fig. 5 wird eine alternative Ausführungsform der Erfindung beschrieben. Darstellungsgemaß weist die alternative Ausführungsform auf: ein Mikrofon 51 zur Spracheingabe des Benutzers, einen Verstärker 52 zum Verstärken des eingegebenen Sprachsignals, eine sprachanalysierende integrierte Schaltung (IC) 53 zum Analysieren der Merkmale des durch den Verstärker 52 ausgegebenen Sprachsignals, einen Mikroprozessor 54, einen Speicher 55 für registrierte Muster, der Sprachmerkmale speichert, eine Aufzeichnungs- und Wiedergabe- IC 56 zum Aufzeichnen des durch den Verstärker 52 ausgegebenen Sprachsignals und Durchführen einer Sprachantwortverarbeitung, einen Speicher 57 für Sprachantwortdaten und einen Speicher 58 für aufgezeichnete Daten, die mit der Aufzeichnungs- und Wiedergabe-IC 56 verbunden sind, einen Verstärker 59 zum Verstärken des durch die Aufzeichnungs- und Wiedergabe-IC 56 ausgegebenen Sprachsignals und einen Lautsprecher 60 zum Ausgeben des Sprachsignals als Sprachantwort. Eine Wählvorrichtung 62 ist mit dem Mikroprozessor 54 über eine Eingabe-/Ausgabe-Schnittstelle (E/A-Schnittstelle) 61 verbunden. In der Wählvorrichtung 62 ist ein Speicher 63 eingebaut. Tastschalter 64 sind mit der Wählvorrichtung 62 zum Eingeben digitaler Daten verbunden. Ein Anrufsignal oder Wahlimpulse werden von der Wählvorrichtung 62 zur Telefonleitung 65 herausgeführt. Die sprachanalysierende IC 53 und der Speicher 55 für registrierte Muster sind mit dem Mikroprozessor 54 durch eine Busleitung verbunden.

Eine Spracheingabe des Benutzers erfolgt in das Mikrofon 51, wird durch den Verstärker 52 verstärkt und danach zur sprachanalysierenden IC 53 geführt. Ist das ablaufende Verfahren das Verfahren zur Teilnehmerregistrierung, werden die durch die sprachanalysierende IC 53 erzeugten Sprachmerkmale in den Speicher 55 für registrierte Muster zusammen mit der zum Teilnehmer gehörenden Speichernummer durch den Mikroprozessor 54 eingeschrieben. Der Speicher 55 kann als S-RAM oder ähnliche Speichervorrichtung implementiert sein. Dabei registriert der Mikroprozessor 54 den Namen und die Telefonnummer des Teilnehmers im Speicher 63 der Wählvorrichtung 62 über die E/A-Schnittstelle 61, während er sie mit der Speichernummer in Beziehung setzt. Die Speichernummer kann zum Mikroprozessor 54 auch als Zielrufnummer durch die Tastschalter oder die Wähleinrichtung 64 geführt werden. Wie zuvor erwähnt wurde, gehören Zielrufnummer (Speichernummer), Name und Telefonnummer zueinander. Beispielsweise gehören die "Zielrufnummer 55 (Speichernummer 55)", "NEC" und "03-544-1111" zueinander.

Während in dieser speziellen Ausführungsform der Benutzer einen Ablauf zum Verbindungsaufbau durchführt, wird für die Aufzeichnungs- und Wiedergabe-IC 56 ein Aufzeichnungszustand beibehalten, um kontinuierlich die Spracheingabe in das Mikrofon 51 aufzuzeichnen. Die so aufgezeichneten Daten werden nacheinander in den Speicher 58 für aufgezeichnete Daten geschrieben, der als D-RAM oder ähnliche Speichervorrichtung implementiert ist und eine Kapazität entsprechend einem der im Speicher 55 für registrierte Muster gespeicherten Namen hat.

Gemäß Fig. 6 hat der Speicher 58 für aufgezeichnete Daten eine Kapazität von n Bytes, d. h., Byte 0 bis Byte (n - 1), von denen jedes aufgezeichnete Daten als Darstellung eines Namens eines einzelnen Teilnehmers speichern kann. Die aufgezeichneten Daten werden nacheinander in den Speicher 58 vom Byte 0 bis zum Byte (n - 1) und dann wieder bis zum Byte 0 eingeschrieben. Auf diese Weise werden die aufgezeichneten Daten zyklisch in den Speicher 58 für aufgezeichnete Daten eingeschrieben.

Der Mikroprozessor 54 veranlaßt die Aufzeichnungs- und Wiedergabe-IC 56, die Aufzeichnung einzustellen, wenn er den "Namen" des Teilnehmers als Reaktion auf das eingegebene Sprachsignal erkannt hat. Unter der Annahme, daß von den aufgezeichneten Daten die letzten Abtastdaten in das elfte Byte oder Byte 10 des Speichers 58 für aufgezeichnete Daten geschrieben hat und daß der "Name" die maximale Speicherkapazität benötigt, wird der Name in alle der n Bytes zyklisch vom Byte 11 zum Byte 10 geschrieben sein. Ist die zum Registrieren des "Namens" benötigte Kapazität kleiner als n Bytes, können mit Ausnahme des "Namens" unnötige Daten, die im Speicher 58 für aufgezeichnete Daten gespeichert sind, durch die Funktion eines Detektierens des Anfangs eines "Namens" gelöscht werden, die dem Mikroprozessor 54 eigen ist. Werden also die n Bytes des Speichers 58 in der Zählung vom Byte 11 wiedergegeben, kann der durch den Benutzer eingegebene "Name" als Sprachantwort verwendet werden, was nachfolgend beschrieben wird.

Betrachtet werden soll die als Beispiel zuvor genannte Speichernummer. Gibt in der veranschaulichten Ausführungsform der Benutzer den Teilnehmernamen "NEC" in das Mikrofon 51 ein, werden eine vorab im Speicher 57 für Sprachantwortdaten in Zugehörigkeit zur Speichernummer gespeicherte Sprachantwort sowie die aufgezeichneten Daten kombiniert, um Antwortinformationen zu erzeugen. Der Speicher 57 ist durch einen ROM oder eine ähnliche Speichervorrichtung gebildet. Empfängt z. B. die Aufzeichnungs- und Wiedergabe-IC 56 die Speichernummer und einen Namen-Antwortbefehl vom Mikroprozessor 54, liest sie "NEC" aus den aufgezeichneten Daten und "RUFE" aus den Antwortinformationen aus, die zur Speichernummer gehören, kombiniert sie und erzeugt anschließend eine Meldung "RUFE NEC" über den Verstärker 59 und den Lautsprecher 60.

Wie zuvor erwähnt wurde, bestätigt der Benutzer den Teilnehmernamen durch Hören der Antwort, bei der es sich um die vom Benutzer selbst eingegebene Sprache handelt und die daher natürlich klingt. Diese Ausführungsform hat einen einfachen Aufbau, da die erforderliche Kapazität des Speichers zum Speichern aufgezeichneter Daten nicht größer als ein einzelner Name ist.

Fig. 7(a) zeigt einen Ablaufplan als spezifische Darstellung des Kommandos 23 und der Antwort 24 von Fig. 2. Das Verbindungsaufbauverfahren beginnt, wenn die Wähleinheit in Betrieb genommen wird (Schritt 701). Der Mikroprozessor 54 führt zur Aufzeichnungs- und Wiedergabe-IC 56 einen Befehl zum Aufzeichnen eines Sprachsignals, das in das Mikrofon 51 und über den Verstärker 52 einzugeben ist, und einen Befehl zum Einschreiben der aufgezeichneten Daten in den Speicher 58 für aufgezeichnete Daten (Schritt 702). In diesem Zustand erwartet der Mikroprozessor 54 die Eingabe eines Sprachkommandos in das Mikrofon 51. Gibt der Benutzer ein Sprachkommando in das Mikrofon 51 ein, extrahiert die sprachanalysierende IC 53 die Merkmale der Spracheingabe. Das Ergebnis der Sprachanalyse wird zum Mikroprozessor 54 geführt. Bei Empfang der Sprachanalysedaten führt der Mikroprozessor Spracherkennungsoperationen aus, zu denen die Detektion des Anfangs und Endes des Sprachkommandos und der Vergleich der Sprachanalysedaten mit den registrierten Mustern von Sprachmerkmalen gehört, die vorab im Speicher 55 für registrierte Muster gespeichert sind (Schritt 703). Bei Abschluß des Vergleichs empfängt der Mikroprozessor 54 ein Kommando oder eine Speichernummer, die zum Sprachkommando gehört, vom Speicher 55 für registrierte Muster, um festzustellen, ob das Sprachkommando ein Kommando für einen Teilnehmernamen oder ein anderes Kommando ist (Schritt 704). Ist das Sprachkommando ein Kommando für einen Teilnehmernamen gemäß der Bestimmung im Schritt 708, gibt der Mikroprozessor 54 einen Befehl zum Beenden der Aufzeichnung aus (Schritt 705). Zu dieser Zeit wurde ein einzelner Teilnehmername in den Speicher 58 für aufgezeichnete Daten eingeschrieben. Danach erzeugt der Mikroprozessor 54 eine Antwort "TUT" (Schritt 706) und kehrt dann zum Schritt 703 zurück. Ist das eingegebene Sprachkommando kein Kommando für einen Teilnehmernamen, befiehlt der Mikroprozessor 54 eine Antwort gemäß dem Sprachkommando (Schritt 707).

Fig. 7(b) ist ein Ablaufplan zur spezifischen Darstellung des Schritts 28, d. h., "TELEFONNUMMER MELDEN", In dieser speziellen Ausführungsform wird die Antwort als Name erzeugt&sub4; Nach dem Schritt 706 von Fig. 7(a) gibt der Benutzer ein Sprachkommando "BESTÄTIGEN" in das Mikrofon 51 ein, was die Wähleinheit veranlaßt, ein Antwortverfahren für Teilnehmernamen zu beginnen (Schritt 708). Empfängt insbesondere der Mikroprozessor 54 ein Kommando "BESTÄTIGEN" (Schritt 709), führt der Mikroprozessor 54 eine zum Teilnehmernamen gehörende Speichernummer und einen Antwortbefehl zur Aufzeichnungs- und Wiedergabe-IC 56 (Schritt 710), um diese dadurch anzuweisen, den Namen des Teilnehmers zu melden. Als Reaktion daraufliest die IC 56 den Namen, z. B. "NEC" aus dem Speicher 58 für aufgezeichnete Daten und "RUFE" aus dem Speicher 57 für Sprachantwortdaten aus, kombiniert sie und führt anschließend Antwortinformationen "RUFE NEC" zum Verstärker 594 Eine solche Meldung wird vom Lautsprecher 60 ausgegeben. Sobald die Meldung vollständig vom Lautsprecher 60 ausgegeben wurde, sendet die Aufzeichnungs- und Wiedergabe-IC 56 ein Antwortendesignal zum Mikroprozessor 54. Bei Empfang des Antwortendesignals (Schritt 711) beendet der Mikroprozessor 54 das Verfahren (Schritt 712).

Anhand von Fig. 8 wird eine weitere alternative Ausführungsform der Erfindung beschrieben. Darstellungsgemäß ist eine Signal-PCM-(Pulscodemodulations-)Signalumwandlungseinrichtung 81 zwischen der Spracheingabe- und Ausgabeschaltung von Fig. 5, die das Mikrofon 51, die Verstärker 52 und 59 und den Lautsprecher 60 aufweisen, sowie der Sprachdaten-Verarbeitungsschaltung vorgesehen, die durch die anderen Komponenten von Fig. 5 gebildet ist.

In Fig. 8 wird ein Sprachsignal vom Mikrofon 51 zum PCM- Codec 81 über den Verstärker 52 geführt. Der Codec 81 wandelt das Sprachsignal in ein serielles PCM-Signal um. Ein Seriell- Parallel-Wandler (SP-Wandler) 82 wandelt das serielle PCM-Signal in ein paralleles Signal um. Das PCM-Sprachsignal wird über eine Busleitung zu einem Mikroprozessor 83 geführt. Der Mikroprozessor 83 ist durch die Busleitung mit dem Speicher 55 für registrierte Muster, dem Speicher 57 für Sprachantwortdaten, dem Speicher 58 für aufgezeichnete Daten und der E/A-Schnittstelle 61 verbunden. Die E/A-Schnittstelle 61 ist mit der Wählvorrichtung 62 verbunden. Wiederum ist der anhand von Fig. 5 erwähnte Speicher 63 in die Wählvorrichtung 62 eingebaut&sub4; Mit dem Speicher 63 sind die Tastschalter 64 und die Telefonleitung 65 verbunden. Ein vom SP-Wandler 82 zum PCM-Codec 81 geführtes PCM-Sprachantwortsignal wird aus einem PCM-Signal auch in ein Sprachsignal umgewandelt und danach über den Verstärker 59 und den Lautsprecher 60 ausgegeben.

Die Funktionen der sprachanalysierenden IC 53 und der Aufzeichnungs- und Wiedergabe-IC 56 sind dem Mikroprozessor 83 zugewiesen. Für die Verbindungsaufbau- und Sprachantwortvorgänge erfüllt der Mikroprozessor 83 die Funktionen des Mikroprozessors 54, der sprachanalysierenden IC 53 und der Aufzeichnungs- und Wiedergabe-IC 56 von Fig. 5. Das Verbindungsaufbauverfahren und die Sprachantwort sind die gleichen wie in der Ausführungsform von Fig. 5, weshalb sie nicht beschrieben werden, um Redundanz zu vermeiden.


Anspruch[de]

1. Verfahren zum Durchführen eines Verbindungsaufbauverfahrens in einer Wähleinheit mit Spracherkennung, wobei die Einheit aufweist:

eine Speichereinrichtung (4), (55) zum Registrieren von Namen und Telefonnummern von Teilnehmern, mit denen die Wähleinheit kommunizieren kann, in eineindeutiger Entsprechung und Speichern von Sprachmerkmalen zum Identifizieren der Registrierungen der Teilnehmer;

eine Spracherkennungseinrichtung (5), (53), (83) zum Erkennen einer Spracheingabe durch eine anrufende Person;

eine Meldeeinrichtung (11), (56), (83) zum Melden von Antwortinformationen, um der anrufenden Person zu antworten;

eine Verbindungsaufbau-Wahlerzeugungseinrichtung (8), (62) zum Erzeugen eines Wahlsignals, das zu einem Teilnehmer gehört, der durch die Spracherkennungseinrichtung erkannt wird; und

eine Verarbeitungseinrichtung (6), (54), (83) zum Durchführen eines Verbindungsaufbauverfahrens durch Steuern der Spracherkennungseinrichtung, der Speichereinrichtung, der Meldeeinrichtung und der Verbindungsaufbau- Wahlerzeugungseinrichtung;

wobei

die anrufende Person einen gewünschten Teilnehmer durch Sprache identifiziert, die Sprache durch die Spracherkennungseinrichtung erkannt wird und die Verarbeitungseinrichtung die erkannte Sprache mit den in der Speichereinrichtung gespeicherten Sprachmerkmalen vergleicht und mehrere anzurufende Kandidaten identifiziert, die gespeicherten Sprachmerkmalen entsprechen, die Merkmalen der erkannten Sprache ähneln, wobei die mehreren Kandidaten von einem erstplazierten Kandidaten zu niedriger plazierten Kandidaten geordnet sind;

die Einheit durch ein Dialogsprachverfahren eine Bestätigung anfordert, daß der erstplazierte Kandidat der gewünschte Teilnehmer ist, und, wenn das der Fall ist, die Verbindungsaufbau-Wahlerzeugungseinrichtung veranlaßt, das Verbindungsaufbauverfahren fortzusetzen;

die Verarbeitungseinrichtung, wenn der erstplazierte Kandidat nicht als der gewünschte Teilnehmer bestätigt wird, als Reaktion auf jede von mehreren Äußerungen eines vorbestimmten Sprachkommandos (31), (413), das durch die anrufende Person geäußert wird, die Meldeeinrichtung steuert, um in Reihenfolge einen nächsten der mehreren Kandidaten zu melden, der anzurufen ist, wobei das Sprachkommando unabhängig von den in der Speichereinrichtung registrierten Namen der Kandidaten ist; und die anrufende Person ein zweites vorbestimmtes Sprachkommando äußert, wenn die Meldeeinrichtung den gewünschten der mehreren Kandidaten meldet, und bei dem zweiten vorbestimmten Sprachkommando die aufeinanderfolgende Meldung der mehreren Kandidaten aufhört.

2. Verfahren nach Anspruch 1, wobei die Meldeeinrichtung nacheinander die Telefonnummern der mehreren Kandidaten meldet.

3. Verfahren nach Anspruch 1, wobei die Meldeeinrichtung nacheinander die Namen der mehreren Kandidaten meldet.

4. Verfahren nach einem der vorausgegangenen Ansprüche, wobei zu der Meldeeinrichtung eine Sprachantworteinrichtung gehört, die aufweist:

eine Erzeugungseinrichtung (58) für aufgezeichnete Daten, die aufgezeichnete Daten durch Aufzeichnen eines eingegebenen Sprachsignals erzeugt;

eine Speichereinrichtung (57) für aufgezeichnete Daten, die von den aufgezeichneten Daten aufgezeichnete Daten speichert, die einem der Namen der Teilnehmer entsprechen; und

eine Leseeinrichtung (56) zum Auslesen der aufgezeichneten Daten aus der Speichereinrichtung für aufgezeichnete Daten.

5. Verfahren nach Anspruch 4, wobei die Einheit ferner aufweist:

eine Spracheingabeeinrichtung (51, 52) zum Empfangen des eingegebenen Sprachsignals und eine Umwandlungseinrichtung (81), die zwischen die Spracheingabeeinrichtung und die Spracherkennungseinrichtung sowie zwischen die Leseeinrichtung und eine Sprachausgabeeinrichtung (59, 60) geschaltet ist, die ein Signal als Darstellung einer ausgelesenen Sprachantwort ausgibt, zum Umwandeln eines PCM-Signals und des eingegebenen Sprachsignals sowie eines Analogsignals, das das Signal als Darstellung der ausgelesenen Sprachantwort ist.

6. Verfahren nach Anspruch 4, wobei das eingegebene Sprachsignal den Namen eines Teilnehmers darstellt.

7. Verfahren nach einem der Ansprüche 1 bis 3, wobei:

die Spracherkennungseinrichtung aufweist: einen Spracheingabeabschnitt (1), (51) zur Spracheingabe einer anrufenden Person, einen Sprachmerkmals-Extraktionsabschnitt (5), (53), (83) zum Extrahieren von Sprachmerkmalen der in den Spracheingabeabschnitt eingegebenen Sprache und einen Sprachauf zeichnungsabschnitt (3), (57), in dem Sprachmerkmale der anrufenden Person vorab registriert und aufgezeichnet werden;

die Speichereinrichtung in dem Sprachaufzeichnungsabschnitt registrierte Telefonnummern von Teilnehmern zusammen mit Namen speichert, die eineindeutig zu den Telefonnummern gehören;

die Spracherkennungseinrichtung die Sprache als Verbindungsaufbau-Sprachkommando durch Vergleichen der Sprache mit den in dem Sprachaufzeichnungsabschnitt registrierten Sprachmerkmalen erkennt;

die Verarbeitungseinrichtung als Reaktion auf das Verbindungsaufbau-Sprachkommando eine Verbindungsaufbauverarbeitung gemäß einem Verbindungsaufbauverfahren durchführt, das vorab als Verbindungsaufbauprogramm geladen ist;

die Verbindungsaufbau-Wahlerzeugungseinrichtung aufweist: einen Verbindungsaufbauabschnitt (8) zum Steuern eines Wahlimpulses durch Auslesen einer Rufnurnmer eines zugehörigen Teilnehmers als Reaktion auf einen Verbindungsaufbaubefehl von dem Verarbeitungsabschnitt und einen Wahlimpuls-Erzeugungsabschnitt (9) zum Erzeugen eines Anrufsignals als Reaktion auf einen Befehl von dem Verbindungsaufbauabschnitt;

die Meldeeinrichtung aufweist: einen Speicherabschnitt (10) für registrierte Antworten, der vorbestimmte Antwortinformationen speichert, und einen Meldeabschnitt (11) zum Melden der Antwortinformationen; und

die Verarbeitungseinrichtung ein Verbindungsaufbauverfahren hat, damit die anrufende Person das spezielle Sprachkommando eingeben kann, das den Meldeabschnitt veranlaßt, nacheinander die mehreren Kandidaten zu melden, wenn die anrufende Person bestimmt, daß sich ein Ergebnis einer durch die Meldeeinrichtung erzeugten Meldung von dem Verbindungsaufbau-Sprachkommando unterscheidet.







IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com