PatentDe  


Dokumentenidentifikation DE69831062T2 20.04.2006
EP-Veröffentlichungsnummer 0000974221
Titel SPRACHGESTEUERTES FUNKTELEFON, INSBESONDERE FÜR EIN KRAFTFAHRZEUG
Anmelder Parrot (S.A.), Paris, FR
Erfinder SEYDOUX, Henri, F-75011 Paris, FR;
BESNARD, Nicolas, F-75019 Paris, FR
Vertreter Patent- und Rechtsanwälte Bardehle, Pagenberg, Dost, Altenburg, Geissler, 81679 München
DE-Aktenzeichen 69831062
Vertragsstaaten AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, IT, LI, LU, MC, NL, PT, SE
Sprache des Dokument FR
EP-Anmeldetag 03.04.1998
EP-Aktenzeichen 989173075
WO-Anmeldetag 03.04.1998
PCT-Aktenzeichen PCT/FR98/00687
WO-Veröffentlichungsnummer 0098045997
WO-Veröffentlichungsdatum 15.10.1998
EP-Offenlegungsdatum 26.01.2000
EP date of grant 03.08.2005
Veröffentlichungstag im Patentblatt 20.04.2006
IPC-Hauptklasse H04M 1/27(2006.01)A, F, I, 20051017, B, H, EP

Beschreibung[de]

Die Erfindung betrifft das Gebiet von Zubehörteilen für Funktelefone.

Sie betrifft noch genauer die Verwendung von Funktelefonen im Fahrzeug, welche eine besondere Ergonomie aus Gründen von offensichtlichen Sicherheitsbeschränkungen auferlegt, wenn ein derartiger Apparat in einem sich in Bewegung befindenden Fahrzeug verwendet wird.

Es ist insbesondere eine der Aufgaben der Erfindung, die Verwendung von automatischen Wählmitteln von Nummern für das Funktelefon mittels einer Sprachsteuerung in einem Fahrzeug zu erlauben.

Die auf dem Markt angebotenen Funktelefone weisen alle Systeme auf, welche ein Telefonnummernverzeichnis und eine Telefonwähleinrichtung bilden, diese Systeme erfordern jedoch die Betätigung von Tasten, den Durchlauf von Menüs auf dem Anzeigeschirm, etc., was sie in der Praxis in einem Fahrzeug schwierig zu verwenden macht.

Die EP-A-0 650 283 beschreibt ihrerseits einen tragbaren, autonomen Apparat, welcher ein Telefonnummernverzeichnis und eine Telefonwähleinrichtung bildet und welcher insbesondere Spracherkennungsmittel aufweist, die geeignet sind, einen vor einem Mikrophon ausgesprochenen Namen zu analysieren, einen Speicher von Rufnummern auf die Nummer anzuwählen, welche zu dem Teilnehmer gehört, dessen Name ausgesprochen wurde, und eine Sequenz von Sprachfrequenzen (DTMF-Signale) entsprechend den verschiedenen Ziffern der so angewählten Nummer zu erzeugen.

Die US-A-4 737 976 lehrt eine Vorrichtung dieser Art, welche in einem Fahrzeugfunktelefon integriert ist, um insbesondere die Verwendung von diesem in einer „Freihand"-Funktion zu erlauben, ohne dass es erforderlich ist, den Hörer zu ergreifen, um die Nummer zu wählen.

Wenn man derart vorgehen möchte, ist das beträchtliche Geräuschniveau in der Fahrgastzelle des Fahrzeugs eine erste Schwierigkeit. Insbesondere, wenn man es wünscht, den Apparat „freihändig" zu verwenden, ohne ihn von seinem Träger zu lösen, bringt der beträchtliche Abstand zwischen dem Mikrophon und dem Benutzer ein relativ erhöhtes Geräuschniveau mit sich, was das Auslesen des nützlichen, in dem Geräusch eingebunden Signals schwierig macht.

Die zuvor genannte US-A-4 737 976 schlägt zu diesem Zweck vor, eine Stufe einer dynamischen Geräuschunterdrückung vorzusehen, welche durch spektrale Subtraktion stromaufwärts der Spracherkennung im eigentlichen Sinne arbeitet. In der Praxis weist diese Vorrichtung begrenzte Leistungen auf, wenn man eine feine Erkennung wünscht (z.B. in einer Datei von Sprachsignaturen, welche ein Mehrfaches von zehn, ja sogar mehr als hundert Referenzen umfasst) und in einer sehr geräuschstarken Umgebung, die für die automobile Umgebung typisch ist, und mit nicht-stationären, spektralen Eigenschaften, d.h. welche sich auf unvorhersagbare Art und Weise in Abhängigkeit der Fahrbedingungen entwickeln (Fahrt über beschädigte Straßen oder gepflasterte Straßen, Autoradio in Betrieb, etc.).

Eine andere Schwierigkeit – immer noch in dem Fall, dass man es wünscht, den Apparat, ohne ihn von seinem Träger abzulösen, zu verwenden – liegt in der Tatsache, dass die Ergonomie besonders untersucht werden muss, da der Apparat häufig zu weit entfernt ist, damit der Benutzer Nachrichten auf der Anzeige des Funktelefons unterscheiden kann oder auf diesen oder jenen Knopf der Tastatur drücken kann, zumindest auf eine Art und Weise, die nicht für das Fahren gefährlich ist, wenn sich das Fahrzeug in Bewegung befindet.

Diese zwei hauptsächlichen Beschränkungen (erhöhtes Geräuschniveau und Suche nach einer exzellenten Ergonomie) haben bis heute die Verwendung einer vollständig „freihändigen" Konfiguration von Funktelefonen in einem Fahrzeug nicht auf zufriedenstellende Art und Weise für den Benutzer und für die Sicherheit des Fahrens erlaubt.

Die Erfindung bietet sich an, diese Schwierigkeit zu lösen, unter einem Aufweisen eines neuen Zubehörteils für ein Funktelefon, welches die Verwendung dieses letzteren vollständig im „Freihand"-Modus auf eine gleichzeitig zuverlässige (gute Extraktion des Signals trotz hohen Geräuschen), einfache und sichere (durch eine ausgeklügelte Ergonomie) Art und Weise erlaubt.

Man wird insbesondere sehen, dass man eine exzellente Ergonomie erzielen kann unter einem Reduzieren der Steuerungen auf einen einzigen Knopf (welcher gegebenenfalls durch irgendeinen Knopf des Funktelefons ersetzt werden kann), bei einem gleichzeitigen Erlauben der Steuerung einer beträchtlichen Anzahl von Funktionen auf relativ intuitive Art und Weise, also ohne ein mühsames Erlernen für den Benutzer zu erfordern.

Noch genauer schlägt die Erfindung eine Vorrichtung zur Sprachsteuerung für ein Funktelefon, insbesondere für eine Verwendung in einem Kraftfahrzeug, vor, aufweisend: einen Datenspeicher, welcher eine Reihe von Rufnummern von Teilnehmern enthält und für jede Rufnummer zumindest eine zugehörige Sprachabdruckinformation; einen akustischen Schallwandler, der fähig ist, einen Namen des gesuchten Teilnehmers aufzunehmen, der durch den Benutzer des Gerätes ausgesprochen wird; Spracherkennungsmittel, die geeignet sind, den Namen des Teilnehmers, der durch den Schallwandler aufgenommen wird, zu analysieren und ihn in einen zugehörigen Sprachabdruck umzuwandeln; selektive Adressiermittel des Speichers, welche Zuordnungsmittel umfassen, die fähig sind, in dem Speicher eine Sprachabdruckinformation wiederzufinden, entsprechend zu derjenigen, welche durch die Spracherkennungsmittel geliefert wird, und im Falle einer Übereinstimmung den Speicher auf die entsprechende Position zu adressieren; und Mittel, welche mit den Zuordnungsmitteln zusammenwirken, um die adressierte Rufnummer an die Schaltkreise des Funktelefons anzulegen.

Die Spracherkennungsmittel gemäß der Erfindung: werten aus und speichern ein laufendes Geräuschniveau (bzw. Umgebungsgeräuschniveau), das durch den Wandler bei Abwesenheit des Sprachsignals erfasst wird; ziehen bei Vorhandensein eines Sprachsignals von dem erfassten Signal das laufende, zuvor ausgewertete Geräuschniveau ab; und legen an das resultierende, so erhaltene Signal einen Spracherkennungsalgorithmus vom Typ DTW an mit Formerkennung durch dynamische Programmierung, die an die Sprache angepasst ist, unter Verwenden von Extraktionsfunktionen eines dynamischen Parameters, insbesondere eines dynamischen, voraussagenden Algorithmus mit vorne und/oder hinten und/oder frequentieller Uberdeckung.

Gemäß verschiedener vorteilhafter Merkmale der Erfindung:

  • – weist die Vorrichtung eine Taste auf, welche durch den Benutzer zum Unterscheiden eines Sprachsignals betätigt wird, und das durch den Wandler erfasste Signal wird fortlaufend über ein gegebenes Zeitintervall gespeichert, derart, um die Spracherkennung über einen Zeitablauf zu betreiben, welcher die Betätigungsperiode der Taste und das unmittelbar zu dieser Betätigung vorangehende Zeitintervall einschließt;
  • – weist die Vorrichtung eine Taste auf, welche durch den Benutzer zum Diskriminieren bzw. Unterscheiden eines Sprachsignals betätigt wird, und die Spracherkennung wird über einen Zeitablauf betrieben, der nach dem Ende der Betätigung der Taste zu Ende geht;
  • – weist die Vorrichtung eine Taste auf, welche durch den Benutzer betätigt wird und deren Betätigung Verwaltungsfunktionen des Funktelefons steuert, umfassend das Abheben, das Auflegen und die Umschaltung bei Doppelanruf;
  • – weist die Vorrichtung Mittel auf zum Lesen mindestens eines inneren Verzeichnisses des Funktelefons, Vergleichen der Rufnummern dieses Verzeichnisses mit denjenigen des Speichers, Aktualisieren dieses Speichers unter einem ihm Hinzufügen der Rufnummern des Verzeichnisses, welche dort nicht vorhanden sind, dem Benutzer die Namen der zugehörigen Teilnehmer zu diesen hinzugefügten Nummern anzugeben und Speichern der Sprachabdrucke dieser Namen;
  • – in einer Bestätigungsphase diskriminiert bzw. unterscheidet und behält die Vorrichtung im Speicher die Sprachabdrucke bei, welche zu den Namen der Teilnehmer des Speichers oder zu Wörtern des spezifischen Sprach-Steuer-Vokabulars gehören, welche für eine erfolgreich zustande gebrachte Spracherkennung Anlass gegeben haben.

Man wird nun ein Ausführungsbeispiel der Erfindung unter Bezugnahme auf die beigefügten Zeichnungen beschreiben.

1 zeigt schematisch das Funktelefon auf seiner Halterung und die Funktionsblöcke der Elektronik, welche ihm hinzugefügt ist.

2 ist ein Zeitdiagramm, welches es erlaubt, die zeitweisen Sequenzen einer Analyse des Signals zu beschreiben, welches durch das Mikrophon empfangen wird.

3 ist ein Zustandsdiagramm, welches den Programmablauf der verschiedenen Operationen zeigt, die durch die Vorrichtung der Erfindung in Abhängigkeit der durch den Benutzer ausgeführten Aktionen ausgeführt werden.

Im Folgenden wird man die Erfindung in der Form eines „Add-on"-Schaltkreises beschreiben, welcher an einen Adapter des Fahrzeuges für ein Funktelefon angeschlossen ist: Das Funktelefon ist ein tragbarer Apparat, welcher auf einer Halterung des Fahrzeuges eingesetzt ist, und die Tatsache des Ablegens des Funktelefons auf diese Halterung stellt die Verbindung mit einer gewissen Anzahl von Schaltkreisen sicher, insbesondere für die Funktion „Freihand", die Verbindung mit einer Antenne, die Versorgung über das Bordnetz des Fahrzeuges etc.

Diese Konfiguration ist jedoch nicht beschränkend. Die Erfindung kann ebenso mit einem „Auto"-Funktelefon umgesetzt werden, bei welchem eine gewisse Anzahl von Stufen des Funktelefons fest in dem Fahrzeug installiert sind, mit einem dem Fahrer zur Verfügung stehenden Hörer oder aber auch einer teilweisen oder vollständigen „Freihand"-Installation, die in dem Fahrzeug bei der Herstellung integriert wird. Die zum „Freihand"-Telefon gehörenden Schaltkreise können so teilweise oder vollständig im Rundfunkgerät des Fahrzeuges integriert sein (die Anzeige des Telefons wird somit durch die Anzeige auf der Vorderseite des Autoradios oder am Instrumentenbrett des Fahrzeuges ersetzt) oder in dem Bordrechner des Fahrzeuges.

Gleichermaßen ist, obwohl die Verwendung im Fahrzeug die durch die Erfindung hauptsächlich in Betracht gezogene Verwendung ist aufgrund ihrer Leistungen gegenüber Lärm bzw. Geräuschen und ihrer gut angepassten Ergonomie, diese Verwendung nicht beschränkend, und die Erfindung kann in anderen Situationen verwendet werden. Man kann die Erfindung insbesondere auf tragbare Funktelefone anwenden, um die Leistungen von diesen in einer geräuschstarken Umgebung zu verbessern und ihre Benutzung zu vereinfachen, insbesondere für die wiederholende Benutzung für die Personen, welche wenig vertraut sind mit der Betätigung dieser Art von Geräten, die behinderten Personen, die intensiven Benutzer, etc.

Bei der dargestellten Ausführungsform wird ein tragbares Funktelefon 10 eines bekannten und nicht veränderten Modells, typischerweise ein 2-Watt-GSM, in eine Halterung eingesetzt, welche einen Käfig 20 aufweist, der das Funktelefon 10 aufnimmt und welcher z.B. am Instrumentenbrett des Fahrzeuges über einen geeigneten Träger 22 befestigt ist. Die Halterung 20 weist im unteren Teil 24 auf eine an sich bekannte Art und Weise einen Anschluss auf, welcher den Zugang zu einem Datenbus und zu verschiedenen Schaltkreisen (Antenne, Versorgung, etc.) des Funktelefons erlaubt, um dieses letztere über ein Kabel 26 mit einem Adapter des Fahrzeuges oder „car kit" 30 zu verbinden.

Der Adapter 30 ist von einer an sich bekannten Art und wird nicht im Detail beschrieben werden. Er ist mit einem Mikrophon 32 und einem Lautsprecher 34 verbunden, welche die „Freihand"-Funktion zu realisieren erlauben, mit einer äußeren, eventuellen Antenne 36 und mit einer Versorgungsleitung 38, welche mit dem Bordnetz des Fahrzeuges verbunden ist.

Zu diesem Adapter einer bekannten Art ist ein spezifischer „Add-on"-Schaltkreis 40 hinzugefügt, welcher das Umsetzen der Funktionen der Erfindung erlaubt, welche man im Folgenden beschreiben wird.

Dieser Schaltkreis 40 integriert die verschiedenen materiellen und softwarebezogenen Bauteile, welche ein Umsetzen der Funktionen der Erfindung erlauben, Bauteile, welche unten aus Gründen der Vereinfachung als „die Vorrichtung" bezeichnet werden, wie auch immer ihre tatsächliche, praktische Ausführungsform sei.

Der Schaltkreis 40 ist mit dem Adapter 30 über einen Schnittstellenbus 42 verbunden, welcher aufweist:

  • – eine Verbindung zum Mikrophon 32,
  • – eine Verbindung zum Lautsprecher 34,
  • – Leitungen zur Erdung und zur Versorgung,
  • – eine digitale Serienverbindung zu den Schaltkreisen des GSM (über das Kabel 26),
  • – eine Verbindung zu einer Steuertaste.

Die als letzte genannte Steuertaste ist vorzugsweise eine derartige Taste, wie sie bei 44 dargestellt ist, die an der Halterung 20 angeordnet ist und mit dem Schaltkreis 40 über das Kabel 26 verbunden ist.

Diese Vorkehrung ist jedoch nicht notwendig: Die Taste 44 kann sich an einer anderen Stelle befinden, in welcher sie bequem durch den Fahrer benutzt werden kann, z.B. integriert in dem Instrumentenbrett, in dem Lenkrad, in einer Lenkradsteuerung, einer Fußsteuerung, etc.

Außerdem ist diese spezifische Taste selbst nicht unabdingbar; es ist möglich – in einer Variante oder als Ergänzung – irgendeine der Tasten des Funktelefons zum Sicherstellen der gleichen Funktionen zu verwenden. Man wird tatsächlich sehen, dass, wenn das Funktelefon in seinen Käfig eingesetzt ist, die Tasten seiner Tastatur nicht auf solch eine Art und Weise verwendet werden, dass, wenn der Apparat in seiner Halterung eingesetzt ist, es ausreicht, die Tastatur umzudefinieren, indem man auf alle Tasten des Funktelefons eine identische Funktion gibt, d.h. die Funktion der spezifischen Taste 44 (wenn der Apparat von seinem Käfig herausgezogen wird, befindet sich die Tastatur wieder in ihrer normalen Funktionsweise mit der spezifischen, herkömmlichen Definition jeder der Tasten). Im Nachfolgenden erachtet man eine derartige Umdefinierung der Tasten der Tastatur als vollständig äquivalent zu der Verwendung der spezifischen Taste 44, und jedes Mal, wenn diese Taste erwähnt werden wird, muss die Möglichkeit in Betracht gezogen werden, sie durch eine umdefinierte Taste der Tastatur zu ersetzen.

Man wird nun die Umsetzung der Funktionen der Erfindung beschreiben, die gemäß verschiedenen, aufeinanderfolgenden Aspekten betrachtet wird:

  • – die Spracherkennung in geräuschstarker Umgebung,
  • – die „Freihand"-Ergonomie,
  • – die Verwaltung der Telefonverzeichnisse,
  • – das Erlernen von Sprachabdrücken,
  • – die Sprachsteuerung der Funktionen des Funktelefons.

1 Spracherkennung in geräuschstarker Umgebung

In einem sich in Bewegung befindenden Fahrzeug ist das Geräuschniveau erhöht, und dies ist umso mehr störend für die Spracherkennung, wenn man ein „Freihand"-System benutzt, in welchem der Abstand zwischen dem Mund des Benutzers und dem Mikrophon erhöht ist und bei welchem dieses letztere somit ein starkes Geräusch erfasst.

Man kennt Algorithmen, welche in gewissem Maße das Geräuschniveau berücksichtigen können, jedoch sind diese Algorithmen nicht auf derartige, erhöhte Geräuschniveaus angepasst, in welchen das Wort in das Geräusch „eingebettet" ist, wobei der Algorithmus somit eine sehr große Rechnerleistung erfordert, die mit einer Spracherkennung in Echtzeit durch einen einfachen Schaltkreis mit Mikroprozessor unvereinbar ist. Tatsächlich ist es mit der Geräuschstärke im Allgemeinen notwendig, alle die möglichen Formerkennungen zu berechnen, ohne dass man „Mutmaßungen" über den Beginn des Wortes machen kann. Da die Anfänge der Wörter nicht geschätzt werden können, sind diese Modelle in der Realität aufgrund der übermäßigen Menge an Berechnungen, welche in der Praxis erforderlich wären, sehr schwer benutzbar.

So wird in der Dissertation von Brian Strope mit dem Titel „A model of dynamic auditory perception and its application to robust speech recognition ", (B. Strope, Master's Thesis, Department of Electrical Engineering, UCLA, 1995) gesagt: "An initial evaluation with a simple dynamic programming-based isolated word recognition system and a single talker was performed. A system was constructed that used an Itakura path constraint, and an Euclidean local distance metric excluding the undifferentiated c0 term. Clean templates were isolated from surrounding silence, but test tokens were not. As more noise is added, word isolation, or endpoint detection, becomes more difficult. To assess the robustness of the system it is, therefore, unrealistic to assume the temporal placement of the speech within the background noise is known".

Es wird somit vorgeschlagen, die dynamische Programmierung zum Unterscheiden bzw. Diskriminieren der Sprache von dem Geräusch zu verwenden. Diese Lösung erfordert jedoch eine beträchtliche Rechnerleistung, welche mit einer Spracherkennung in Echtzeit unvereinbar ist, wie man sie durch die vorliegende Erfindung zu erhalten sucht.

Um dieser Beschränkung zu begegnen, schlägt die Erfindung vor, vorab eine Schätzung des Geräuschs auszuführen und dieses vom Signal abzuziehen. Noch genauer wird das Geräusch permanent durch das Mikrophon 32 erfasst und durch die Vorrichtung der Erfindung analysiert, um ein mittleres, gewichtetes Energiespektrum des Geräusches zu geben, welches kontinuierlich wiederaktualisiert wird. Wenn man eine Spracherkennung durchzuführen wünscht, z.B. bei einem Drücken auf die Taste 44 (man wird weiter unten die besondere Art und Weise sehen, auf welche das Drücken auf diese Taste verwendet wird), analysiert die Vorrichtung das durch das Mikrophon erfasste Signal in dem Frequenzbereich und zieht vom so erhaltenen Leistungsspektrum das Leistungsspektrum des zuvor festgestellten und gespeicherten Geräuschs ab.

Da das innere Geräusch eines Fahrzeuges stark nicht-stationär ist, ist eine kontinuierliche Schätzung seines Niveaus erforderlich, um allen seinen Veränderungen zu folgen. Diese Schätzung des mittleren Geräuschs wird bei dem spektralen Abziehen (bzw. Subtraktion) des Spracherkennungsalgorithmus verwendet, und sie ist wesentlich für das Entfernen des Grundgeräuschs, das sich der Sprache des Sprechers hinzufügt.

Man bezeichnet mit T0 den Moment des Drückens auf die Taste 44 zum Auslösen der Spracherkennung, mit T1 den Moment des Endes dieses Erkennungsvorganges und mit k0 eine Sicherheitszeitspanne, welche es dem Sprecher erlaubt, bis zu k0 Sekunden vor T0 zu sprechen (man wird weiter unten die Art und Weise präzisieren, auf welche die Parameter T0, k0 und T1 durch das System festgelegt werden).

Die Schätzung des mittleren Geräuschs erfolgt separat auf 16 Frequenzbändern und in zwei unterschiedlichen Modi, wobei die Schätzung des Geräuschniveaus vorteilhafterweise im Verlaufe der Erkennung, falls erforderlich, wieder angepasst wird:

  • a) Geräuschmodus: Dieser Modus entspricht der Periode, in welcher die Spracherkennung nicht aktiviert ist (vor T0-k0 und nach T1). Im Verlaufe dieses Modus aktualisiert man die Schätzung des Geräuschs unabhängig auf den 16 Bändern mit einer Zeitkonstante von 100 ms.
  • b) Spracherkennungsmodus: Dieser Modus entspricht der Periode, in welcher die Spracherkennung aktiviert ist (nach T0-k0 bis zu T1). Während diesem Modus wird in jedem Frequenzband die Schätzung der Spektralamplitude nur aktualisiert, wenn ihre Veränderung im Verhältnis zu dem vorherigen Raster einer relativen Erhöhung um mehr als 100 % entspricht. Die Zeitkonstante zur Aktualisierung ist immer noch bei 100 ms.

Dank dieser zwei Betriebsmodi wird die Schätzung des Grundgeräuschs nicht nur während den Zeitperioden ohne Sprache aktualisiert (vor dem Drücken auf die Auslösetaste der Spracherkennung), sondern ebenso bei Vorhandensein von Sprache. Diese Technik ermöglicht es, verschiedenen Szenarien eines Wechselns des Niveaus und der Eigenschaften des Grundgeräuschs zu folgen, z.B. eine Erhöhung oder eine Verringerung der Geschwindigkeit, ein Wechsel der akustischen Bedingungen des Fahrzeuges (Öffnen eines Fensters oder einer Tür), das Anstellen oder das Ausstellen des Autoradios oder auch das Vorhandensein von äußeren Geräuschen, welche durch andere Fahrzeuge erzeugt werden.

Wenn man auf diese Weise das mittlere Geräusch geschätzt hat, kann man mit der Spracherkennung im eigentlichen Sinne fortfahren.

Ein grundlegender Parameter des Erfassungsalgorithmus der Sprache ist die Energieschwelle, welche auf die nachfolgende Art und Weise berechnet wird:

  • a) Man berechnet das Maximum der Spektralamplitude getrennt auf jedem der 16 Frequenzbänder und über die 20 letzten Raster vor T0-k0.
  • b) Während dem Modus einer Spracherkennung zieht man für jedes Raster und in jedem der Bänder die Schätzung des mittleren Geräuschs vom zuvor berechneten Maximum ab. Die Energieschwelle ist die Energie, welche zu dem erhaltenen Dimensionsvektor 16 gehört.

Man verfügt in anderen Worten über eine Energieschwelle zum Diskriminieren bzw. zum Unterscheiden der Sprachphasen (mit Geräusch versehene Sprache) von den „Stille"-Phasen (mit Geräusch versehene Stille). Hierzu verwendet man eine differentielle Schwelle oder differentielle Verschiebung, welche dem Energieniveau des Geräuschs, welches wie oben angegeben geschätzt ist, hinzufügt ist, um die Sprache von der Stille zu unterscheiden. Man kann somit die Spracherkennung mit variablen Geräuschniveaus auslösen und dem gemeinsamen Fehler zu der Anzahl von Spracherkennungsalgorithmen begegnen, welche einen willkürlichen Energieschwellenwert des Signals benötigen, um die Stille von der Sprache zu unterscheiden, insbesondere zum Erfassen der Trennungen der Wörter in der Folge von durch den Benutzer ausgesprochener Wörter.

Noch genauer umfassen die Spracherkennungsalgorithmen herkömmlicherweise eine Ausgangsphase einer Extraktion von Parametern, welche von einer Vergleichsphase (Erkennung im eigentlichen Sinne) gefolgt wird.

Die Perfektionierung der Erfindung betrifft im Wesentlichen die Extraktionsphase von Parametern, wobei die Vergleichsphase bekannte Algorithmen vom Typ DTW (Dynamic Time Warping) oder HMM (Hidden Markov Model) verwendet, welche nicht im Detail beschrieben werden.

Im Fall der Erfindung läuft die Extraktion von Parametern wie folgt ab:

  • a) Vorbetonung
  • b) Hamming-Fenster
  • c) FFT (schnelle Fourier-Tranformation)
  • d) Berechnung des Leistungslogarithmus,
  • e) Mel auf Maßstab bringen.

Diese fünf Schritte (a) bis (e), welche eine klassische Modellierung des menschlichen Ohres widerspiegeln, sind an sich bekannt und werden nicht im Detail beschrieben werden. Im Rahmen der Erfindung werden sie kontinuierlich ausgeführt, z.B. durch einen passenden Schaltkreis DSP (digitaler Signalprozessor), auf das erfasste Signal, ob es sich um ein Umgebungsgeräusch oder um ein mit einem Geräusch versehenes Sprachsignal handelt.

Die nachfolgenden Schritte werden sodann auf das mit einem Geräusch versehene Sprachsignal ausgeführt:

  • f) Abziehen des Geräuschs (spezifischer Schritt der Erfindung, siehe oben),
  • g) Berechnen der Überdeckung, z.B. gemäß einem dynamischen, voraussagenden Algorithmus mit vorne und/oder hinten und/oder frequentieller Überdeckung; ein derartiger Algorithmus ist z.B. beschrieben durch Brian Strope und Abeer Alwan, „A Model of Dynamic Auditory Perception and its Application to Robust Speech Recognition", Proceedings of the IEEE ICASSP 1996, Band 1, Seiten 37-40, welcher eine Eigenschaft einer „Vorwärtsüberdeckung" (Vorüberdeckung) aufweist, die repräsentativ ist für ein psycho-akustisches, dynamisches Modell des menschlichen Hörens,
  • h) Berechnung des Cepstrums (im Kosinus des Spektrums transformiert),
  • i) Berechnung des Kontrastes des Spektrums,
  • j) Extraktion der signifikantesten Parameter des Cepstrums

Wie man es weiter oben erwähnt hat, kann zum Differenzieren der „Stille"(mit Geräusch versehenen)-Perioden von den Sprachperioden das Drücken auf die Taste 44 es erlauben, ohne Zweideutigkeit der Vorrichtung der Erfindung anzugeben, dass eine Analyse einer Sprachsteuerung durchgeführt werden soll – dieses Auslösen mit der Taste folgt als Ergänzung oder als Variante der automatischen Erkennung über die Energieschwelle, wie weiter oben angegeben.

Die EP-A-0 650 283 beschreibt einen vergleichbaren Funktionsmodus: Es handelt sich um ein Rufnummernverzeichnis/Wähleinrichtung mit Spracherkennung, die durch Aussprechen des Namens des gesuchten Teilnehmers vor einem Mikrophon verwendet wird, nachdem man auf einen Druckknopf gedrückt hat. Der Apparat sucht sodann in seinem Datenspeicher einen „Sprachabdruck", welcher dem ausgesprochenen ähnelt, und stellt auf einer Anzeige eine zugehörige Telefonnummer dar unter einem gleichzeitigen Aussprechen in einem Lautsprecher dieses Abdrucks durch Sprachsynthese im „Echo". Wenn der im Echo wiedergegebene Sprachabdruck der gesuchte ist, führt der Benutzer sodann einen „Doppelklick" auf dem Druckknopf aus, was ein Erzeugen einer Sprachsequenz (DTMF) zum Aktivieren der Wahl der fraglichen Nummer bewirkt.

In anderen Worten ist die Benutzungssequenz: Drücken auf die Taste ... Aussprechen des zu erkennenden Namens ... Loslassen der Taste ... Hören des Echos ... Doppelklicken zum Bestätigen und Wählen der Nummer.

Oder aber, in einer Variante: Klicken auf die Taste ... Aussprechen des zu erkennenden Namens ... Hören des Echos ... Doppelklicken zum Bestätigen und Wählen der Nummer (wobei der Endzeitpunkt der Erfassung des Signals intern durch den Spracherkennungsalgorithmus verwaltet wird).

Eine derartige Sequenz kann im Rahmen der Vorrichtung der Erfindung benutzt werden.

Es ist jedoch möglich, sie noch weiter zu verbessern. Insbesondere im Fall eines Fahrers des Fahrzeuges, der mehr auf das Fahren konzentriert ist als auf die Steuerung des Telefons, kann es schwierig sein, das Drücken (und gegebenenfalls das Loslassen) der Taste in passender Weise mit dem Aussprechen des zu erkennenden Wortes zu synchronisieren. Tatsächlich sind viele Benutzer nervös und beginnen vor dem Drücken auf die Taste zu sprechen; auf gleiche Weise lassen die Benutzer häufig die Taste wieder los, bevor sie das Aussprechen des Wortes beendet haben. Und es reicht eine Verschiebung von einigen Bruchteilen einer Sekunde zwischen dem Drücken (und gegebenenfalls dem Loslassen) der Taste und dem Aussprechen des zu erkennenden Wortes aus, um die Vorrichtung stark zu stören und die richtige Erkennung des ausgesprochenen Wortes schwierig zu machen.

Um dieser Schwierigkeit zu begegnen, schlägt die Erfindung vor, fortlaufend die Erfassung des Signals auszuführen, ob es sich um eine mit Geräusch versehene Stille handelt (zum Schätzen des Geräuschniveaus) oder um eine mit Geräusch versehene Sprache, und in einem Speicher eine gewisse zeitliche Menge des Signals, z.B. über 1/8 Sekunde zu speichern.

Wenn der Benutzer auf die Taste drückt, geht die Vorrichtung in der Zeit zurück und schließt in ihrer Analyse die 1/8 Sekunde vor dem Drücken auf die Taste ein (unmittelbare Vergangenheit). Gleichermaßen schließt die Vorrichtung nach dem Loslassen der Taste (gegebenenfalls) in ihrer Analyse die 1/8 Sekunde nachfolgend auf das Loslassen der Taste ein (unmittelbare Zukunft). Ein anderer Vorteil dieser Art und Weise eines Vorgehens liegt in der Tatsache, dass man permanent über das Signal verfügt, um eine gute Schätzung des Geräuschs durchzuführen.

In anderen Worten wird das Drücken (und gegebenenfalls das Loslassen) der Taste nicht als ein Anfangssignal (bzw. Schlusssignal) der Sprache erachtet, sondern als eine Wahrscheinlichkeit des Anfangs (des Endes) der Sprache, wobei die Analyse nicht nur über die Periode des Drückens der Taste, sondern ebenso über den Bruchteil des gerade vor (und gerade nach) dieser Periode gespeicherten Signals erfolgen muss.

In der 2 hat man über die Zeit das erfasste Signal, welches dem Aussprechen eines Wortes entspricht, zwischen den Momenten des Beginns td und des Endes tf dargestellt.

Für einen Benutzer, welcher das Drücken auf die Taste nicht richtig mit dem Aussprechen des Wortes synchronisiert, wird das Drücken auf die Taste z.B. bei T0 und das Loslassen bei T1 liegen.

In diesem Fall erfolgt als Vorsichtsmaßnahme die Analyse nicht über die Zeitdauer [T0, T1], sondern über die Zeitdauer [T0-k0, T1+k1], um sicher zu sein, die repräsentative Zeitdauer [td, tf] sicher abzudecken (k0 und k1 sind gleich oder verschieden und sind typischerweise in der Größenordnung von einem Bruchteil einer Sekunde, z.B. k0 = k1 = 1/8 Sekunde).

Man kann drei Zustände unterscheiden:

  • – Der Zündschlüssel ist herausgezogen: Die Vorrichtung der Erfindung ist inaktiv.
  • – Der Zündschlüssel ist gedreht: Die Vorrichtung ist im Modus einer Erfassung und hält permanent das letzte 1/8 der Sekunde des Signals fest. Ausgehend von diesem gespeicherten Signal wertet die Vorrichtung das Geräusch aus und aktualisiert das entsprechende Niveau, bevor die Zeitdauer des zuvor gespeicherten Signals durch die neue ersetzt wird. Wie es weiter oben angegeben wurde, ermöglicht es diese Schätzung des Geräuschs, beträchtlich die Leistungen des Erkennungsalgorithmus zu verbessern, und die Tatsache eines Drückens auf die Taste erlaubt eine erleichterte Unterscheidung, von äußerem Ursprung, zwischen dem Geräusch und der Sprache, wobei somit die Effizienz des Algorithmus stark verbessert wird.

In dem Umsetzungsmodus, den man dargestellt hat, wird von dem Benutzer verlangt, die Taste über die gesamte Dauer eines Aussprechens des Wortes gedrückt zu halten, und man nutzt somit die zwei Kontaktübergänge der Taste aus, um die Momente T0 und T1 zu definieren.

In einer Variante kann man die Taste nur zum Definieren des Moments T0 verwenden, indem man von dem Benutzer verlangt, einfach „zu klicken", d.h. eine stoßförmige Aktion auf die Taste in dem Moment auszuüben, in welchem man das Wort auszusprechen beginnt. In diesem Fall wird der Moment T1 (oder noch genauer T1+k1) des Endes der Analyse automatisch durch den Spracherkennungsalgorithmus festgelegt, und er wird dem Moment des „Matching" entsprechen, d.h. dem Ende des Vergleichsschritts des erfassten Signals mit den verschiedenen gespeicherten Abdrücken. In diesem Fall weist die Linie „TASTE DRÜCKEN" des Zeitdiagramms der 2 einen einfachen Impuls bzw. Stoß im Moment T0 auf.

2. „Freihand"-Ergonomie

Man wird mit Hilfe der 3 die verschiedenen Funktionen beschreiben, welche durch eine einzige Taste dank der Vorrichtung der Erfindung gesteuert werden.

Diese Funktionen, welche die in einem Funktelefon umzusetzenden Hauptfunktionen sind, sind die folgenden:

  • – Abheben im Fall eines eingehenden Anrufs,
  • – Auflegen bei laufendem Anruf,
  • – Wählen durch Spracherkennung,
  • – Wählen durch die Tastatur des Telefons,
  • – Umschaltung zwischen zwei Teilnehmern im Falle eines Doppelanrufs,
  • – Umschaltung zwischen „Freihand"-Modus (Verwenden des Lautsprechers und des Mikrophons des Fahrzeugadapters) und „diskretem" Modus (Verwenden des Hörers und des Mikrophons des Funktelefons).

Der Ablauf bzw. die Verbindung dieser verschiedenen Funktionen ist in der 4 dargestellt.

Folglich:

  • – Abheben: Im Falle eines eingehenden Anrufs steuert ein Drücken auf die Taste 44 (ein „Klick") das Abheben und erlaubt es, das Gespräch im „Freihand"-Modus einzuleiten.
  • – Auflegen: Es kann durch einen „Doppelklick" auf die Taste ausgelöst werden, wenn man es wünscht, dieses Auflegen zu steuern, ohne abzuwarten, dass der Teilnehmer seinerseits auflegt.
  • – Wählen durch Spracherkennung: Man verwendet die weiter oben angegebene Sequenz: Drücken auf die Taste ... Erfassung des Signals, Analyse des Signals und Vergleich ... Loslassen der Taste ... Suchen der Nummer und Aussprechen im Echo des gefundenen Namens ... Doppelklick ... automatisches Wählen der Nummer.

    Das Ende der Spracherkennung hängt tatsächlich von einem der drei nachfolgenden Kriterien ab: (i) Loslassen der Taste, (ii) Feststellen von Stille (Unterschreiten einer Schwelle über eine gegebene Zeitdauer), (iii) Ende der maximalen Zeitdauer, welche dem Analysefenster eingeräumt ist.

    Es sei außerdem angemerkt, dass im Falle eines eingehenden Anrufs während dieser Sequenz die Erkennung sofort unterbrochen wird, um diesem Anruf die Priorität zu geben: Selbst wenn ein Name schon erkannt wurde und die Vorrichtung die Bestätigung abwartet, kann dieses nicht mehr realisiert werden; die Spracherkennungsvorrichtung wird gehemmt und wird nur wieder in Betrieb gesetzt, wenn das Telefon aufhört zu läuten oder der Benutzer das Gespräch beendet.
  • – Wählen durch die Tastatur des Telefons: Um dies durchzuführen, zieht der Benutzer das Telefon von der Halterung wieder heraus und wählt die Nummer auf der Tastatur (oder wählt eine Nummer in einem Verzeichnis des Funktelefons). Das Wählen wird normalerweise durch Drücken der passenden Taste des Funktelefons ausgelöst. Das Gespräch kann aufgebaut werden und im „Freihand"-Modus fortgesetzt werden, wenn das Funktelefon wieder auf seine Halterung zurückgesetzt wird.
  • – Umschalten bei Doppelanruf: Wenn ein Teilnehmer anruft und ein Gespräch noch im Gange ist, wird ein akustisches Signal oder eine Sprachnachricht „Doppelanruf" in dem Lautsprecher des Systems ausgesendet. Ein einfaches Drücken auf die Taste 44 ermöglicht es, von einem Anruf zum anderen überzugehen. Um den einen oder den anderen der Anrufe zu beenden, genügt es, einen „Doppelklick" auszuführen, wie weiter oben angegeben.
  • – Umschalten vom Freihand"-Modus auf den „diskreten" Modus: Es genügt, das Funktelefon von seiner Halterung herauszuziehen und umgekehrt, um von einem Modus zum anderen überzugehen.

3. Verwalten von Verzeichnissen

Ein Funktelefon enthält eines oder mehrere innere Telefonverzeichnisse mit mindestens einem Verzeichnis auf der SIM-Karte (im Sinne der GSM-Technologie) und im Allgemeinen mindestens ein dem Telefon eigenes Verzeichnis unabhängig von der SIM-Karte. Diese Verzeichnisse werden im Folgenden zusammen als „das Verzeichnis des Funktelefons" bezeichnet.

Die Vorrichtung der Erfindung weist selbst ein Verzeichnis auf, in welches jeweilige Sprachabdrücke hinzugefügt sind, man findet somit zwei Verzeichnisse vor: das Verzeichnis des Funktelefons und das Verzeichnis der Vorrichtung, welches in den Schaltkreis 40 integriert ist (man wird dieses letztere als das „Verzeichnis des Fahrzeuges" bezeichnen).

Die Erfindung schlägt vor, diese zwei Verzeichnisse bei jedem Einsetzen des Funktelefons in seine Halterung zu synchronisieren.

Bei der ersten Benutzung, wenn der Benutzer sein Funktelefon auf die Halterung setzt und den Kontakt herstellt, liest die Vorrichtung der Erfindung den Inhalt des Verzeichnisses des Funktelefons über die Steckdose, welche mit dem Stecker der Halterung verbunden ist, und erstellt eine Kopie, welche in dem Verzeichnis des Fahrzeuges festgehalten wird.

Sodann fragt die Vorrichtung das Erlernen des Vokabulars (siehe weiter unten) für diese verschiedenen gelesenen Nummern an, um in dem Speicher des Verzeichnisses des Fahrzeuges mindestens einen Sprachabdruck entsprechend zu jeder dieser Nummern festzuhalten.

Bei jedem nachfolgenden Einsetzen des Funktelefons in seine Halterung untersucht die Vorrichtung der Erfindung wieder das Verzeichnis des Funktelefons und schlägt dem Benutzer im Fall einer Nichtübereinstimmung vor, das Verzeichnis des Fahrzeuges zu aktualisieren.

In einer vorteilhaften Variante weist das Verzeichnis des Fahrzeuges mehrere Unterverzeichnisse auf, die zu jedem verschiedenen Benutzer gehören, wobei der Benutzer durch seine Nummer des Funktelefons identifiziert wird (welche mit der SIM-Karte verbunden ist). Wenn beim Einsetzen des Funktelefons in die Halterung die auf der SIM-Karte gelesene Nummer des Funktelefons nicht durch die Vorrichtung erkannt wird, erzeugt diese ein Unterverzeichnis und fährt auf die gleiche Art und Weise fort, wie es weiter angegeben ist für die Übertragung des Verzeichnisses des Funktelefons und das Erlernen von zugehörigen Sprachabdrücken.

Wenn es dagegen die Nummer des Funktelefons erkennt, wählt es sodann dasjenige der Unterverzeichnisse aus, welches dieser Nummer entspricht, und fährt mit der Fortfolge der Operationen nur über die Nummern fort, welche in diesem Unterverzeichnis enthalten sind.

Dies ermöglicht es, mit einem gleichen Fahrzeug mehrere gewöhnliche Benutzer zu haben. Jeder Benutzer wird automatisch erkannt, ohne dass eine besondere Auswahl auszuführen ist, und die Vorrichtung funktioniert sodann derart, als ob dieser Benutzer der einzige bekannte Benutzer wäre, insbesondere ohne ihm die Nummern darzubieten, welche zu anderen Benutzern gehören.

4. Erlernen von Sprachabdrücken

Diese Phase eines Erlernens ist ebenso auf das Erlernen von Abdrücken von Namen der Teilnehmer des Verzeichnisses wie auf das Erlernen von eventuellen Wörtern eines „Vokabulars" anwendbar, welches das Steuern von besonderen Funktionen des Funktelefons erlaubt, wie man es weiter unten sehen wird (Mitteilungsanruf, Einstellung der akustischen Lautstärke etc.). Man wird den Begriff „Wörter" ebenso zum Bezeichnen von Namen von Teilnehmern wie auch von Wörtern des Vokabulars verwenden.

Es ist ebenso möglich, Namen mit vordefinierten Wörtern des Vokabulars zu kombinieren, z.B. einen Namen eines Teilnehmers und ein Schlüsselwort, wie z.B. „zu Hause", „Büro", „Telefax", „Urlaub", „mobil" etc. Der Name wird somit: [Name + beliebiges Schlüsselwort]. Diese Schlüsselwörter werden auf die gleiche Art und Weise wie das Basisvokabular des Telefons erlernt.

Die Erfahrung hat gezeigt, dass die Qualität des Erlernens bei Spracherkennungsvorrichtungen häufig unterschätzt wird. Insbesondere:

  • – ist der Benutzer häufig im Moment des Erlernens ein Neuling und spricht somit mit Stress in der Stimme und Artefakten (Zögerung, Mundgeräusch, Schnalzen der Zunge etc.),
  • – das Vokabular ist manchmal schwierig und enthält nahe beieinander liegende Namen,
  • – das Vokabular enthält manchmal kurze Wörter, die schwierig zu erkennen sind.

Die Erfindung schlägt vor, das Erlernen in mehreren Phasen auszuführen.

Die erste Phase ist eine Phase eines anfänglichen Erlernens, welche darin besteht, für jedes der Wörter das entsprechende Wort auszusprechen, welches sodann als Echo durch die Vorrichtung wiederholt wird (im Falle eines Worts aus dem Vokabular kann dieses Wort außerdem auf dem Bildschirm des Funktelefons oder an dem Instrumentenbrett angezeigt werden).

Dieses Voraberlernen wird vorzugsweise bei Bedingungen ohne Geräusche ausgeführt, d.h. bei gestopptem Fahrzeug.

Die zweite Phase besteht im Aufzeichnen eines zweiten Referenzabdrucks und im Verifizieren der Übereinstimmung mit dem ersten.

Für jedes der Wörter spricht die Vorrichtung das Wort im Speicher aus und bittet den Benutzer, es zu wiederholen. Sodann berechnet die Vorrichtung den Abstand (im Sinne der Spracherkennungstechniken) zwischen den zwei Abdrücken. Wenn dieser Abstand geringer als ein gegebener Schwellenwert ist, werden alle beiden Abdrücke festgehalten. Im gegenteiligen Fall ergibt sich der zu große Abstand im Allgemeinen von einem Stress in der Stimme oder einem Artefakt, wie z.B. einem Laut eines Zögerns („äh ...") oder einem Mundgeräusch, und diese Anomalie wird dem Benutzer signalisiert, damit er mit einem erneuten Aufzeichnen fortfahren kann.

Wahlweise überprüft die Vorrichtung ebenso, dass der Abstand zwischen dem Namen oder dem ausgesprochenen Wort und den anderen Namen oder Wörtern des Verzeichnisses ausreichend groß ist, um jede Verwechslung mit einem schon bestehenden Namen oder Wort zu vermeiden.

Wahlweise kann eine zusätzliche Phase vorgesehen werden, um die gespeicherten Sprachabdrücke zu verdreifachen oder zu vervierfachen. Diese letzte Phase kann auf optionale Art und Weise durch ein Herausziehen z.B. in einer zufallsbedingten Reihenfolge eines Wortes erfolgen und ein Bitten des Benutzers, es zu wiederholen. Die Vorrichtung verifiziert dann, dass die Erkennung gut vonstatten gegangen ist. Im Falle eines zu großen Abstandes zwischen den zwei Sprachabdrücken nimmt sie die Phase eines anfänglichen Erlernens des Wortes und einer Wiederholung dieses Erlernens wieder auf.

Vorteilhafterweise führt die Vorrichtung zum sichereren Erfassen und Vermeiden der Artefakte und der Zögerungen am Beginn eines Aussprechens eines Wortes oder eines Namens vorab einen besonderen Vergleich der Anfänge von Wörtern aus durch ein Extrahieren von z.B. 1/8 Sekunde des Beginns von jedem der zwei aufgezeichneten Wörter und führt die Berechnung des Abstandes über diesen Auszügen aus, um das Vorhanden sein oder nicht eines Artefakts festzustellen.

Man kann somit eine beträchtliche Anzahl von Sprachabdrücken festhalten, welche während der anfänglichen Phase eines Erlernens, sodann in den nachfolgenden Phasen eines Wiederholens zur Verifizierung erhalten wurden. Diese Abdrücke können auch während der Benutzung der Spracherkennung aufgezeichnet werden, wobei die Untersuchung tatsächlich durch Vergleich mit einer Mehrzahl von Abdrücken durchgeführt wird, wie es in der zitierten EP-A-0 650 283 beschrieben ist, z.B. mit Hilfe eines vektoriellen Komparators, welcher die verschiedenen Berechnungen einer Spracherkennung zu beschleunigen erlaubt.

Diese Anreicherung des Vokabulars kann durch ein Kriterium einer „erfolgreichen Erkennung" bedingt werden. Dieses Kriterium weist mehrere Unterkriterien auf:

  • – Zunächst darf das Geräuschniveau nicht zu groß sein, da ansonsten die Probe nicht als ein neuer Sprachabdruck festgehalten wird;
  • – Um der Vorrichtung anzugeben, dass das ausgesprochene Wort Gegenstand einer erfolgreichen Erkennung ist, und dieses automatisch als neuen Sprachabdruck festzuhalten, kann man in Erwägung ziehen, dass, wenn auf die Spracherkennung ein durch den Benutzer erlaubtes Wählen folgt (durch einen Doppelklick auf die Taste 44), die Probe von einer guten Qualität ist und festgehalten werden kann;
  • – Ein zusätzliches Unterkriterium kann der tatsächliche Aufbau eines Gesprächs und die Weiterverfolgung dieser Kommunikation über eine signifikante Zeitdauer sein, z.B. mindestens eine Minute. Man verhindert so das Aufzeichnen von neuen Sprachabdrücken in dem Fall, in welchem der zerstreute Benutzer keine ausreichende Aufmerksamkeit auf das durch die Vorrichtung zurückgeschickte Echo verwendet hat und das Wählen einer falschen Nummer ausgelöst hat.

Nachfolgend auf jede „erfolgreiche Erkennung" gemäß diesem Kriterium und in dem Fall, in welchem es einen ausreichenden Platz in dem Speicher zum Anreichern der Lerndatei gibt, fügt man das ausgesprochene Wort der Datei als sekundäre Referenz hinzu, welche zu der primären, erkannten Referenz (diejenige, welche das erste Mal erlernt wurde) gehört.

Unabhängig von der Speicherkapazität sieht man eine maximale Anzahl an sekundären Referenzen für jede primäre Referenz vor. Der Speicher wird auf eine Art und Weise erzeugt, dass er immer die primären Referenzen festhält und die Lerndatei jeder sekundären Referenz unterdrückt, welche zu einer nicht-erfolgreichen Erkennung geführt hat (im Sinne des obigen Kriteriums).

Diese verschiedenen Regeln einer Verwaltung der Sprachabdruckdatei erlauben es, sie dynamisch zu machen und sie auf die Umgebung des Benutzers des Apparates anzupassen (Niveau und Art des Grundgeräuschs) und auf die Art des verwendeten Vokabulars (Anzahl an Wörtern des Vokabulars im Verhältnis zur Größe des Speichers und Benutzungsfrequenz jedes Wortes des Vokabulars). Diese Anpassung ist für die Robustheit des Algorithmus wichtig:

  • – Anpassung an die Umgebung: Wenn der Apparat häufig bei Vorhandensein einer gewissen Art eines Grundgeräusches verwendet wird, werden die der Datei hinzugefügten sekundären Referenzen mit diesem Grundgeräusch gespeichert und erlauben somit eine Erhöhung der Erkennungsrate bei Vorhandensein dieser Art eines Geräuschs.
  • – Anpassung an die Art des Vokabulars: Ein Benutzer, welcher wenig Vokabelwörter im Verhältnis zur Größe des Speichers hat, wird von der Möglichkeit eines Hinzufügens von vielen sekundären Referenzen profitieren, um die Leistungen seines Apparates zu verbessern. Und ein häufig verwendetes Vokabelwort wird viele sekundäre zugehörige Referenzen aufweisen, und seine Erkennung wird somit leichter.

5. Sprachsteuerung der Funktionen des Funktelefons

Außer der Verwendung der Vorrichtung für die Suche eines Namens eines Teilnehmers in einem Verzeichnis kann es vorteilhaft sein, über eine gewisse Anzahl von vordefinierten Sprachsteuerungen zu verfügen, z.B. „Anrufen des Mitteilungssystems", „Löschen der Mitteilungen", „Verbrauch", „lauter", „leiser" etc.

Diese Sprachsteuerungen sind Steuerungen, welche an das Funktelefon gesendet werden, oder spezielle Telefonnummern, welche den Zugang zu spezifischen Diensten erlauben (Sprachmitteilung, Informationen, Reservierung eines Taxis etc.), oder auch Steuerungen, welche für den Adapter des Fahrzeuges bestimmt sind.

Man kann ebenso eine Steuerung mit einem Schlüsselwort vorsehen, wie z.B. „Tastatur", welche es erlaubt, in den Wählmodus über Zahlen überzugehen, wobei die numerische Tastatur des Telefons somit wiederaktiviert wird.

Einige dieser Sprachsteuerungen können ebenso durch den Betreiber des Dienstes des Funktelefons auf die gleiche Art und Weise heruntergeladen werden wie es möglich ist, Daten in die SIM-Karte oder in den Terminal des Funktelefons herunterzuladen.

Außerdem kann die Vorrichtung über den Verbindungsstecker des Funktelefons in seiner Halterung die inneren Schaltkreise des Terminals und der SIM-Karte abfragen, um eine gewisse Anzahl von Parametern zu erkennen, wie z.B. die Sprache des Benutzers (Daten, welche auf der SIM-Karte gespeichert sind), welche verwendet werden können, um die Vorrichtung in dieser Sprache zu betreiben, ohne dass es notwendig ist, den Benutzer zu bitten, diese anzugeben), den Pegel der akustischen Wiedergabe, welcher in dem Funktelefon programmiert ist, etc.

Bei einer anderen, vorteilhaften Perfektionierung der Erfindung können die Sprachsteuerungen bzw. Sprachbefehle zuvor durch eine signifikante Gruppe von Sprechern aufgezeichnet worden sein, z.B. vier Männer und vier Frauen für jede der möglichen Sprachen, und die entsprechenden Sprachabdrücke werden in einem nicht-flüchtigen Speicher festgehalten. Bei der ersten Verwendung des Wortes, wenn dieses Wort erkannt wird und nach der Bestätigung (die sich z.B. aus dem Schicken eines Anrufs mit einem Abheben über eine minimale, vorherbestimmte Zeitdauer ergibt), wird der durch den Benutzer ausgesprochene Sprachabdruck im Speicher festgehalten. Auf diese Weise verhindert man in vielzähligen Fällen die Notwendigkeit einer Phase eines Erlernens, die für den Benutzer langweilig ist.


Anspruch[de]
  1. Vorrichtung (30, 40) zur Sprachsteuerung für ein Funktelefon (10), insbesondere für die Verwendung in einem Kraftfahrzeug, aufweisend:

    – einen Datenspeicher, welcher eine Reihe von Rufnummern von Teilnehmern enthält, und für jede Rufnummer mindestens eine zugehörige Sprachabdruckinformation,

    – einen Schallwandler (32), der fähig ist, einen Namen des gesuchten Teilnehmers aufzunehmen, der durch den Benutzer des Geräts ausgesprochen wird,

    – Spracherkennungsmittel, die geeignet sind, den Namen des Teilnehmers, der durch den Schallwandler aufgenommen wird, zu analysieren und ihn in einen zugehörigen Sprachabdruck umzuwandeln,

    – selektive Adressiermittel des Speichers, welche Zuordnungsmittel umfassen, die fähig sind, in dem Speicher eine Sprachabdruckinformation wiederzufinden, entsprechend zu derjenigen, welche durch die Spracherkennungsmittel geliefert wird, und im Fall einer Ubereinstimmung den Speicher auf die entsprechende Position zu adressieren, und

    – Mittel, welche mit den Zuordnungsmitteln zusammenwirken, um an die Schaltkreise des Funktelefons die adressierte Rufnummer anzulegen,

    dadurch gekennzeichnet, dass die Spracherkennungsmittel aufweisen:

    – Mittel, die fähig sind, ein Geräuschniveau der Umgebung auszuwerten und zu speichern, das durch den Wandler bei Abwesenheit des Sprachsignals erfasst wird, wobei dieses Geräusch permanent durch den Schallwandler erfasst wird und analysiert wird, um ein mittleres, gewichtetes Energiespektrum des Geräuschs zu geben, das kontinuierlich wieder aktualisiert wird,

    – Mittel, die bei Vorhandensein eines Sprachsignals fähig sind, vom Leistungsspektrum des erfassten Signals das Leistungsspektrumn des zuvor ausgewerteten Geräuschs abzuziehen, und

    – Mittel, die fähig sind, an das resultierende, so erhaltene Signal einen Spracherkennungsalgorithmus vom Typ DTW anzulegen mit Formerkennung durch dynamische Programmierung, die an die Sprache angepasst ist, unter Verwenden von Extraktionsfunktionen eines dynamischen Parameters, insbesondere eines dynamischen, voraussagenden Algorithmus mit vorne und/oder hinten und/oder frequentieller Überdeckung.
  2. Vorrichtung nach Anspruch 1, aufweisend des Weiteren Mittel zum Lesen von mindestens einem inneren Verzeichnis des Funktelefons, Vergleichen der Rufnummern dieses Verzeichnisses mit denjenigen des Speichers, Aktualisieren dieses Speichers unter einem ihm Hinzufügen der Rufnummern des Verzeichnisses, welche dort nicht vorhanden sind, dem Benutzer die Namen der zugehörigen Teilnehmer zu diesen hinzugefügten Nummern anzugeben und Speichern der Sprachabdrucke dieser Namen.
  3. Vorrichtung nach Anspruch 1, des Weiteren aufweisend eine Taste (44), welche durch den Benutzer betätigt wird, und deren Betätigung die Verwaltungsfunktionen des Funktelefons steuert, umfassend das Abheben, das Auflegen und die Umschaltung bei Doppelanruf.
  4. Vorrichtung nach Anspruch 1, des Weiteren aufweisend eine Taste (44), welche durch den Benutzer betätigt wird, um ein Sprachsignal zu diskriminieren, und bei welcher das durch den Wandler erfasste Signal fortlaufend über ein gegebenes Zeitintervall k0 derart gespeichert wird, dass die Spracherkennung über einen Zeitablauf [T0 – k0, T1 + k1] betrieben wird, einschließend die Betätigungsperiode der Taste [td, tf] und das unmittelbar zu dieser Betätigung vorangegangene Zeitintervall k0.
  5. Vorrichtung nach Anspruch 1, des Weiteren aufweisend eine Taste (44), welche durch den Benutzer betätigt wird, um ein Sprachsignal zu diskriminieren, und bei welcher die Spracherkennung über einen Zeitablauf [T0 – k0, T1 + k1] betrieben wird, der nach dem Ende tf der Betätigung der Taste zu Ende geht.
  6. Vorrichtung nach Anspruch 1, in welcher in einer Bestätigungsphase die Vorrichtung im Speicher die Sprachabdrucke diskriminiert und beibehält, welche zu den Namen von Teilnehmern des Speichers gehören oder zu Wörtern des spezifischen Sprach-Steuer-Vokabulars, die für eine erfolgreich zustande gebrachte Spracherkennung Anlass gegeben haben.
Es folgen 2 Blatt Zeichnungen






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com