PatentDe  


Dokumentenidentifikation DE10117367B4 18.08.2005
Titel Verfahren und System zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten
Anmelder Siemens AG, 80333 München, DE
Erfinder Luegger, Volger, 58730 Fröndenberg, DE
DE-Anmeldedatum 06.04.2001
DE-Aktenzeichen 10117367
Offenlegungstag 17.10.2002
Veröffentlichungstag der Patenterteilung 18.08.2005
Veröffentlichungstag im Patentblatt 18.08.2005
IPC-Hauptklasse G10L 13/00

Beschreibung[de]

Die vorliegende Erfindung bezieht sich auf ein Verfahren sowie ein System, das beliebige geschriebene maschinenlesbare Text-Nachrichten, beispielsweise E-Mails oder Fax-Nachrichten, über ein geeignetes akustisches Wiedergabesystem, beispielsweise über ein Mobiltelephon, auf Grundlage eines zuvor generierten Stimmenprofils akustisch ausgibt.

Nach dem Stand der Technik ist es bekannt, in einer Multimedia-Umgebung Inhalte von E-Mails, Fax-Nachrichten oder sonstigen Texten mittels fest vorgegebener synthetisch erzeugter Stimmen auszugeben. Um die Kommunikation in einer Multimedia-Umgebung (in der Literatur wird in diesem Zusammenhang häufig von einem "Unified Message System" gesprochen) so natürlich wie möglich erscheinen zu lassen, ist es von Interesse, die entsprechende Text-Nachricht mit der Stimme des jeweiligen Autors auszugeben.

Aus der Druckschrift DE 198 41 683 A1 ist ein Verfahren der eingangs genannten Art zur digitalen Sprachbearbeitung bekannt. Die in eine Sprachausgabe umsetzbaren Wörter sind in einer Tabelle (Wörterbuch) zusammen mit Informationen zu ihrer Aussprache (phonetische Einträge, phonetische Entsprechungen) verzeichnet. Ein Übersetzer erzeugt aus den phonetischen Einträgen der einzelnen Worte eine Sprachnachrichten-Datei, die in einem Editor in Form einer Lautschrift angezeigt und bearbeitet werden kann. Zur Bearbeitung werden Parameter (Modifikatoren) hinzugefügt oder verändert. Die Parameter verschiedener Sprechertypen (Mann, Frau, Kind etc.) sind in jeweils einem Sprachprofil (Sprechermodell) zusammengefasst und als Standardmodelle vorgegeben. Durch Anpassung der Parameter gestaltet (editiert) der Benutzer die "Stimme" der anschließenden synthetischen Sprachausgabe bis zum gewünschten qualitativen Zustand.

Die Druckschrift DE 34 16 238 C2 "Extremschmalband-Übertragungssystem und Verfahren zur Übertragung von Nachrichten" zeigt ein Extremschmalband-Übertragungssystem zur Übertragung von Sprachnachrichten über eine Datenleitung mit geringer Übertragungskapazität. Hierbei wird eine eingegebene Sprachnachricht analysiert und dabei in eine Textnachricht übersetzt. Diese Textnachricht wird zusammen mit der Information darüber, welcher Sprecher die ursprüngliche Nachricht verfasst hat, über die Übertragungsleitung zu einem Empfänger übermittelt. Auf der Empfängerseite wird die Textnachricht wiederum in eine synthetisch erzeugte Sprachnachricht (zurück-) übersetzt, wobei anhand eines empfängerseitig vorhandenen Sprachprofils des ursprünglichen Sprechers dessen Stimme nachempfunden wird.

Der vorliegenden Erfindung liegt die Aufgabe zugrunde, eine Sprachwiedergabe von maschinenlesbaren Texten mit variierbaren synthetisch erzeugten Stimmen zu erreichen.

Diese Aufgabe wird gemäß der Erfindung durch die Merkmale der unabhängigen Ansprüche gelöst. Die abhängigen Ansprüche bilden den zentralen Gedanken in besonders vorteilhafter Weise weiter.

Erfindungsgemäß wird vorgeschlagen, dass zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten Sprachprobedaten eines Benutzers analysiert werden und auf Grundlage dieser Analyse ein Sprachprofil erstellt wird. Auf Grundlage des erstellten Sprachprofiles können beliebige Text-Nachrichtendaten in synthetische Sprach-Nachrichtendaten umgesetzt werden.

Das Erstellen des Sprachprofiles kann dabei beispielsweise durch einen Vergleich eines schriftlichen Referenz-Textes mit einem durch akustische Artikulation eines Sprechers erzeugten Referenz-Text erfolgen.

Erfindungsgemäß wird weiterhin ein System zur Umsetzung von Text-Nachrichten in Sprach-Nachrichten beansprucht. Dieses weist einen Sprachanalysator auf, der auf Grundlage einer Analyse von Sprachprobedaten ein Sprachprofil für eingegebene Sprachprobedaten erzeugt. Außerdem enthält dieses System einen Sprachgenerator, der auf Grundlage des Sprachprofils eine beliebige Text-Nachricht in synthetische Sprachprobedaten umsetzt.

Weitere Vorteile, Merkmale und Eigenschaften der vorliegenden Erfindung werden im folgenden anhand eines Ausführungsbeispiels unter Bezugnahme auf die begleitende Zeichnung näher erläutert.

Die Figur zeigt schematisch eine Technik zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten.

In der Figur ist schematisch ein Verfahren bzw. ein System zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten dargestellt. Ein von einer beliebigen Person gesprochener Text 1 wird in einem Schritt S1 von einem Analysator 2 analysiert. Dies geschieht in der Regel dadurch, dass die akustischen Signale analog registriert werden und durch einen A/D-Wandler in digitale Sprachdateien umgesetzt werden. Mit einer entsprechenden Software kann in einem Schritt S3 auf Grundlage der erfolgten Analyse der digitalen Sprachdateien ein Sprachprofil 3 der Person erzeugt werden. Dabei kann der gesprochene Text 1 ein beliebiger Freitext oder ein Referenztext 8 sein, der in einem Schritt S2 im Rahmen der Analyse mit der schriftlichen Form des Referenztextes 8 verglichen wird.

Auf Grundlage des Sprachprofils 3 lässt sich im folgenden jede beliebige Text-Nachricht 5 über einen Sprachgenerator 4 in synthetische Sprachnachrichtendaten 6 übersetzen (Schritt S5 und Schritt S6). Die Textnachricht 5 kann anschließend in einem Schritt S7 gemäß dem erstellten Sprachprofil 3 akustisch ausgegeben werden.

So kann anhand einer Sprachprobe 1 eines Sprechers über das dadurch gewonnene Sprachprofil 3 ein Sprachgenerator 4 für eine synthetisch erzeugte Sprache so eingestellt werden, dass beliebige Texte 5 mit der Stimme dieses Sprechers akustisch ausgegeben werden können. Natürlich ist es auch denkbar, dass dem Sprachgenerator Sprachproben verschiedener Personen und damit mehrere Sprachprofile zur Verfügung stehen. Damit ist eine Auswahl verschiedener Sprecher möglich.

Dies ist insbesondere innerhalb von Multimediaumgebungen von großem Wert, wenn nämlich die Verknüpfung von synthetisch erzeugter Sprache zu Dokumenten des Sprechers automatisch erstellt werden kann. Dabei ist es zudem äußerst vorteilhaft, dass die Profilgenerierung für die Ausgabe der Sprache automatisch aus einer beliebigen Sprachprobe innerhalb des Multimediaumfeldes erfolgen kann.

Normalerweise werden innerhalb eines einheitlichen Nachrichten-Systems (Unified Message System) verschiedene Dokumente, wie z.B. Sprachnachrichten (Anrufbeantworter), E-Mails, Faxnachrichten usw., des gleichen Autors verwaltet. Um beispielsweise E-Mails innerhalb dieses Systems z.B. auf einem Mobiltelephon auszugeben, wird der E-Mail-Text erfindungsgemäß in Sprache übersetzt. Vorteilhafterweise kann dabei mit Hilfe einer in demselben System eingegangenen Sprach-Nachricht 1 des gleichen Autors und des daraus generierten Stimmenprofils 3 die E-Mail-Nachricht mit der Stimme dieses Autors ausgegeben werden. Bei entsprechender Vorlage einer Sprachprobe anderer Personen, wie z.B. prominenter Personen, wäre auch eine Wiedergabe der Dokumente mit deren Stimme möglich.


Anspruch[de]
  1. Verfahren zur automatischen Umsetzung und Ausgabe von Text-Nachrichten (5) eines Benutzers als synthetische Sprach-Nachrichten (6) in einem einheitlichen Nachrichten-System, in welchem die Text-Nachrichten (5) und eingegangene Sprach-Nachrichten des zumindest einen Benutzers gespeichert werden, mit den folgenden Schritten:

    • Erstellen (S3) eines Sprachprofils (3),

    • Umsetzen (4) von eingegebenen Text-Nachrichten (5) in synthetische Sprach-Nachrichten (6) auf Grundlage des Sprachprofils (3), und

    • akustische Ausgabe der synthetischen Sprach-Nachrichten (6),

    dadurch gekennzeichnet,

    dass das Sprachprofil (3) nach Analyse (S1) von Sprachprobedaten (1) des Benutzers auf Grundlage der vorgenommenen Analyse (S1) erstellt wird, um den Text angenähert der Stimme des Benutzers auszugeben, wobei als Sprachprobedaten (1) eine eingegangene und gespeicherte Sprach-Nachricht dieses Benutzers verwendet wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Erstellen des Sprachprofils (3) auf Grundlage eines Vergleichs (S2) von Referenz-Textdaten (8) mit den Sprachprobedaten (1) erfolgt, wobei die als Sprachprobedaten (1) verwendete Sprach-Nachricht durch akustische Wiedergabe der Referenz-Textdaten (8) durch den Benutzer erzeugt wird.
  3. Einheitliches Nachrichten-System,

    – mit einer Speichervorrichtung zur Speicherung eingegangener Sprach-Nachrichten,

    – mit einem Sprachanalysator (2), der zur Erzeugung eines Sprachprofils (3) auf Grundlage einer Analyse (S1) von als Sprachprobedaten (1) verwendeten gespeicherten Sprach-Nachrichten ausgebildet ist, und

    – mit einem Sprachgenerator (4), der zur Umsetzung einer beliebigen Text-Nachricht (5) in synthetische Sprach-Nachrichten (6) auf Grundlage des Sprachprofils (3) eingerichtet ist.
  4. Einheitliches Nachrichten-System nach Anspruch 3, dadurch gekennzeichnet, dass der Sprachgenerator (4) dazu ausgelegt ist, das Sprachprofil (3) auf Grundlage eines Vergleichs eines schriftlichen Referenz-Textes (8) mit der von einem Benutzer gesprochenen Form (1) dieses Referenz-Textes (8) zu erzeugen.
Es folgt ein Blatt Zeichnungen






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com