PatentDe  


Dokumentenidentifikation DE69737489T2 29.11.2007
EP-Veröffentlichungsnummer 0000785631
Titel Formung des erkennbaren Rauschsignals in der Zeitdomäne mittels LPC-Voraussage im Frequenzraum
Anmelder Lucent Technologies Inc., Murray Hill, N.J., US
Erfinder Herre, Juergen Heinrich, Basking Ridge, New Jersey 07920, US
Vertreter derzeit kein Vertreter bestellt
DE-Aktenzeichen 69737489
Vertragsstaaten DE, FR, GB
Sprache des Dokument EN
EP-Anmeldetag 07.01.1997
EP-Aktenzeichen 973000680
EP-Offenlegungsdatum 23.07.1997
EP date of grant 21.03.2007
Veröffentlichungstag im Patentblatt 29.11.2007
IPC-Hauptklasse H03M 7/00(2006.01)A, F, I, 20051017, B, H, EP

Beschreibung[de]
Gebiet der Erfindung

Die vorliegende Erfindung betrifft das Gebiet des Audiosignalcodierens und insbesondere ein verbessertes Verfahren und eine verbesserte Vorrichtung zum Codieren von Audiosignalen auf der Basis eines psychoakustischen Modells.

Allgemeiner Stand der Technik

Während der letzten Jahre wurden sogenannte "psychoakustische Audiocoder" entwickelt, welche die Übertragung und Speicherung von qualitativ hochwertigen Audiosignalen mit Bitraten von etwa 1/12 oder weniger der bei einem herkömmlichen Compact-Disc-Medium (CD) gemeinhin verwendeten Bitrate ermöglichen. Derartige Coder nutzen die in einem Audiosignal auf Grund der Einschränkungen des menschlichen Hörapparats enthaltene Irrelevanz durch Codieren des Signals mit lediglich so großer Genauigkeit, wie erforderlich ist, um ein psychoakustisch nicht unterscheidbares rekonstruiertes (d.h. decodiertes) Signal zu ergeben. Von mehreren Normungsorganisationen wurden Normen erstellt, beispielsweise die Audionormen MPEG1 und MPEG2 der Moving Picture Experts Group der International Standardization Organization (ISO/MPEG). Psychoakustische Audiocoder sind beispielsweise im US-Patent Nr. 5,285,498, ausgegeben an James D. Johnston am 8. Feb. 1994, und im US-Patent Nr. 5,341,457, ausgegeben an Joseph L. Hall II und James D. Johnston am 23. Aug. 1994, ausführlich beschrieben.

Im Allgemeinen kann die Konstruktion eines psychoakustischen Audiocoder für monophone Audiosignale folgendermaßen beschrieben werden.

  • • Die Eingangsabtastungen werden durch Verwendung verschiedener Typen von Filterbänken und Transformationen, beispielsweise der bestens bekannten modifizierten diskreten Cosinus-Transformation (MDCT), von Polyphasenfilterbänken oder Hybridstrukturen, in eine unterabgetastete Spektraldarstellung umgewandelt.
  • • Durch Verwendung eines psychoakustischen Modells werden eine oder mehrere zeitabhängige Maskierungsschwellen für das Signal geschätzt. Diese Schwellen liefern den maximalen Codierfehler, der in das Audiosignal eingebunden werden kann, während dennoch eine psychoakustisch unbeeinträchtigte Signalqualität bestehen bleibt.
  • • Die Spektralwerte werden gemäß der Genauigkeit, die den Maskierungsschwellenschätzwerten entspricht, quantisiert und codiert. Auf diese Weise kann das Quantisierungsrauschen durch das entsprechende übertragene Signal verborgen (d.h. maskiert) werden und ist dadurch nach dem Decodieren nicht wahrnehmbar.
  • • Schließlich werden alle relevanten Informationen (z.B. codierte Spektralwerte und zusätzliche Nebeninformationen) in einen Bitstrom gepackt und zu dem Decoder übertragen.

Folglich sind die in einem entsprechenden Decoder verwendeten Verarbeitungen umgekehrt:

  • • Der Bitstrom wird decodiert und in codierte Spektraldaten und Nebeninformationen geparst.
  • • Die umgekehrte Quantisierung der quantisierten Spektralwerte wird durchgeführt.
  • • Die Spektralwerte werden mittels einer Synthesefilterbank in eine Zeitraumdarstellung zurück umgewandelt.

Mittels einer derartigen generischen Coderkonstruktion ist es möglich, die Irrelevanz, die in jedem Signal auf Grund der Einschränkungen des menschlichen Hörapparats enthalten ist, effizient zu nutzen. Insbesondere kann das Spektrum des Quantisierungsrauschens entsprechend der Form der Rauschmaskierungsschwelle des Signals geformt sein. Auf diese Weise kann das Rauschen, das sich aus dem Codierprozess ergibt, unter dem codierten Signal "verborgen" sein, und demnach kann eine psychoakustisch transparente Qualität bei hohen Kompressionsraten erreicht werden.

Ohne weitere Vorsichtsmaßnahmen liefert allerdings ein psychoakustischer Coder beim Codieren von transienten Signalen, beispielsweise von Kastagnetten- oder Glockenspieltönen, eventuell keine transparente Signalqualität. Dieses Problem ist darauf zurückzuführen, was gemeinhin als "Vorecho"-Problem bekannt ist, mit dem Fachleute vertraut sind. Insbesondere ist, während das zu codierende Signal eventuell nur in Abschnitten des Zeitfensters, das durch die Analysefilterbank des Coders verarbeitet wird, und einem bestimmten Moment starke Signalkomponenten enthält, der resultierende Codierfehler für gewöhnlich über die gesamte Fensterlänge ausgebreitet. Demnach kann das Quantisierungsrauschen über einen Zeitraum, beispielsweise von 20 Millisekunden oder mehr, verteilt sein, und es kann dadurch die Größe von Originalsignalkomponenten in bestimmten Signalbereichen übersteigen. Wenn man beispielsweise ein Kastagnettensignal mit einem "Ausschlag" im mittleren Abschnitt eines Analysefensters hernimmt, können die Rauschkomponenten des codierten Signals im Abschnitt des Fensters unmittelbar vor dem "Ausschlag" stärker als die Originalsignalkomponenten sein.

Bekannt ist, dass auf Grund der Eigenschaften des menschlichen Hörapparats derartige "Vorechos" nur dann maskiert werden, wenn keine erhebliche Menge des Codierungsrauschens länger als etwa 2 ms vor Beginn des Signals vorliegt. Andernfalls wird das Codierungsrauschen wahrscheinlich als "Vorecho"-Artefakt wahrgenommen – d.h. als ein kurzes rauschähnliches Ereignis, das dem Beginn des Signals vorangeht.

Eine Reihe von Verfahren wurden vorgeschlagen, um Vorecho-Artefakte in einem codierten/decodierten Signal zu vermeiden, das durch ein psychoakustisches Audiocodiersystem erzeugt wird:

  • 1) Ein Verfahren, welches verwendet wurde, ist, die Codierungsgenauigkeit der Spektralkoeffizienten des Filterbankfensters, welches zuerst den transienten Signalabschnitt abdeckt, zu erhöhen. Dies ist als "Vorechokontrolle" bekannt und beispielsweise in die MPEG1-Audionorm eingebunden. Da diese Lösung erheblich mehr Bits zum Codieren dieser Rahmen benötigt, kann ein derartiges Verfahren in einem Konstantbitraten-Coder nicht ohne weiteres angewandt werden. In einem bestimmten Maß kann lokalen Variationen im Bitratenbedarf durch Verwendung des herkömmlichen Verfahrens, welches als "Bitreservoir" bekannt und ebenfalls in die MPEG1-Audionorm eingebunden ist, Rechnung getragen werden. Dieses Verfahren gestattet die Bewältigung von Bitratenbedarfsspitzen durch Verwendung von Bits, die während des Codierens vorangegangener Rahmen beiseite gelegt wurden – demnach bleibt die durchschnittliche Bitrate immer noch konstant. In der Praxis muss jedoch die Größe des Bitreservoirs unrealistisch groß sein, um beim Codieren von Eingangssignalen von stark transienter Natur Artefakte zu vermeiden.
  • 2) Eine andere Strategie, die in zahlreichen herkömmlichen psychoakustischen Audiocodern verwendet wird, ist als Adaptive-Window-Switching bekannt. Dieses Verfahren, welches ebenfalls in die MPEG1-Audionorm eingebunden ist, passt die Größe der Filterbankfenster an die Eigenschaften des Eingabesignals an. Während Abschnitte des Signals, die relativ stationär sind, eine lange Fensterlänge benutzen (wie üblich ist), werden kurze Fenster verwendet, um die transienten Abschnitte des Signals zu codieren. Auf diese Weise kann der Spitzenbitbedarf erheblich reduziert werden, da die Bereiche, für welche eine hohe Codiergenauigkeit erforderlich ist, zeitlich eingeschränkt sind.

Ein wesentlicher Nachteil des Adaptive-Window-Switching-Verfahrens ist, dass es erhebliche zusätzliche Komplexität in den Coder einbindet und dessen Konstruktion verkompliziert. Da die verschiedenen Fenstergrößen verschiedene Parameter und Codierstrategien voraussetzen, besteht ein Coder, der Window-Switching verwendet, in Wirklichkeit aus im Wesentlichen zwei Codern, einem für die längere Fenstergröße und einem für die kürzere Fenstergröße. Darüber hinaus kann dieses Verfahren im Fall eines "gepitchten" Signals, das aus einer pseudostationären Reihe von impulsartigen Signalen besteht, beispielsweise der menschlichen Sprache, nicht effizient verwendet werden, ohne beträchtliche Einbußen bei der Codiereffizienz in Kauf zu nehmen. Auf Grund des Mechanismus der Spracherzeugung würde die temporale Ausbreitung des Quantisierungsrauschens bei Verwendung dieses Verfahrens nur durch ständiges Auswählen der kürzeren Fenstergröße vermieden. Dies wiederum würde infolge der reduzierten Codierverstärkung und des erhöhten Nebeninformationsaufwands zu einer erheblichen Abnahme der Codereffizienz führen.

  • 3) Ein drittes Verfahren, das verwendet wurde, um die temporale Ausbreitung des Quantisierungsrauschens zu vermeiden, ist, das Signal vor dem Durchführen der Spektralzerlegung einer Verstärkungsänderung/-modifizierung zu unterziehen. Das dieser Herangehensweise zu Grunde liegende Prinzip ist, die Dynamik des Eingangssignals durch Anwendung einer Verstärkungsmodifikation vor seiner Codierung zu reduzieren. Die Parameter der Verstärkungsmodifikation werden dann im Bitstrom übertragen – mittels dieser Informationen kann der Prozess auf der Decoderseite umgekehrt werden.

Um für die meisten Signale eine gute Leistung zu erzielen, muss jedoch die Verarbeitung unabhängig auf verschiedene Teile des Frequenzspektrums angewandt werden, da transiente Ereignisse oft nur in bestimmten Abschnitten des Spektrums vorliegen. Dies kann mittels komplexerer Hybridfilterbänke durchgeführt werden, die eine getrennte Verstärkungsverarbeitung verschiedener Spektralkomponenten gestatten. Im Allgemeinen sind jedoch die Abhängigkeiten zwischen der Verstärkungsmodifikation und dem psychoakustischen Modell des Coders oftmals schwierig zu lösen.

"Mobile Radio Communications", R. Steele, Pentech Press, London, 1992, S. 188-191, offenbart die Verwendung von auf Sprachsignale angewandtem prädiktivem Codieren. Dies funktioniert durch Vorhersagen der Sprachsequenz, Bilden eines Fehlers zwischen der tatsächlichen Sprache und der vorhergesagten Sprache und Quantisieren der Fehlersequenz vor der Übertragung. Zwei Formen werden besprochen, nämlich D*PCM und DPCM, die dem entsprechen, was in diesem Dokument als "DPCM mit offenem Kreislauf" und "DPCM mit geschlossenem Kreislauf" bezeichnet wird (siehe Encoder 34 und 44 aus nachstehender 3 und 4 und Decoder 55 aus 5).

"Frequency domain coding of speech", J. M. Tribolet und R. E. Crochiere, IEEE Transactions on Acoustics, speech and signal processing, IEEE New York, US, Bd. ASSP-27, Nr. 5, S. 512-530, (1979), ist eine Abhandlung, welche herkömmliche Frequenzraum-Sprachcodierverfahren, einschließlich Subband- und Transformationscodierer, beschreibt. Die Beschreibung der Transformationscodierer regt die Verwendung einer adaptiven Quantisierung der Transformationskoeffizienten an. Die Beschreibung der Subband-Coder regt die mögliche Verwendung prädiktiver Codierverfahren an, wobei die Prädiktion über den Zeitverlauf hinsichtlich der Daten innerhalb eines bestimmten Subbandes durchgeführt wird.

Kurzdarstellung der Erfindung

Ein Verfahren und eine Vorrichtung gemäß der vorliegenden Erfindung werden in den unabhängigen Ansprüchen dargelegt, auf welche der Leser nunmehr verwiesen wird. Bevorzugte Merkmale werden in den abhängigen Ansprüchen dargelegt.

Gemäß einer veranschaulichenden Ausführungsform der vorliegenden Erfindung werden ein Verfahren und eine Vorrichtung bereitgestellt, welche die Nachteile von im Stand der Technik bekannten Verfahren beheben. Insbesondere wird die Formung von wahrnehmbarem Rauschen im Zeitraum durch Durchführen einer (linearen) Prädiktion (d.h. Filterung) im Frequenzraum erzielt. Infolgedessen wird die temporale Ausbreitung von Quantisierungsrauschen reduziert. Konkret werden gemäß einer veranschaulichenden Ausführungsform der vorliegenden Erfindung die folgenden Verarbeitungsschritte in einem Encoder zur Verwendung mit monophonen Signalen angewandt:

  • • Das zu codierende Audiosignal wird durch eine hochauflösende Filterbank/Transformation (wie jener, die für den "längeren Block" bei herkömmlichen psychoakustischen Codern verwendet werden, die sich Adaptive-Window-Switching bedienen) in Spektralkomponenten zerlegt.
  • • Durch Verwendung eines psychoakustischen Modells werden eine oder mehrere zeitabhängige Maskierungsschwellen für das Signal geschätzt. Diese Schwellen liefern den maximalen Codierfehler, der in das Audiosignal eingebunden werden kann, während dennoch eine psychoakustisch unbeeinträchtigte Signalqualität bestehen bleibt.
  • • Dann wird die Codierung der Spektralwerte mittels eines auf differentieller Pulscodemodulation (DPCM) basierendem Quantisierungs-/Codierungsschemas durchgeführt, welches hinsichtlich der Filterbankausgänge in Frequenz betrieben wird. Wie bei herkömmlichen psychoakustischen Codern kann das Ziel für die erforderliche Codierungsgenauigkeit durch das psychoakustische Modell angegeben werden.
  • • Schließlich werden alle relevanten Informationen (z.B. die codierten Spektralwerte und die erzeugten Nebeninformationen) in einen Bitstrom gepackt und zu dem Decoder übertragen. Insbesondere beinhalten die erzeugten Nebeninformationen einen Merker, welcher die Verwendung von DPCM-Codierung anzeigt, und gegebenenfalls Informationen über den Zielfrequenzbereich und das zum Codieren verwendete Filter.

Analog dazu führt ein entsprechender veranschaulichender Decoder gemäß einer veranschaulichenden Ausführungsform der vorliegenden Erfindung die folgenden Verarbeitungsschritte aus:

  • • Der Bitstrom wird decodiert und in codierte Spektraldaten und Nebeninformationen geparst.
  • • Die umgekehrte Quantisierung der quantisierten Spektralwerte wird durchgeführt. Insbesondere kann dies das DCPM-Decodieren von Spektralwerten umfassen, wenn die Verwendung von DPCM mittels Merker in den Nebeninformationen angegeben wurde.
  • • Die Spektralwerte werden mittels einer Synthesefilterbank in eine Zeitraumdarstellung zurück umgewandelt.

Die Auswahl des Typs von DPCM-Quantisierungs-/Codierungsschema (Prädiktor/Quantisierer-Kombination) kann verschiedene Vorteile für das Gesamtsystemverhalten ergeben. Konkret und gemäß einer ersten veranschaulichenden Ausführungsform der vorliegenden Erfindung wird ein DPCM-System mit geschlossenem Kreislauf verwendet. Wenngleich diese erste Ausführungsform eine Codierungsverstärkung für transiente Signale ergibt, wird bei einer bevorzugten Lösung gemäß einer zweiten Ausführungsform der vorliegenden Erfindung ein DPCM-System mit offenem Kreislauf verwendet. Diese zweite Ausführungsform ergibt vorteilhafterweise einen zeitgeformten Quantisierungsfehler am Ausgang des Decoders. Konkret wird, da die DPCM-Verarbeitung auf spektrale Koeffizienten angewandt wird, das Quantisierungsrauschen im decodierten Signal (nachdem die inverse Filterbank im Decoder angewandt wurde) in der Zeit geformt, wodurch das Quantisierungsrauschen unter dem eigentlichen Signal gehalten wird. Auf diese Weise werden temporale Probleme mit der Entmaskierung, entweder bei transienten oder "pitchigen" Signalen, vorteilhaft ohne Bedarf an erheblicher Übercodierung und deren entsprechendem Bitaufwand vermieden.

Kurzbeschreibung der Zeichnungen

1 zeigt eine herkömmliche Vorrichtung zum Ausführen von psychoakustischem Codieren durch Verwendung eines PCM-Quantisierungs-/Codierungsschemas zur Verwendung beim Codieren von monophonen Audiosignalen.

2 zeigt eine herkömmliche Vorrichtung zum Ausführen von psychoakustischem Decodieren gemäß der psychoakustischen Codierungsvorrichtung aus 1.

3 zeigt einen psychoakustischen Audioencoder, der sich eines Prädiktionsschemas mit geschlossenem Kreislauf gemäß einer ersten veranschaulichenden Ausführungsform der vorliegenden Erfindung bedient.

4 zeigt einen psychoakustischen Audioencoder, der sich eines Prädiktionsschemas mit offenem Kreislauf gemäß einer zweiten veranschaulichenden Ausführungsform der vorliegenden Erfindung bedient.

5 zeigt einen psychoakustischen Audiodecoder gemäß einer veranschaulichenden Ausführungsform der vorliegenden Erfindung.

6 zeigt ein Flussdiagramm eines Verfahrens zum Codieren von Audiosignalen gemäß einer veranschaulichenden Ausführungsform der vorliegenden Erfindung.

7 zeigt ein Flussdiagramm eines Verfahrens zum Decodieren von codierten Audiosignalen gemäß einer veranschaulichenden Ausführungsform der vorliegenden Erfindung.

Ausführliche Beschreibung

Das vorliegende erfindungsgemäße Verfahren und die vorliegende erfindungsgemäße Vorrichtung bewältigen die Nachteile von im Stand der Technik bekannten Verfahren durch wirksames Ersetzen der Verwendung eines herkömmlichen Pulscodemodulations(PCM)-Quantisierungs-/Codierungsschemas, welches für gewöhnlich in herkömmlichen psychoakustischen Audiocodern verwendet wird, durch ein auf differenzieller Pulscodemodulation (DPCM) basierendes Quantisierungs-/Codierungsschema, wobei das DPCM-Schema hinsichtlich der Filterbankausgänge im Frequenzraum betrieben wird. (Sowohl PCM-Codierungs- als auch DPCM-Codierungsverfahren sind Fachleuten im Allgemeinen bestens bekannt).

1 zeigt einen herkömmlichen psychoakustischen Encoder zur Verwendung beim Codieren monophoner Audiosignale. Der Encoder aus 1 führt die folgenden Schritte aus:

  • • Das Eingangssignal x(k) wird durch die Analysefilterbank/-transformation 12 in Spektralkoeffizienten zerlegt, was "n" Spektralkomponenten y(b, 0)...y(b, n-1) für jeden Analyseblock "b" ergibt, wobei "n" die Anzahl von Spektralkoeffizienten je Analyseblock (d.h. die Blockgröße) ist. Jede Spektralkomponente y(b, j) ist einer Analysefrequenz oder einem Analysefrequenzbereich gemäß der verwendeten Filterbank zugeordnet.
  • • Das psychoakustische Modell 14 schätzt die erforderliche Codierungsgenauigkeit für eine psychoakustisch transparente Qualität des codierten/decodierten Signals und erzeugt eine oder mehrere Maskierungsschwellen. Diese Informationen können beispielsweise das minimale Signal-Rausch-Verhältnis (SNR) umfassen, das in jedem Frequenzband erforderlich ist, und werden dem PCM-Encoder 16 bereitgestellt.
  • • Jede Spektralkomponente y(b, j) wird quantisiert und jeweils durch Quantisierer 16-0...16-(n-1) (die jeweils Quantisierungen Q0...DQ durchführen) auf Übertragungsindizes i(b, 0)...i(b, n-1) abgebildet. Diese Quantisierer führen eine Quantisierung/Codierung der Spektralkoeffizienten gemäß den psychoakustischen Maskierungsschwellen, die durch das psychoakustische Modell 14 erzeugt werden, durch.
  • • Die Indexwerte i(b, 0)...i(b, n-1) werden gemeinsam mit (optionalen) Nebeninformationen dem Bitstromencoder 18 zugeführt und hernach in dem codierten Bitstrom übertragen (z.B. zu einem Decoder). Alternativ dazu kann der codierte Bitstrom auf einem Audiosignalspeichermedium, beispielsweise einer Compact Disc (CD) oder einem Digital Audio Tape (DAT) für den späteren Wiederabruf gespeichert werden.

Gemäß bestimmten veranschaulichenden Ausführungsformen der vorliegenden Erfindung kann die Codiervorrichtung aus 1 durch Ersetzen des PCM-Encoders 16 durch einen Encoder vom DPCM-Typ vorteilhaft modifiziert werden, wobei das DPCM-Codieren im Frequenzraum durchgeführt wird. 3 und 4 zeigen zwei derartige veranschaulichende Ausführungsformen der vorliegenden Erfindung. Insbesondere kann eine veranschaulichende Ausführungsform der vorliegenden Erfindung durch Ersetzen des PCM-Encoders 16 der herkömmlichen Codiervorrichtung aus 1 durch das Modul 32 gemäß 3 realisiert werden, wodurch eine Codiervorrichtung gemäß einer ersten veranschaulichenden Ausführungsform der vorliegenden Erfindung entsteht. Analog dazu kann eine andere veranschaulichende Ausführungsform der vorliegenden Erfindung durch Ersetzen des PCM-Encoders 16 der herkömmlichen Codiervorrichtung aus 1 durch das in 4 dargestellte Modul 42 realisiert werden, wodurch eine Codiervorrichtung gemäß einer zweiten veranschaulichenden Ausführungsform der vorliegenden Erfindung entsteht. In jedem Fall wird der Eingang zu dem Quantisierer-/Codierungs-Kernel durch die Reihe der Spektralkoeffizienten y(b, 0)...y(b, n-1) angegeben. Das heißt, dass die DPCM-Codierung über den Frequenzraum durchgeführt wird, im Gegensatz zu beispielweise prädiktiver Codierung über den Zeitraum, was durch herkömmliche Subband-ADPCM-Coder durchgeführt wird, die Fachleuten bestens bekannt sind.

Konkret werden der Drehschalter 33 des veranschaulichenden Encoders aus 3 und der Drehschalter 43 des veranschaulichenden Encoders aus 4 jeweils verwendet, um die Spektralwerte y(b, 0)...y(b, n-1) vor der Quantisierung/Codierung durch DPCM-Encoder 34 bzw. 44 in eine serielle Reihenfolge zu bringen, und der Drehschalter 35 des veranschaulichenden Encoders aus 3 und der Drehschalter 46 des veranschaulichenden Encoders aus 4 werden jeweils verwendet, um die entsprechenden resultierenden Indexwerte i(b, 0)...i(b, n-1) daraufhin in eine parallele Reihenfolge zu bringen. Wenngleich in jedem der dargestellten veranschaulichenden Encoder die Verarbeitung der Spektralwerte y(b, 0)...y(b, n-1) vorteilhaft in der Reihenfolge ansteigender Frequenz durchgeführt wird, können andere veranschaulichende Ausführungsformen die Verarbeitung entweder in der Reihenfolge abnehmender Frequenz oder in anderen alternativen (z.B. nichtmonotonen) Reihenfolgen durchführen. Darüber hinaus kann auch nur eine Untermenge der Spektralwerte (und nicht alle "n" davon, wie hier dargestellt ist) den DPCM-Encodern 34 und 44 zur differentiellen Codierung bereitgestellt werden.

Insbesondere zeigt 3 eine erste veranschaulichende Ausführungsform eines Encoders gemäß der vorliegenden Erfindung, bei welchem ein Prädiktionsschema mit geschlossenem Kreislauf verwendet wird. Prädiktion mit geschlossenem Kreislauf ist ein herkömmliches Verfahren, das Durchschnittsfachleuten bestens bekannt ist. Beim veranschaulichenden psychoakustischen Audioencoder aus 3 wird allerdings eine Prädiktion mit geschlossenem Kreislauf auf die Spektralwerte (d.h. im Frequenzraum) angewandt. Insbesondere wird ein Prädiktionsfilter (das in der Figur als einen Prädiktor 36 und einen Addierer 39 aufweisend dargestellt ist) durch die quantisierten Ausgangswerte, die durch den Quantisierer 37 erzeugt werden, angesteuert, und der vorhergesagte wert wird durch den Subtrahierer 38 von dem Eingangssignal subtrahiert, so dass vorteilhaft nur das Prädiktionsfehlersignal quantisiert/codiert wird. Festzuhalten ist, dass der Quantisierer 37 jeweils Quantisierungen Q0...Qn-1 für jeden der Spektralkomponentenwerte y(b, 0)...y(b, n-1) durchführt, welche diesem durch den Drehschalter 33 (über den Subtrahierer 38) bereitgestellt werden. Die Verwendung des veranschaulichenden Encoders aus 3 führt vorteilhaft zu einer Codierungsverstärkung, wenn das Encodereingangssignal x(k) eine transiente Charakteristik aufweist.

4 zeigt eine zweite veranschaulichende Ausführungsform eines Encoders gemäß der vorliegenden Erfindung, bei welchem ein Prädiktionsschema mit offenem Kreislauf verwendet wird. Prädiktion mit offenem Kreislauf ist ein herkömmliches Verfahren, das Durchschnittsfachleuten bestens bekannt ist. Beim veranschaulichenden psychoakustischen Audioencoder aus 4 wird allerdings eine Prädiktion mit offenem Kreislauf auf die Spektralwerte (d.h. im Frequenzraum) angewandt. Insbesondere wird ein Prädiktor 47 durch die unquantisierten Eingangswerte angesteuert, und der vorhergesagte Wert wird dann durch den Subtrahierer 48 von dem Eingangssignal subtrahiert, so dass vorteilhaft nur das Prädiktionsfehlersignal (durch den Quantisierer 45) quantisiert/codiert wird. Festzuhalten ist, dass der Quantisierer 45 jeweils Quantisierungen Q0...4n-1 für jeden der Spektralkomponentenwerte y(b, 0)...y(b, n-1) durchführt, für welche diesem entsprechende Prädiktionsfehlersignale durch den Drehschalter 43 (über den Subtrahierer 48) bereitgestellt werden.

Wie beim veranschaulichenden Encoder aus 3 wird die Verwendung des veranschaulichenden Encoders aus 4 vorteilhaft zu einer Codierungsverstärkung führen, wenn das Encodereingangssignal x(k) eine transiente Charakteristik aufweist. Darüber hinaus wird allerdings die Verwendung eines psychoakustischen Audioencoders, der sich der Lösung mit offenem Kreislauf aus 4 bedient, vorteilhaft einen zeitgeformten Quantisierungsfehler im endgültigen rekonstruierten Ausgangssignal x'(k) eines entsprechenden Decoders ergeben. Dies folgt aus der Tatsache, dass Prädiktion mit offenem Kreislauf auf Spektralkoeffizienten angewandt wurde, so dass das Quantisierungsrauschen als in Zeit geformt erscheint, wodurch der Rauschpegel unter den Signalpegel gestellt wird. Auf diese Weise werden temporale Probleme mit Entmaskierung, entweder in transienten oder "pitchigen" Signalen, ohne Bedarf an erheblichem Übercodieren und dem entsprechenden Bitaufwand vorteilhaft vermieden.

Da bei den oben beschriebenen veranschaulichenden Ausführungsformen der vorliegenden Erfindung prädiktives Codieren auf Spektralraumdaten angewandt wird, gelten bestimmte Beziehungen, die für die klassische Prädiktion bekannt sind, bei vertauschtem Zeit- und Frequenzraum. Beispielsweise wird eine Prädiktionsverstärkung in Abhängigkeit von dem "Hüllkurvenflachheitsmaß" des Signals (im Gegensatz zum "Spektralflachheitsmaß") erzielt. Darüber hinaus ist bei dem in 4 dargestellten Fall mit offenem Kreislauf der Prädiktionsfehler in der Zeit (im Gegensatz zur Frequenz) geformt. Demnach kann das oben beschriebene Verfahren mit offenem Kreislauf tatsächlich als dem Anwenden eines adaptiven Zeitraumfensters durch Prädiktion im Frequenzraum gleichwertig angesehen werden, wobei Faltung mittels einiger Elemente im Frequenzraum effektiv verwendet wird, um Formung des Rauschens im Zeitraum zu instanziieren.

Wenngleich bei den oben beschriebenen Ausführungsformen der Prädiktionsprozess über das gesamte Frequenzspektrum (d.h. für alle Spektralkoeffizienten) durchgeführt wird, kann bei anderen veranschaulichenden Ausführungsformen die Prädiktion für nur einen Abschnitt des Spektrums (d.h. für eine Untermenge der Spektralkoeffizienten) durchgeführt werden. Darüber hinaus können verschiedene Prädiktorfilter vorteilhaft in verschiedenen Abschnitten des Signalspektrums verwendet werden. Auf diese Weise kann das vorliegende erfindungsgemäße Verfahren zur Rauschkontrolle im Zeitraum auf jedwede gewünschte frequenzabhängige Weise angewandt werden.

Um für das geeignete Decodieren des codierten Signals zu sorgen, weist der Bitstrom, der durch die veranschaulichenden Encoder aus 3 und 4 erzeugt wird, vorteilhafterweise bestimmte zusätzliche Nebeninformationen auf, die beispielsweise als zusätzlicher Eingang zum Bitstromencoder 18 aus 1 dargestellt sind. Bei verschiedenen veranschaulichenden Ausführungsformen der vorliegenden Erfindung kann beispielsweise ein Feld mit Nebeninformationen die Verwendung von DPCM-Codierung und die Anzahl von verwendeten verschiedenen Prädiktionsfiltern angeben. Dann können weitere Felder im Bitstrom für jedes Prädiktionsfilter übertragen werden, welche den Zielfrequenzbereich des entsprechenden Filters und dessen Filterkoeffizienten signalisieren.

6 zeigt ein Flussdiagramm eines Verfahrens zum Codieren monophoner Audiosignale gemäß einer veranschaulichenden Ausführungsform der vorliegenden Erfindung. Das in diesem Flussdiagramm dargestellte veranschaulichende Beispiel implementiert bestimmte relevante Abschnitte eines psychoakustischen Audioencoders mit Prädiktion mit offenem Kreislauf und einem einzigen Prädiktionsfilter. Konkret führt Schritt 61 eine herkömmliche Berechnung der Spektralwerte mittels einer Analysefilterbank durch (wie beispielsweise durch die Analysefilterbank/Transformation 12 des herkömmlichen Encoders aus 1 durchgeführt wird). Dann werden in Schritt 62 die Ordnung des Prädiktionsfilters eingestellt und der Zielfrequenzbereich definiert. Diese Parameter können beispielsweise zu Zwecken der Veranschaulichung auf eine Filterordnung von 15 und einen Zielfrequenzbereich von 4 kHz bis 20 kHz eingestellt werden. Mit diesen veranschaulichenden Parameterwerten werden Vorechos und Nachechos beim Codieren von "pitchigen" Signalen vorteilhaft entfernt.

In Schritt 63 wird das Prädiktionsfilter durch Verwendung des Bereichs von Spektralkoeffizienten, welcher dem Zielfrequenzbereich entspricht, und durch Anwenden eines herkömmlichen Verfahrens zum prädikativen Codieren, welches für DPCM-Coder bestens bekannt ist, ermittelt. Beispielsweise kann die Autokorrelationsfunktion der Koeffizienten in einem herkömmlichen Levinson-Durbin-Rekursionsalgorithmus berechnet und verwendet werden, der Fachleuten bestens bekannt ist. Infolgedessen sind die Prädiktorfilterkoeffizienten, die entsprechenden Reflexionskoeffizienten ("PARCOR"-Koeffizienten) und die erwartete Prädiktionsverstärkung bekannt.

Wenn die erwartete Prädiktionsverstärkung eine bestimmte Schwelle (z.B. 2 dB) übersteigt, wie durch die Entscheidung 64 festgestellt wird, wird das DPCM-Codierverfahren der Schritte 65 bis 67 verwendet. Diesfalls werden die Prädiktionsfilterkoeffizienten quantisiert (in Schritt 65), wie es zur Übertragung an den Decoder als Teil der Nebeninformationen erforderlich ist. Dann wird (in Schritt 66) das Prädiktionsfilter auf den Bereich von Spektralkoeffizienten angewandt, der dem Zielfrequenzbereich entspricht, wo die quantisierten Filterkoeffizienten verwendet werden. Für alle weiteren Verarbeitungen wird der gegebene Bereich von Spektralkoeffizienten durch den Ausgang des Filterprozesses ersetzt. Schließlich wird (in Schritt 67) ein Feld des Bitstroms übertragen, das die Verwendung von DPCM-Codierung ("Prädiktionsmerker" ein) signalisiert, und der Zielfrequenzbereich, die Ordnung des Prädiktionsfilters und Informationen, welche dessen Filterkoeffizienten beschreiben, sind ebenfalls im Bitstrom enthalten. Wenn andererseits die erwartete Prädiktionsverstärkung die Entscheidungsschwelle nicht übersteigt, überträgt Schritt 68 ein Feld im Bitstrom, welches signalisiert, dass kein DPCM-Codieren verwendet wurde ("Prädiktionsmerker" aus). Schließlich wird in jedem der beiden Fälle der Quantisierungsprozess auf die Spektralkoeffizienten angewandt (Schritt 69), wobei die Quantisierung auf den psychoakustischen Maskierungsschwellen basiert, die durch das psychoakustische Modell des Encoders erzeugt werden.

Durch Verwendung einer Encoderausführungsform der vorliegenden Erfindung mit offenem Kreislauf (z.B. wie in der veranschaulichenden Vorrichtung von 3 und in dem veranschaulichenden Verfahren aus 6 dargestellt ist) kann ein unkomplizierter temporaler Rauschformungseffekt für bestimmte herkömmliche Blocktransformationen, einschließlich der diskreten Fourier-Transformation (DFT) oder der diskreten Cosinus-Transformation (DCT), erzielt werden, die beide Durchschnittsfachleuten bestens bekannt sind. Wenn beispielsweise ein psychoakustischer Coder gemäß der vorliegenden Erfindung eine kritisch unterabgetastete Filterbank mit überlappenden Fenstern verwendet – z.B. eine herkömmliche modifizierte diskrete Cosinus-Transformation (MDCT) oder eine andere herkömmliche Filterbank, die auf Time Domain Aliasing Cancellation (TDAC) basiert – unterliegt die resultierende temporale Rauschformung den der Filterbank innewohnenden Time-Domain-Aliasing-Effekten. Beispielsweise findet im Fall einer MDCT eine Spiegelungsoperation (d.h. Aliasing-Operation) je Fensterhälfte statt und das Quantisierungsrauschen erscheint innerhalb der linken bzw. der rechten Hälfte des Fensters nach dem Decodieren gespiegelt (d.h. aliasiert). Da der endgültige Filterbankausgang durch Anwendung eines Synthesefensters auf den Ausgang von jeder inversen Transformation und Durchführen eines Overlap-Add dieser Datensegmente erhalten wird, werden die unerwünschten aliasierten Komponenten in Abhängigkeit von dem verwendeten Synthesefenster gedämpft. Demnach ist es vorteilhaft, ein Filterbankfenster zu wählen, welches nur eine geringe Überlappung zwischen aufeinanderfolgenden Blöcken aufweist, so dass der temporale Aliasing-Effekt minimiert wird. Eine geeignete Strategie im Encoder kann beispielsweise ein Fenster mit einem geringen Maß an Überlappung für kritische Signale mit einem stark transienten Charakter adaptiv auswählen, während ein breiterer Fenstertyp, der eine bessere Frequenzselektivität ermöglicht, für stationäre Signale verwendet wird. Die Implementationsdetails einer derartigen Strategie sind für Fachleute offensichtlich.

2 zeigt einen herkömmlichen psychoakustischen Decoder zur Verwendung beim Decodieren monophoner Audiosignale entsprechend dem herkömmlichen psychoakustischen Encoder aus 1. Der Decoder aus 2 führt die folgenden Schritte aus:

  • • Der ankommende Bitstrom wird geparst, und die Indexwerte i(b, 0)...i(b, n-1) werden durch den Decoder/Multiplexer 22 extrahiert.
  • • Durch Verwendung inverser Quantisierer 24-0 bis 24-(n-1) (die jeweils inverse Quantisierungen IQ0...IQn-1 ausführen) werden die quantisierten Spektralwerte yq(b, 1)...yq(b, n-1) durch den PCM-Decoder 24 rekonstruiert.
  • • Die quantisierten Spektralwerte yq(b, 1)...yq(b, n-1) werden durch die Synthesefilterbank 26 in eine Zeitraumdarstellung zurück umgewandelt, was das rekonstruierten Ausgangssignal x'(k) ergibt.

Gemäß einer veranschaulichenden Ausführungsform der vorliegenden Erfindung kann die herkömmliche Decodiervorrichtung aus 2 vorteilhaft modifiziert werden, indem der PCM-Decoder 24 durch einen Decoder vom DPCM-Typ ersetzt wird, wobei die DPCM-Decodierung im Frequenzraum erfolgt. 5 zeigt eine derartige Ausführungsform der vorliegenden Erfindung. Insbesondere kann eine veranschaulichende Ausführungsform der vorliegenden Erfindung durch Ersetzen des PCM-Decoders 24 der herkömmlichen Decodiervorrichtung aus 2 durch das Modul 52, welches in 5 dargestellt ist, realisiert werden, was eine Decodiervorrichtung gemäß einer veranschaulichenden Ausführungsform der vorliegenden Erfindung ergibt. Konkret wird der Eingang zum DPCM-Decoder 55 durch die Reihe von Indexwerten i(b, 0)...i(b, n-1) angegeben, welche vor dem Decodieren durch den Drehschalter 53 in eine serielle Reihenfolge gebracht werden. Die resultierenden Spektralwerte yq(b, 0)...yq(b, n-1) werden nach dem DPCM-Decodieren durch den Drehschalter 56 in eine parallele Reihenfolge gebracht.

Der DPCM-Decoder 55 weist einen inversen Quantisierer 54, einen Prädiktor 57 und einen Addierer 58 auf. Der inverse Quantisierer 54 führt inverse Quantisierungen IQ0...IQn-1 jeweils für jeden der Indexwerte i(b, 0)...i(b, n-1) durch, welche diesem durch den Drehschalter 53 bereitgestellt werden. Festzuhalten ist, dass, wenn der veranschaulichende Encoder mit offenem Kreislauf aus 4 verwendet wurde, um das Audiosignal zu codieren, die Kombination aus Prädiktor 57 und Addierer 58 des veranschaulichenden Decoders aus 5 ein Rauschformungsfilter realisieren, welches die temporale Form des Quantisierungsrauschens vorteilhaft regelt. Auch hier können, wenngleich der veranschaulichende Decoder aus 5 die Verarbeitung der Indexwerte i(b, 0)...i(b, n-1) in der Reihenfolge ansteigender Frequenz vorteilhaft durchführt, andere veranschaulichende Ausführungsformen die Verarbeitung entweder in der Reihenfolge abnehmender Frequenz oder in anderen alternativen (z.B. nicht monotonen) Reihenfolgen durchführen, vorzugsweise auf eine Weise, die mit der Reihenfolge, welche durch einen entsprechenden Encoder verwendet wird, übereinstimmt. Darüber hinaus kann nur eine Untermenge der Indexwerte (und nicht alle "n" davon, wie in diesem Dokument dargestellt ist) dem DPCM-Decoder 55 bereitgestellt werden, und/oder mehrere verschiedene Prädiktorfilter können für verschiedene Abschnitte des Signalspektrums verwendet werden, wiederum vorzugsweise auf eine Weise, welche mit dem spezifischen Verfahren, das durch einen entsprechenden Encoder verwendet wird, übereinstimmt. Festzuhalten ist ebenso, dass in letzterem Fall beispielsweise, um eine geeignete Decodierung des ankommenden Bitstroms durchzuführen, ein Decoder gemäß der vorliegenden Erfindung vorteilhaft zusätzliche Nebeninformationen evaluieren kann, welche durch einen entsprechenden Encoder übertragen wurden. Auf diese Weise kann der Decoder DPCM-Decodieren in jedem angegebenen Zielfrequenzbereich mit einem gewünschten entsprechenden Decoderprädiktionsfilter anwenden.

7 zeigt ein Flussdiagramm eines Verfahrens zum Decodieren von monophonen Audiosignalen gemäß einer veranschaulichenden Ausführungsform der vorliegenden Erfindung. Das veranschaulichende Beispiel, das in diesem Flussdiagramm dargestellt ist, implementiert bestimmte relevante Abschnitte eines psychoakustischen Audiodecoders mit einem einzigen Prädiktionsfilter. Konkret führt Schritt 71 eine herkömmliche Rekonstruktion der Spektralkoeffizientenwerte durch inverse Quantisierung durch. Dann überprüft die Entscheidung 72 die Bitstrominformationen, um festzustellen, ob die Verwendung von DPCM-Codierung angegeben wird ("Prädiktionsmerker" ist auf ein). Wenn dies der Fall ist, wird der erweiterte Decodierungsprozess, der in Schritt 73 und 74 dargestellt ist, angewandt. Konkret werden die übertragenen Nebeninformationen im Bitstrom decodiert, um den Zielfrequenzbereich der DPCM-Codierung, die Ordnung des Prädiktionsfilters und Informationen, welche dessen Filterkoeffizienten beschreiben, zu ermitteln (Schritt 73). Dann wird das inverse Prädiktionsfilter auf den Bereich von Spektralkoeffizienten angewandt, der dem angegebenen Zielfrequenzbereich entspricht (Schritt 74). Für alle weiteren Verarbeitungen wird der gegebene Bereich von Spektralkoeffizienten durch den Ausgang des Filterungsprozesses ersetzt. Schließlich (und unabhängig von der durch die oben beschriebene Entscheidung 72 vorgenommenen Bestimmung) wird in Schritt 75 eine herkömmliche Synthesefilterbank von den Spektralkoeffizienten abgearbeitet.

Wenngleich in diesem Dokument eine Reihe konkreter Ausführungsformen dieser Erfindung dargestellt und beschrieben wurden, versteht es sich, dass diese Ausführungsformen lediglich die zahlreichen möglichen konkreten Anordnungen veranschaulichen, die durch Anwendung der Grundgedanken der Erfindung konzipiert werden können. Beispielsweise werden, wenngleich die veranschaulichenden Ausführungsformen, die in diesem Dokument dargestellt und beschrieben wurden, auf das Codieren und Decodieren von monophonen Audiosignalen beschränkt wurden, alternative Ausführungsformen, welche zum Codieren und Decodieren der mehrkanaligen (z.B. stereophonen) Audiosignale verwendet werden können, für Durchschnittsfachleute auf der Basis der in diesem Dokument bereitgestellten Offenbarung klar ersichtlich sein.


Anspruch[de]
Verfahren zum Codieren eines Audiosignals, um ein codiertes Signal zu erzeugen, wobei das Codieren auf einem wahrnehmungsbezogenen Modell basiert, wobei das Verfahren folgende Schritte aufweist:

(a) Durchführen einer Spektralzerlegung des Audiosignals in mehrere Spektralkomponentensignale;

(b) Erzeugen eines Prädiktionssignals, welches für eine Prädiktion von einem der Spektralkomponentensignale repräsentativ ist, wobei die Prädiktion auf einem oder mehreren anderen der Spektralkomponentensignale basiert, wobei die Prädiktion über den Frequenzraum durchgeführt wird;

(c) vergleichen des Prädiktionssignals mit dem einen der Spektralkomponentensignale, um ein Prädiktionsfehlersignal zu erzeugen;

(d) Codieren des einen der Spektralkomponentensignale, um ein codiertes Spektralkomponentensignal zu erzeugen, wobei das Codieren auf dem Prädiktionsfehlersignal basiert und ferner auf dem wahrnehmungsbezogenen Modell basiert; und

(e) Erzeugen des codierten Signals auf der Basis des codierten Spektralkomponentensignals.
Verfahren nach Anspruch 1, wobei das Audiosignal Sprache aufweist. Verfahren nach Anspruch 1, wobei das Audiosignal Musik aufweist. Verfahren nach Anspruch 1, wobei der Schritt des Codierens des einen der Spektralkomponentensignale das Quantisieren des Prädiktionsfehlersignals aufweist. Verfahren nach Anspruch 1, wobei die Erzeugung des Prädiktionssignals und das Codieren des einen der Spektralkomponentensignale in einem geschlossenen Kreislauf durchgeführt werden. Verfahren nach Anspruch 1, wobei die Erzeugung des Prädiktionssignals und das Codieren des einen der Spektralkomponentensignale in einem offenen Kreislauf durchgeführt werden. Verfahren zum Decodieren eines codierten Audiosignals, um ein wiederhergestelltes Audiosignal zu erzeugen, wobei das codierte Signal mehrere codierte Spektralkomponentensignale aufweist, welche basierend auf einem wahrnehmungsbezogenen Modell codiert wurden, wobei das Verfahren folgende Schritte aufweist:

(a) Decodieren eines ersten der codierten Spektralkomponentensignale;

(b) Erzeugen eines Prädiktionssignals, welches für eine Prädiktion eines zweiten der Spektralkomponentensignale repräsentativ ist, wobei die Prädiktion auf dem Decodieren des ersten der codierten Spektralkomponentensignale basiert, wobei die Prädiktion über den Frequenzraum durchgeführt wird;

(c) Decodieren des zweiten der Spektralkomponentensignale basierend auf dem Prädiktionssignal; und

(d) Erzeugen des wiederhergestellten Audiosignals auf der Basis des Decodierens des ersten der codierten Spektralkomponentensignale und des Decodierens des zweiten der codierten Spektralkomponentensignale.
Verfahren nach Anspruch 7, wobei das wiederhergestellte Audiosignal Sprache aufweist. Verfahren nach Anspruch 7, wobei das wiederhergestellte Audiosignal Musik aufweist. Verfahren nach Anspruch 7, wobei der Schritt des Decodierens des ersten der Spektralkomponentensignale das Durchführen einer inversen Quantisierung davon aufweist. Codierer zum Erzeugen eines codierten Signals aus einem Audiosignal, wobei das Codieren auf einem wahrnehmungsbezogenen Modell basiert, wobei der Codierer aufweist:

(a) Mittel zum Zerlegen des Audiosignals in mehrere Spektralkomponentensignale;

(b) Mittel zum Erzeugen eines Prädiktionssignals, welches für eine Prädiktion von einem der Spektralkomponentensignale repräsentativ ist, wobei die Prädiktion auf einem oder mehreren anderen der Spektralkomponentensignale basiert, wobei die Prädiktion über den Frequenzraum durchgeführt wird;

(c) Mittel zum Vergleichen des Prädiktionssignals mit dem einen der Spektralkomponentensignale, um ein Prädiktionsfehlersignal zu erzeugen;

(d) einen Codierer zum Erzeugen eines codierten Spektralkomponentensignals, welches für das eine der Spektralkomponentensignale repräsentativ ist, wobei das codierte Spektralkomponentensignal auf der Basis des Prädiktionsfehlersignals und ferner auf der Basis des wahrnehmungsbezogenen Modells erzeugt wird; und

(e) Mittel zum Erzeugen des codierten Signals auf der Basis des codierten Spektralkomponentensignals.
Codierer nach Anspruch 11, wobei der Codierer einen Quantisierer aufweist, der auf das Prädiktionsfehlersignal angewandt wird. Codierer nach Anspruch 11, wobei die Mittel zum Erzeugen des Prädiktionssignals und der Codierer in einem geschlossenen Kreislauf angeordnet sind. Codierer nach Anspruch 11, wobei die Mittel zum Erzeugen des Prädiktionssignals und der Codierer in einem offenen Kreislauf angeordnet sind. Decodierer zum Erzeugen eines wiederhergestellten Audiosignals aus einem codierten Audiosignal, wobei das codierte Audiosignal mehrere codierte Spektralkomponentensignale aufweist, welche basierend auf einem wahrnehmungsbezogenen Modell codiert wurden, wobei der Decodierer aufweist:

(a) Mittel zum Decodieren eines ersten der codierten Spektralkomponentensignale;

(b) Mittel zum Erzeugen eines Prädiktionssignals, welches für eine Prädiktion eines zweiten der Spektralkomponentensignale repräsentativ ist, wobei die Prädiktion auf dem Decodieren des ersten der codierten Spektralkomponentensignale basiert, wobei die Prädiktion über den Frequenzraum durchgeführt wird;

(c) Mittel zum Decodieren des zweiten der Spektralkomponentensignale basierend auf dem Prädiktionssignal; und

(d) Mittel zum Erzeugen des wiederhergestellten Audiosignals auf der Basis des Decodierens des ersten der codierten Spektralkomponentensignale und des Decodierens des zweiten der codierten Spektralkomponentensignale.
Decodierer nach Anspruch 15, wobei das Mittel zum Decodieren des ersten der Spektralkomponentensignale einen darauf angewandten inversen Quantisierer aufweist. Speichermedium mit einem darauf aufgezeichneten codierten Audiosignal, wobei das codierte Audiosignal aus einem Audiosignal erzeugt wurde, und zwar mittels eines Codierverfahrens, welches auf einem wahrnehmungsbezogenen Modell basiert und folgende Schritte aufweist:

(a) Durchführen einer Spektralzerlegung des Audiosignals in mehrere Spektralkomponentensignale;

(b) Erzeugen eines Prädiktionssignals, welches für eine Prädiktion von einem der Spektralkomponentensignale repräsentativ ist, wobei die Prädiktion auf einem oder mehreren anderen der Spektralkomponentensignale basiert, wobei die Prädiktion über den Frequenzraum durchgeführt wird;

(c) Vergleichen des Prädiktionssignals mit dem einen der Spektralkomponentensignale, um ein Prädiktionsfehlersignal zu erzeugen;

(d) Codieren des einen der Spektralkomponentensignale, um ein codiertes Spektralkomponentensignal zu erzeugen, wobei das Codieren auf dem Prädiktionsfehlersignal basiert und ferner auf dem wahrnehmungsbezogenen Modell basiert; und

(e) Erzeugen des codierten Audiosignals auf der Basis des codierten Spektralkomponentensignals.
Speichermedium nach Anspruch 17, wobei das codierte Audiosignal Sprache aufweist. Speichermedium nach Anspruch 17, wobei das codierte Audiosignal Musik aufweist. Speichermedium nach Anspruch 17, wobei der Schritt des Codierens des einen der Spektralkomponentensignale das Quantisieren des Prädiktionsfehlersignals aufweist. Speichermedium nach Anspruch 17, wobei die Erzeugung des Prädiktionssignals und das Codieren des einen der Spektralkomponentensignale in einem geschlossenen Kreislauf durchgeführt wurden. Speichermedium nach Anspruch 17, wobei die Erzeugung des Prädiktionssignals und das Codieren des einen der Spektralkomponentensignale in einem offenen Kreislauf durchgeführt wurden. Speichermedium nach Anspruch 17, wobei das Speichermedium eine Compact Disc aufweist. Speichermedium nach Anspruch 17, wobei das Speichermedium ein Digital Audio Tape aufweist.






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com