PatentDe  


Dokumentenidentifikation DE102004042360B4 08.06.2006
Titel Verfahren zum Erkennen von Videosequenzen in einem aufgenommenen Videofilm
Anmelder Sonavis GmbH, 80999 München, DE
Erfinder Swoboda, Robert, 80335 München, DE
Vertreter Strohschänk und Kollegen, 81667 München
DE-Anmeldedatum 01.09.2004
DE-Aktenzeichen 102004042360
Offenlegungstag 09.03.2006
Veröffentlichungstag der Patenterteilung 08.06.2006
Veröffentlichungstag im Patentblatt 08.06.2006
IPC-Hauptklasse H04N 5/91(2006.01)A, F, I, 20051027, B, H, DE
IPC-Nebenklasse H04N 9/79(2006.01)A, L, I, 20051027, B, H, DE   H04N 5/76(2006.01)A, L, I, 20051027, B, H, DE   

Beschreibung[de]

Die Erfindung betrifft ein Verfahren zum Erkennen von Videosequenzen, insbesondere von Werbung oder Sendungshöhepunkten, in der Aufnahme eines digitalen Videofilms, gemäß dem Oberbegriff des Patentanspruchs 1, sowie eine Aufnahme- und Wiedergabevorrichtung, die zur Durchführung des Verfahrens entsprechend eingerichtet ist.

Bei vielen Video-Anwendungen ist eine zuverlässige automatische Erkennung bestimmter Videosequenzen von grundlegender Bedeutung. Eine wichtige Anwendung ist z.B. das automatische framegenaue Ausblenden (Überspringen) von unerwünschten Videosequenzen bei der Wiedergabe eines aufgezeichneten Videofilms, um dem Zuschauer ein ungestörtes Fernseherlebnis zu ermöglichen. Dabei werden z.B. Werbespots, Szenenwiederholungen nach der Werbung, das Ende der vorherigen Sendung (Vorlauf) oder der Anfang der nachfolgenden Sendung (Nachlauf) genau erkannt und ausgeblendet. Eine weitere wichtige Anwendung ist z.B. das Zusammenstellen von Sendungshöhepunkten, wobei bestimmte Videosequenzen aus einer Aufnahme erkannt und nur diese bei der Wiedergabe dargestellt werden. Eine weitere Anwendung wäre das physische Herausschneiden von unerwünschten Videosequenzen aus einer digitalen Fernsehaufnahme.

Aus dem Stand der Technik sind eine Reihe unterschiedlicher Verfahren bekannt, mit denen Videosequenzen erkannt werden können. Eine erste Gruppe von Verfahren, die zum Erkennen von Werbespots dient, arbeitet nach dem Prinzip der automatischen Erkennung von Werbespots anhand typischer Merkmale von Werbung, wie z.B. höherer Audiopegel, anderer Bildeigenschaften, Schwarzblenden, Ausbleiben von Sender-Icons, etc.. Beim Empfang eines Videofilms am Video-Aufnahmegerät werden die genannten Merkmale überwacht und die Werbung, wenn sie als solche erkannt wird, entweder erst gar nicht aufgezeichnet oder markiert und beim Abspielen übersprungen.

Diese Erkennungsverfahren haben jedoch den Nachteil, dass sie keine 100%ige Erkennung ermöglichen und andererseits durch die Sendeanstalten, deren Geschäftsmodell zu weiten Teilen auf Werbung beruht, unterlaufen werden können, indem z.B. das Sender-Icon auch außerhalb der Werbung ein- und ausgeblendet bzw. bei Start und Ende der Werbung bewegt wird. Darüber hinaus können andere unerwünschte Bestandteile, wie z.B. kurze Szenenwiederholungen, wie sie nach den Werbespots üblich geworden sind, nicht erkannt und ausgeblendet werden.

Ein zweite Gruppe von bekannten automatischen Erkennungsverfahren arbeitet mit digitalen Signaturen, d.h. mit einer digitalen Codierung der zu erkennenden Videosequenzen. Der Film wird bei diesen Verfahren an einem Videogerät empfangen und dabei fortlaufend Signaturen der einzelnen Frames erzeugt, die dann mit einer Signaturdatenbank, in der die Signaturen der gesuchten Videosequenzen gespeichert sind, verglichen werden. Die Signaturdatenbank der gesuchten Sequenzen wird vor der Aufnahme, z.B. per Internet, an das Video-Aufnahmegerät übertragen und diesem zur Verfügung gestellt. Das Video-Aufnahmegerät kann somit die selbst erzeugten Signaturen mit der Signaturdatenbank vergleichen und dadurch z.B. Werbespots erkennen. Dieses Verfahren kann z.B. dazu eingesetzt werden, die Auftretenshäufigkeit eines oder mehrer bestimmter Werbespots zu zählen. Diese Art von automatischen Wiedererkennungsverfahren hat jedoch den Nachteil, dass die digitalen Signaturen der einzelnen Videosequenzen umfangreich sind, so dass sie hohe Ansprüche an die Bandbreite des Übertragungskanals zur Übertragung an das Aufnahmegerät sowie an die Speicherkapazität des Aufnahmegerätes stellt.

Aus der US 6,404,977 B1 ist ein Verfahren zum Identifizieren einer Videosequenz, wie z.B. Werbung, in einem ausgestrahlten Fernsehfilm bekannt. Dabei wird eine Signatur der gesuchten Sequenz mit einer im Empfangsgerät gespeicherten Signatur verglichen, um die Sequenz zu erkennen. Ein Nachteil dieses Verfahrens besteht darin, dass die Sequenz erst erkannt wird, wenn sie bereits empfangen wurde.

In der US 5,668,917 ist ein Verfahren zum Identifizieren von Videosequenzen mittels digitaler Signaturen beschrieben. Dabei wird eine Signatur-Datenbank angelegt, in der eine Vielzahl von Signaturen enthalten sind und die Signatur der gesuchten Sequenz mit der gespeicherten Signatur verglichen. Die Signatur-Datenbanken sind jedoch sehr umfangreich, da sie eine Vielzahl von Signaturen umfassen müssen.

Aus der DE 198 46 249 A1 ist ein Verfahren zum Identifizieren von unerwünschtem Programmmaterial, wie z.B. Werbung, bekannt. Dabei werden Fernsehprogramme, die durch Werbeeinblendungen unterbrochen sind, über Fernsehkanäle übertragen. Zusätzlich wird ein verschlüsseltes Identifikationssignal übertragen, das vom Empfangsgerät empfangen und entschlüsselt werden kann, um insbesondere Werbung zu identifizieren. Bei diesem System ist der Endnutzer jedoch auf die Übertragung der verschlüsselten Identifikationssignale angewiesen.

Aus der WO 2004/051574 A1 ist ein weiteres Videosystem bekannt, bei dem eine Signatur aus Bildeigenschaften einzelner Frames einer Videosequenz erzeugt wird.

Weitere Verfahren zur Identifikation von Videosequenzen, insbesondere von Werbung, sind aus der US 2003/0185541 A1, WO 00/07367 A2, der WO 01/91123 A1 und der US 5,987,210 bekannt.

Es ist daher die Aufgabe der vorliegenden Erfindung, ein Verfahren sowie eine Vorrichtung zum automatischen Erkennen von Videosequenzen in einer digitalen Video-Aufnahme zu schaffen, mit dem bzw. der beliebige Videosequenzen mit hoher Genauigkeit erkannt und bei der Wiedergabe wahlweise ausgeblendet bzw. herausgeschnitten oder dargestellt werden können.

Gelöst wird diese Aufgabe gemäß der Erfindung durch die im Patentanspruch 1 sowie im Patentanspruch 12 angegebenen Merkmale. Weitere Ausgestaltungen der Erfindung sind Gegenstand von Unteransprüchen.

Ein wesentlicher Gedanke der Erfindung besteht darin, beim Abspielen eines aufgenommenen Videofilms aus einer vorgegebenen Anzahl von Frames eine „laufende" Markierung aus codierten Informationen über diese Frames zu erzeugen und die laufende Markierung mit einer in einer Markierungsdatei enthaltenen Markierung zu vergleichen, um die nachfolgende Videosequenz als gesuchte Sequenz (z.B. Werbung oder Filmanfang) zu identifizieren. Die in der Markierungsdatei enthaltene Markierung umfasst dabei die Codierungen von Frames, die der zu identifizierenden Videosequenz vorhergehen. Wenn die vom Videogerät erzeugte „laufende" Markierung und die in der Markierungsdatei enthaltene digitale Markierung in einem vorgegebenen Maß übereinstimmen und wenn vorzugsweise eine weitere Bedingung (z. B. eine Ausblendung) erfüllt ist, gilt die nachfolgende Videosequenz als erkannt. Dadurch wird es möglich, die gesuchte Videosequenz bei der Wiedergabe des aufgenommenen Films framegenau zu erkennen und entweder zu überspringen (z. B. Werbung) bzw. herauszuschneiden oder anzuzeigen (z. B. Filmanfang).

Die in der Markierungsdatei enthaltenen Markierungen bestimmen, welche Sequenzen erkannt werden und wie mit den Videosequenzen verfahren wird (z. B. Anzeigen, Überspringen, Herausschneiden). Die Markierungsdatei wird dem Video-Nutzer von einem Datenprovider zur Verfügung gestellt und kann z.B. per Internet heruntergeladen werden.

Unter einer „Markierung" wird hier eine Codierung der Eigenschaften ausgewählter Bildpunkte einer vorgegebenen Anzahl aufeinander folgender Frames verstanden. Eine Markierung setzt sich somit aus den Codierungen von Bildpunkt-Eigenschaften einer vorgegebenen Anzahl von Frames und ggf. weiterer Informationen zusammen.

Die vom Videogerät erzeugte „laufende" Markierung umfasst entsprechend die Codierung einer Reihe aufeinanderfolgender Frames des gelesenen Video-Datenstroms. Die Reihe der Frames, aus denen die Markierung erzeugt wird, verschiebt sich dabei fortlaufend um ein Frame. Diese „laufende" Markierung wird dann jeweils mit der in der Markierungsdatei enthaltenen Markierung verglichen, die die nächste gesuchte Videosequenz spezifiziert.

Die Bildpunkte, aus denen eine Markierung erzeugt wird, befinden sich vorzugsweise an unterschiedlichen Positionen der Frames, wodurch eine bessere Wiedererkennungsrate erreicht werden kann.

Die Codierung eines Frames enthält vorzugsweise eine Information über charakteristische Eigenschaften des Frames, wie z.B. Daten über Farb-, Helligkeits- oder Sättigungseigenschaften eines oder mehrerer Bildpunkte.

Unter der Bezeichnung "Markierungsdatei" wird hier eine strukturierte Zusammenstellung von Markierungen und ggf. zusätzlicher Daten verstanden, die einer individuellen Sendung zugeordnet ist. Die Markierungsdateien werden dem Videogeräte-Nutzer von einem Datenprovider bereitgestellt. Der Nutzer kann die Daten auf Anforderung oder automatisch, z.B. über das Internet oder in der Austastlücke eines Fernsehsignals eines Senders herunterladen. Die Markierungsdatei kann alle oder nur einen Teil der digitalen Markierungen einer TV-Sendung umfassen.

Eine in der Markierungsdatei enthaltene Markierung umfasst vorzugsweise zusätzlich eine Information darüber, wie mit der gesuchten Videosequenz verfahren werden soll. Das Videogerät kann die Videosequenz somit entweder anzeigen oder überspringen bzw. herausschneiden.

Eine in der Markierungsdatei enthaltene Markierung enthält, insbesondere im Falle einer harten Ausblendung, neben den Codierungen von einer Anzahl a Frames vor der gesuchten Videosequenz vorzugsweise auch eine Codierung wenigstens eines weiteren Frames, vorzugsweise eines ersten Frames der gesuchten Videosequenz. Insbesondere wenn der gesuchten Videosequenz eine Reihe von weitgehend ähnlichen Frames vorausgehen kann somit das Ende der vorhergehenden bzw. der Anfang der gesuchten Sequenz wesentlich genauer erkannt werden.

Das Verfahren zum Erkennen von Videosequenzen arbeitet vorzugsweise mit einem Korrelationsalgorithmus.

Gemäß einer bevorzugten Ausführungsform der Erfindung gilt eine Videosequenz als erkannt, wenn:

  • – die „laufende" Markierung (aus a Frames) mit der in der Markierungsdatei enthaltenen Markierung korreliert und eine weiche Ausblendung vorliegt, oder
  • – wenn die „laufende" Markierung (aus a Frames) mit der in der Markierungsdatei enthaltenen Markierung korreliert, keine weiche Ausblendung vorliegt und die Codierung eines folgenden Frames mit der in der Markierungsdatei gespeicherten Codierung eines folgenden Frames in einem vorgegebenen Maß übereinstimmt.

Während des Vergleichs der „laufenden" Markierung (aus a Frames) mit der in der Markierungsdatei enthaltenen Markierung überprüft das Videogerät vorzugsweise auch, ob eine Ausblendung vorliegt. Eine weiche Ausblendung kann z. B. anhand der Helligkeitsänderung aufeinanderfolgender Frames erkannt werden. Wie erwähnt, gilt der Beginn bzw. das Ende einer Videosequenz als erkannt, wenn beide Bedingungen erfüllt sind (Übereinstimmung der laufenden Markierung und Vorliegen einer Ausblendung). Wenn das durch die Markierung der Markierungsdatei spezifizierte Frame nicht genau das erste Frame nach der Ausblendung ist, sondern z. B. das fünfte Frame, werden die beiden Bedingungen zu unterschiedlichen Zeitpunkten erfüllt – im vorliegenden Beispiel wird zuerst die Ausblendung erkannt und dann die Übereinstimmung der Markierung der a Frames. Gemäß der Erfindung gilt der Beginn bzw. das Ende einer Videosequenz daher vorzugsweise als erkannt, wenn die Zeitdauer zwischen beiden Bedingungen kleiner ist als ein vorgegebener Schwellenwert. Zur technischen Realisierung kann z. B. ein Zähler oder Timer vorgesehen sein.

Jede zu identifizierende Videosequenz, die übersprungen oder herausgeschnitten werden soll, wird vorzugsweise durch zwei Markierungen in der Markierungsdatei spezifiziert, nämlich eine Markierung für den Beginn der Sequenz und eine Markierung für das Ende der Sequenz. Die Markierung für den Beginn umfasst wenigstens die Codierung einer vorgegebenen Anzahl aufeinander folgender Frames, die der gesuchten Sequenz vorhergehen und ggf. die Codierung eines weiteren Frames, und die Markierung für das Ende wenigstens die Codierung einer vorgegebenen Anzahl aufeinander folgender Frames vor dem Ende der gesuchten Sequenz sowie ggf. die Codierung des ersten Frames nach dem Ende. Zusätzlich enthalten die beiden Markierungen vorzugsweise noch je eine Zeitinformation, die die Länge der zu überspringenden Videosequenz definieren.

Das Videogerät erzeugt die „laufende Markierung" vorzugsweise nicht ständig, sondern erst, wenn die Wiedergabe „in die Nähe" einer zu identifizierenden Videosequenz kommt. Der Beginn für das Erzeugen der „laufenden" Markierung kann z.B. aus einer Zeitangabe in der Markierungsdatei ermittelt werden. Dadurch kann insbesondere Prozessorleistung gespart werden. Der Startzeitpunkt für die Erzeugung von Markierungen und für den Markierungsvergleich hängt vor allem von der Genauigkeit der internen Systemuhr des Aufnahme- und Wiedergabegeräts ab. Je genauer die Systemuhr, umso kürzer kann das Intervall ausfallen.

Das erfindungsgemäße Erkennungsverfahren kann z.B. dazu genutzt werden, den sogenannten Aufnahmepuffer vor dem eigentlichen Film (Vorlauf) auszublenden und die Wiedergabe des Videofilms mit einem vorgegebenen (üblicherweise dem ersten) Frame zu beginnen. In diesem Fall muss die Markierungsdatei eine Markierung enthalten, die den ersten Frame des Videofilms, das angezeigt werden soll, markiert. Beim Starten der Wiedergabe des Videofilms wird die Aufnahme solange vorgespult (wobei die Anzeige unterdrückt wird), bis der Filmanfang erkannt ist. Danach wird der Videofilm ab dem ersten Frame angezeigt. Um im Falle eines sehr langen Vorlaufs (z.B. 5 min) das erste Frame schneller auffinden und anzeigen zu können, springt das Aufnahme- bzw. Wiedergabegerät vorzugsweise kurz vor das erste anzuzeigende Frame (z.B. 20 Sekunden davor) und beginnt dort mit dem Erzeugen von Markierungen und dem Vergleich mit denen der Markierungsdatei. Der Anfangspunkt der Suche kann auf Basis einer Zeitangabe ermittelt werden, die z.B. in der Markierung des Filmanfangs enthalten ist.

Das erfindungsgemäße Erkennungsverfahren kann auch dazu genutzt werden, Werbespots oder andere unerwünschte Bestandteile eines aufgenommenen Videofilms zu überspringen. Die Markierungsdatei umfasst in diesem Fall wenigstens eine Markierung aus den Codierungen mehrerer Frames, die der zu überspringenden Videosequenz vorhergehen. Wenn die vom Video-Aufnahmegerät erzeugte laufende Markierung als übereinstimmend mit den gespeicherten Markierung erkannt wird, ist somit bekannt, welches Frame im Video-Datenstrom gerade gelesen wird, so dass die nachfolgende Videosequenz framegenau übersprungen werden kann.

Die Markierungsdatei beinhaltet vorzugsweise auch eine Information, wie z.B. eine Zeitinformation oder eine äquivalente Angabe (z.B. die Anzahl der Frames), die die Länge der zu überspringenden Videosequenz definiert. Das Video-Aufnahmegerät ist somit in der Lage, die unerwünschte Videosequenz entsprechend der Information zu überspringen und an deren Ende mit der Wiedergabe fortzufahren. Das Speichermedium wird dabei von einer Prozessoreinheit entsprechend angesteuert.

Auf diese Weise lassen sich nicht nur Werbeblocks oder andere unerwünschte Videosequenzen überspringen, sondern es können auch spezielle Zusammenfassungen eines aufgenommenen Videofilms erzeugt werden, die z.B. besondere Sendungshöhepunkte, beispielsweise alle torgefährlichen Situationen eines Fußballspiels, enthalten.

Wie vorstehend beschrieben, bestimmen die in der Markierungsdatei enthaltenen Markierungen, welche Teile des aufgezeichneten Videofilms angezeigt und welche ausgeblendet werden. Die Markierungen werden vorzugsweise durch Mitarbeiter eines Datenproviders halbautomatisch z.B. nach folgendem Verfahren erzeugt: Ein Mitarbeiter fährt den aufgezeichneten Videofilm zunächst an eine gewünschte Stelle, z.B. auf das erste Frame eines auszublendenden Werbespots und erzeugt dann mittels einer Elektronik automatisch die zugehörige digitale Markierung. Solche Markierungen werden vorzugsweise am Anfang und am Ende einer Videosequenz erzeugt und umfassen vorzugsweise auch die zugehörigen Zeitangaben für den Anfang und das Ende der Videosequenz. Die Markierungen für eine Sendung werden dann in einer Markierungsdatei zusammengefasst und an den Endnutzer übertragen. Die Markierungsdatei wird vorzugsweise in einem Speicher des Video-Aufnahmegeräts gespeichert und kann somit beim Abspielen des aufgezeichneten Films ausgelesen werden.

Gemäß der Erfindung umfasst eine Markierung vorzugsweise zwischen 20 und 50, insbesondere etwa 30 Frames. Diese Anzahl ist ausreichend, um den Beginn oder das Ende einer Videosequenz im Video-Datenstrom mit sehr hoher Genauigkeit und Zuverlässigkeit erkennen zu können.

Zur Erzeugung einer Markierung sind aus dem Stand der Technik eine Vielzahl von Verfahren bekannt. Gemäß einer bevorzugten Ausführungsform der Erfindung wird über eine Anzahl von a Frames jeweils ein Bildpunkt (der mehrere Pixel umfasst) und über einen folgenden Frame (i.d.R. der erste Frame der zu identifizierenden Videosequenz) ein Raster aus mehreren Bildpunkten gelegt. Die Bildpunkte der ersten a Frames befinden sich vorzugsweise jeweils an unterschiedlichen Positionen in den Frames.

Ein Bildpunkt besteht vorzugsweise aus n × m (z.B. 4 × 4) Pixeln. Für jeden Pixel eines jeden Bildpunktes werden z.B. Farbwerte im YUV-Farbraum ermittelt. Im YUV-Farbraum wird dabei jeder Pixel nach seiner Helligkeit (Y = Luminanzanteil bzw. Helligkeit), seiner Cyan-Rot-Balance (U = erster Chrominanzanteil bzw. Farbanteil zwischen Cyan und Rot) und seiner Gelb-Blau-Balance (V = zweiter Chrominanzanteil bzw. Farbanteil zwischen Gelb und Blau) beurteilt. Ein Farbwert eines Pixels umfasst demnach jeweils einen Wert für Y, U und V.

Aus den Farbwerten der n × m Pixel eines Bildpunktes wird dann vorzugsweise durch Mittelwertbildung ein durchschnittlicher Farbwert des Bildpunktes für jeweils Y, U und V erzeugt. Aus den durchschnittlichen Farbwerten für Y, U und V der a Bildpunkte wird dann je eine Reihe mit a Werten gebildet. Außerdem wird aus den durchschnittlichen Farbwerten für Y, U und V aller Bildpunkte des Bildpunkt-Rasters des nächsten Frames nochmals je eine Reihe gebildet. Diese zwei mal drei Reihen bilden – zusammen mit der o.g. Zeitinformation – die Markierung eines Anfangs einer Videosequenz. Die Markierung eines Ende einer Videosequenz wird entsprechend erzeugt.

Die vom Videogerät erzeugten laufenden Markierungen werden nun mit den in der Markierungsdatei gespeicherten Markierungen der nächsten gesuchten Videosequenz verglichen. Zum Zwecke der Wiedererkennung ist es vorzugsweise nicht erforderlich, dass die vom Aufnahmegerät erzeugten laufenden Markierungen mit denen der Markierungsdatei vollkommen identisch sind. Erfindungsgemäß arbeitet der Wiedererkennungs-Algorithmus vorzugsweise mit Korrelationskoeffizienten, also dem Ähnlichkeitsmaß zwischen den erzeugten Markierungen und den gespeicherten Markierungen.

Dabei werden vorzugsweise je ein Korrelationskoeffizient für die Reihen Y, U und V der laufenden Markierung und der Markierung in der Markierungsdatei, sowie ein vierter Korrelationskoeffizient aus dem Durchschnitt der drei Korrelationskoeffizienten auf Basis von a Frames fortlaufend berechnet. Übersteigt der Wert der drei Korrelationskoeffizienten für die Reihe von (z.B. a) Frames jeweils vorgegebene Schwellenwerte und folgt unmittelbar danach eine Ausblendung, oder übersteigt der Wert der drei Korrelationskoeffizienten für die Bildpunkte des Bildpunkt-Rasters sowie deren Durchschnitt ebenfalls vorgegebene Schwellwerte, gilt die aktuelle Position im Videofilm als erkannt.

Das Videogerät kann auch dazu verwendet werden, einen aufgenommenen Fernsehfilm zu schneiden. Dabei verwendet das Videogerät 1 den gleichen Identifikationsalgorithmus wie bei der Wiedergabe des Films. Im Unterschied zur Wiedergabe wird jedoch auch das Ende einer unerwünschten Videosequenz vorzugsweise ebenfalls mit Hilfe eines Markierungsvergleichs erkannt, statt es entsprechend der Zeitinformation anzuspringen.

Ein Video-Aufnahmegerät, das zur Durchführung des vorstehend beschriebenen Wiedererkennungsverfahrens eingerichtet ist, umfasst eine Schnittstelle zum Empfangen eines Video-Datenstroms, wie z.B. einen TV- oder Internet-Anschluss, ein digitales Speichermedium zum Aufzeichnen des Videos, wie z.B. eine Festplatte, sowie eine Prozessoreinheit, die den Video-Datenstrom ausliest, aus mehreren Frames eine laufende Markierung erzeugt und diese mit einer Markierung in einer bereitgestellten Markierungsdatei vergleicht, um eine bestimmte Videosequenz wiederzuerkennen. Die erkannte Videosequenz kann entweder angezeigt oder, insbesondere im Falle von Werbung, übersprungen oder herausgeschnitten werden. Die einzelnen Schritte des Wiedererkennungsverfahrens werden vorzugsweise von einer entsprechenden Software im Video-Aufnahmegerät ausgeführt.

Die Erfindung wird nachstehend anhand der beigefügten Zeichnungen beispielhaft näher erläutert. Es zeigen:

1 eine schematische Darstellung eines Videogeräts mit einer speziellen Identifikationssoftware;

2 eine schematische Darstellung zur Erläuterung des Wiedererkennungsverfahrens;

3 die Erzeugung einer Markierung am ende einer gesuchten Videosequenz;

4 die wesentlichen Verfahrensschritte zum Ausblenden unerwünschter Videosequenzen; und

5 die wesentlichen Verfahrensschritte zum Auffinden des Filmanfangs eines gespeicherten Videofilms.

1 zeigt eine Blockdarstellung eines Video-Aufnahme- bzw. -Wiedergabegeräts 1 mit einem Festplattenspeicher 2 zum Aufzeichnen eines Videofilms und einer Prozessoreinheit 3 zum Verarbeiten der Videodaten. Die Prozessoreinheit 3 ist mit einer speziellen Wiedererkennungs-Software 4 programmiert und dadurch in der Lage, bestimmte Videosequenzen im aufgezeichneten Videofilm framegenau zu erkennen. Dadurch ist es möglich, bei der Wiedergabe des Films bestimmte Szenen 10, 11 entweder anzuzeigen oder zu überspringen.

Das Video-Aufnahmegerät 1 umfasst eine TV-Schnittstelle 14, wie z.B. einen Antennen- oder Internet-Anschluss, zum Empfangen von Videodaten von einer externen Quelle. Das Video-Aufnahmegerät 1 verfügt außerdem über einen zweiten Eingang 15, über den Markierungsdateien 12 eingelesen werden, wie z.B. einen Internet- oder einen Antennen-Anschluss (wahlweise könnte auch der Anschluss 14 verwendet werden). Die Markierungsdatei kann entweder auf der Festplatte 2 oder in einem Speicher 5 (z.B. einem RAM) gespeichert werden.

Zum Wiedererkennen bestimmter Videosequenzen in dem auf der Festplatte 2 aufgezeichneten Videofilm müssen im wesentlichen folgende Verfahrensschritte ausgeführt werden:

In einem ersten Schritt wird ein Videofilm über den TV-Eingang 14 empfangen und auf der Festplatte 2 komplett (d.h. einschl. der zu überspringenden/herauszuschneidenden Videosequenzen wie Werbung, Vorlauf, Nachlauf, etc.) aufgezeichnet. Noch während oder unmittelbar nach der Ausstrahlung des TV-Films erzeugt ein Datenprovider eine Markierungsdatei 12 (siehe 2) für die aufgenommene Sendung, die an den Endnutzer bzw. das Aufnahmegerät 1 übertragen wird. Wenn der Videogerätenutzer einen Film zur Wiedergabe auswählt, holt das Video-Aufnahmegerät 1 die zugehörige Markierungsdatei 12 z.B. per Internet vom Datenprovider oder liest sie aus dem Speicher 5 aus.

Das Videogerät 1 erzeugt dann direkt beim Abspielen des aufgezeichneten Films selbst eine „laufende Markierung" 13 nach einem vorgegebenen Algorithmus und vergleicht diese „in Echtzeit" mit der Markierung 17 für die nächste zu identifizierende Videosequenz in der Markierungsdatei 12. Bei einem vorgegebenen Maß an Übereinstimmung der laufenden Markierung 13 mit der nächsten Markierung 17 der Markierungsdatei (und ggf. einer weiteren Bedingung) gilt die aktuelle Position im Videofilm als erkannt, so dass eine darauffolgende Sequenz 11 je nach Wunsch entweder eingeblendet (Sendungshöhepunkt, Filmanfang) oder übersprungen bzw. herausgeschnitten (Werbung, Vor- oder Nachlauf) werden kann. Die gewünschten Szenen werden am Video-Ausgang 16 ausgegeben und an einem Bildschirm angezeigt bzw. nicht gezeigt.

Ein wesentlicher Punkt bei diesem Verfahren sind die in der Markierungsdatei 12 enthaltenen Markierungen 17. Sie bestimmen, welche Sequenzen 10, 11 angezeigt oder ausgeblendet werden. Das Erzeugen der laufenden Markierung und das Wiedererkennen von Sequenzen 10, 11 wird im Folgenden anhand von 2 näher erläutert:

2 zeigt einen Video-Datenstrom 6 aus mehreren Frames 8, den die Prozessoreinheit 3 von der Festplatte 2 ausliest und anschließend weiterverarbeitet. Der dargestellte Ausschnitt des Video-Datenstroms 6 zeigt das Ende einer Szene 10 des eigentlichen Films und die ersten Frames 8 eines darauffolgenden Werbespots 11 (schraffiert dargestellt).

Während des Lesens des Video-Datenstroms 6 erzeugt die Prozessoreinheit 3 eine „laufende" Markierung 13 gemäß einem vorgegebenen Algorithmus. Im dargestellten Beispiel umfasst die laufende Markierung 13 die Codes si jeweils eines Bildpunktes 9 von insgesamt vier Frames 8. Die Anzahl von vier Frames 8 ist hier nur aus Gründen der Übersichtlichkeit gewählt. In Realität umfasst eine Markierung 13 etwa 30 Frames 8. Diese „laufende" Markierung verschiebt sich mit jedem neu eingelesenen Frame 8 um ein Frame 8 und wird jeweils mit einer in der Markierungsdatei 12 enthaltenen Markierung 17 verglichen, die die nächste gesuchte Videosequenz 11 spezifiziert. Bei einem vorgegebenen Maß an Übereinstimmung der laufenden Markierung 13 mit der nächsten Markierung 17 der Markierungsdatei 12 und dem Vorliegen einer weiteren Bedingung, wie z. B. einer (harten oder weichen) Ausblendung, gilt die aktuelle Position im Videofilm als erkannt. Die Position gilt vorzugsweise auch als erkannt, wenn zwischen dem Erkennen der laufenden Markierung als übereinstimmend und dem Erkennen einer Ausblendung eine Zeitdauer liegt, die kürzer ist als ein vorgegebener Schwellenwert.

Eine Markierung 17 der Markierungsdatei 12 umfasst die Codierungen si von a Frames, die der gesuchten Sequenz 11 vorhergehen, sowie eine Codierung sn des ersten Frames 8 der gesuchten Sequenz 11. Jede Codierung si ist dabei eine Information über charakteristische Eigenschaften des Frames 8 bzw. eines oder mehrerer Bildpunkte 9 des Frames 8, wie z.B. Daten über Farb-, Helligkeits- oder Sättigungseigenschaften eines oder mehrerer Bildpunkte.

Zum Vergleich der laufenden Markierung 13 mit der gespeicherten Markierung 17 wird vorzugsweise eine Korrelationsanalyse durchgeführt, die im folgenden noch näher erläutert wird.

Die Länge der zu überspringenden Sequenz 11 ergibt sich aus einer ebenfalls vom Datenprovider bereitgestellten Information, wie z.B. einer Zeitinformation t oder einer äquivalenten Angabe (z.B. die Anzahl der Frames). Diese Information t ist vorzugsweise in den Markierungen 17 mit enthalten. Das Video-Aufnahmegerät 1 ist somit in der Lage, Werbung 11 zu überspringen und an deren Ende mit der Wiedergabe fortzufahren. Hierzu steuert die Prozessoreinheit 3 die Festplatte 2 (bzw. ein anderes Speichermedium) entsprechend an.

Auf diese Weise lassen sich nicht nur Werbeblocks 11 oder andere unerwünschte Videosequenzen überspringen, sondern es können auch spezielle Zusammenfassungen eines aufgenommenen Videofilms erzeugt werden, die z.B. besondere Höhepunkte einer TV-Aufnahme, beispielsweise alle torgefährlichen Situationen eines Fußballspiels, enthalten. Die Markierung 17 enthält dabei auch die Information, ob die Sequenzen 10, 11 angezeigt oder ausgeblendet werden sollen.

Zur Erzeugung von Markierungen aus einem Video-Datenstrom 6 kann z. B. folgendes Verfahren angewendet werden: In einem ersten Schritt wird beim Abspielen des aufgezeichneten Films über jedes von a (vorzugsweise zwischen 20 und 50) Frames ein Bildpunkt 9 aus mehreren (z.B. 4 × 4 = 16) Pixeln gelegt und die Farbwerte der Pixel im YUV-Farbraum analysiert. Im YUV-Farbraum wird dabei jeder Pixel nach seiner Helligkeit (Y = Luminanzanteil bzw. Helligkeit), seiner Cyan-Rot-Balance (U = erster Chrominanzanteil bzw. Farbanteil zwischen Cyan und Rot) und seiner Gelb-Blau-Balance (V = zweiter Chrominanzanteil bzw. Farbanteil zwischen Gelb und Blau) beurteilt. Aus den einzelnen Werten für Y, U und V wird dann je ein Mittelwert für alle Pixel eines Bildpunktes gebildet. Ein Farbwert eines Pixels umfasst demnach jeweils einen Durchschnittswert für Y, U und V der Pixel in diesem Bildpunkt. Dadurch entstehen drei Reihen mit jeweils a Werten für Y, U und V. Diese bilden die „laufende" Markierung 13, die nun mit der Markierung 17 verglichen werden kann.

Wenn die Korrelationen der Reihen von Y, U und V mit denen der Markierung 17 der nächsten zu identifizierenden Videosequenz 11 in der Markierungsdatei 12 sowie der Mittelwert der drei Korrelationen vorgegebene Schwellwerte übersteigen, wird folgende Situation unterschieden: Wenn im nächsten eingelesenen Frame 8 eine Ausblendung vorliegt, gilt die Sequenz 11 als erkannt. Andernfalls wird auf dieses nächste Frame 8 ein Raster aus mehreren Bildpunkten 9 gelegt und zusätzlich deren Farbwerte bestimmt. Die Farbwerte werden dann wieder über Korrelation mit denen der Markierung 17 verglichen. Überschreiten die Korrelationen (einschl. deren Mittelwert) erneut die Schwellwerte, so gilt die Videosequenz 11 als erkannt.

Das Pixelraster zur Erzeugung des Codes sn des ersten Frames 8 der Videosequenz 11 umfasst vorzugsweise zwischen 20 und 50, insbesondere etwa 40 Bildpunkte. Dadurch kann die folgende Sequenz 11 mit nahezu 100%iger Genauigkeit erkannt werden.

Die Bildpunkte 9 in den einzelnen Frames 8 sind vorzugsweise an jeweils unterschiedlichen Positionen der Frames 8 angeordnet, wodurch eine bessere Wiedererkennungsrate erreicht werden kann. Ein Bildpunkt 9 umfasst vorzugsweise zwischen 5 und 40 Pixel.

3 zeigt das Ende einer nicht gewünschten (ausgeblendeten) Videosequenz 11 und den Anfang der nachfolgenden Videosequenz 10. Aus den letzten Frames 8 der Werbung 11 vor der Videosequenz 10 wird in analoger Weise eine laufende Markierung 13 erzeugt und diese mit der zugehörigen gespeicherten Markierung 17 verglichen. Auf diese Weise kann das Ende der Videosequenz 11 sehr genau erkannt werden. Insbesondere beim Videoschneiden wird es dadurch möglich, den Szenenwechsel am Ende der Werbung 11 framegenau zu treffen

4 zeigt ein Flussdiagramm mit den wesentlichen Verfahrensschritten beim Ausblenden von Werbung oder anderer unerwünschter Sequenzen 11 aus einem Video-Datenstrom 6. Das Verfahren beginnt in einem Zustand, in dem die Prozessoreinheit 3 den Video-Datenstrom 6 von der Festplatte 2 ausliest und unmittelbar am Ausgang 16 anzeigt, wobei noch keine Markierungen 13 erzeugt werden. Ab einem vorgegebenen Zeitpunkt t0 beginnt die Prozessoreinheit 3, aus den einzelnen Frames 8 des Videodatenstroms 6 fortlaufend Markierungen zu erzeugen. Der Startzeitpunkt t0 (beispielsweise 20 Sekunden vor der gesuchten Szene 11) ergibt sich z.B. aus einer in der Markierung 17 enthaltenen (Zeit-) Information.

Die Startzeit t0 wird in Schritt 20 mit der Zeit des aktuellen Frames 8 verglichen. Falls die Zeiten übereinstimmen, erzeugt die Prozessoreinheit 3 in Schritt 21 eine laufende Markierung 13, bestehend aus jeweils den Farbwerten Y, U und V eines Bildpunktes 9 auf den letzten a Frames. Diese Wertereihe wird in Schritt 22 mit der Markierung 17 der nächsten zu identifizierenden Videosequenz 11 in der Markierungsdatei 12 verglichen. Bei Nicht-Übereinstimmung der Wertereihen springt das Verfahren zurück zu Schritt 21, und es wird eine neue Markierung 13 für eine um eins voraus versetzte Framereihe erzeugt. In Schritt 22 wird dann die neue Code-Wertereihe s2 – sa+1 mit der Markierung 17 in der Markierungsdatei 12 verglichen, usw.. Bei Übereinstimmung der Wertereihen (Fall J) geht das Verfahren weiter zu Schritt 23, in dem eine weitere Bedingung überprüft wird. Wenn im nächsten Frame 8 eine Ausblendung vorliegt oder die Farbwerte von a Bildpunkten auf dem nächsten Frame 8 mit dem entsprechenden Code der Markierung 17 korrelieren, wird die folgende Videosequenz 11 in Schritt 24 übersprungen und das erste Frame 8 nach der Videosequenz 11 angezeigt. Hierzu wird die Festplatte 2 von der Prozessoreinheit 3 entsprechend angesteuert. Andernfalls gilt die Sequenz 11 nicht als erkannt und das Verfahren springt zurück zu Schritt 23.

Das angesprungene Ziel-Frame ergibt sich z.B. aus der Differenz zwischen dem Zeitpunkt am Ende der Sequenz 11 und am Anfang der Sequenz 11 oder aus einer äquivalenten Information, die vom Datenprovider bereitgestellt wurde und in der Markierungsdatei 12 enthalten ist.

5 zeigt ein Flussdiagramm mit den wesentlichen Verfahrensschritten zum Ausblenden eines Vorlaufs und Auffinden des ersten anzuzeigenden Frames 8 in einem aufgezeichneten Videofilm. Nach dem Starten des Videofilms durch den Nutzer springt das Aufnahmegerät 1 zunächst an eine Stelle nahe des ersten Frames 8 des eigentlichen Videofilms (Schritt 25). Der angesprungene Frame 8 ergibt sich z.B. wiederum aus einer Information, die z. B. vom Datenprovider in der Markierungsdatei 12 bereitgestellt wurde oder im System hinterlegt ist. In Schritt 26 wird dann wiederum eine laufende Markierung 13 aus a Frames 8 erzeugt und in Schritt 27 mit der Markierung 17 der nächsten zu identifizierenden Videosequenz in der Markierungsdatei 12 verglichen. Bei einem vorgegebenen Maß an Übereinstimmung und der vorstehend beschriebenen zusätzlichen Bedingung (Fall J) gilt die aktuelle Position im Video-Datenstrom 6 als erkannt, so dass im Folgenden das erste Frame 8 des eigentlichen Videofilms in Schritt 28 eingeblendet werden kann. Bei Nicht-Übereinstimmung (Fall N) werden fortlaufend neue Markierungen 13 erstellt und mit der zugehörigen Markierung 17 in der Markierungsdatei 12 verglichen.

Das vorstehend beschriebene Verfahren kann, wie beschrieben, dazu verwendet werden, einen TV-Film zu beliebiger Zeit nach der Aufzeichnung ohne Werbung 11 und andere unerwünschte Sequenzen wiederzugeben. Das Verfahren kann jedoch nicht dazu verwendet werden, einen TV-Film während der Ausstrahlung „life" werbefrei zu betrachten, da der Datenprovider zunächst die zugehörige Markierungsdatei 12 erstellen muss.

Es ist jedoch möglich, einen TV-Film zeitversetzt zu betrachten (zeitversetztes Fernsehen, Time-Shift), noch bevor dessen Ausstrahlung ganz zu Ende ist, wenn die Markierungen 17 unmittelbar nach jedem Werbeblock 11 erzeugt und an das Videogerät 1 übermittelt werden. Um den Film komplett werbefrei betrachten zu können, muss der Zeitversatz wenigstens so lange sein wie die Dauer sämtlicher Werbeblocks und die Zeit, die vom Datenprovider benötigt wird, um die letzte digitale Markierung 17 zu erzeugen und an den Anwender zu übertragen.

Das Videogerät kann auch dazu verwendet werden, schon beim zeitversetzten Betrachten eines Fernsehfilms die Werbung auszublenden. Dazu schaltet der Anwender vor dem Start der Life-Sendung das Videogerät in den Zeitversatz-Modus (TimeShift), wodurch die gegenwärtige Life-Sendung im Speicher des Videogerätes zwischengepuffert wird. Wenn der Anwender nach einiger Zeit die Wiedergabe der gepufferten Life-Sendung einschaltet, kann das gleiche Verfahren zum Überspringen der Werbung verwendet werden, sofern die Markierungen der un erwünschten Videosequenzen laufend und zeitnah übertragen werden.

1Video-Aufnahmegerät 2Digitaler Videospeicher 3Prozessoreinheit 4Identifikationssoftware 5Speicherchip 6Video-Datenstrom 8Frame 9Bildpunkt 10Anzuzeigende Videosequenz 11Auszublendende Videosequenz 12Markierungsdatei 13Laufende Markierung 14Video-Eingang 15Daten-Eingang 16Video-Ausgang 17Markierung der Markierungsdatei 18Intervall INVideo-Eingang der Prozessoreinheit ctrlSteuerausgang der Prozessoreinheit siCodierung 20–24Verfahrensschritte zum Ausblenden nicht erwünschter Sequenzen 26–28Verfahrensschritte zum Auffinden des Filmanfangs

Anspruch[de]
  1. Verfahren zum Identifizieren einer Videosequenz (11), insbesondere von Werbung, in einem gespeicherten Videofilm, der aus einer Folge von Frames (8) besteht und von einem Videogerät (1) verarbeitet wird, dadurch gekennzeichnet, dass das Videogerät (1) beim Lesen des gespeicherten Videofilms aus einer vorgegebenen Anzahl von Frames (8) eine laufende Markierung (13) aus codierten Informationen (si) gemäß einem vorgegebenen Algorithmus erzeugt, und die laufende Markierung (13) jeweils mit einer in einer Markierungsdatei (12) enthaltenen Markierung (17) der nächsten zu identifizierenden Videosequenz (11) vergleicht, wobei

    – die laufende Markierung (13) aus mehreren Frames erzeugt wird, die der gesuchten Videosequenz (11) vorhergehen,

    – die Markierungsdatei (12) wenigstens eine Markierung (17) für wenigstens eine Videosequenz (11) umfasst, die jeweils aus mehreren Frames (8) erzeugt ist, die der Videosequenz (11) vorhergehen, und

    – die laufende Markierung (13) sukzessive mit der zugehörigen, in der Markierungsdatei (12) enthaltenen Markierung (17) verglichen wird, um die nachfolgende Videosequenz (11) zu identifizieren.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Markierungen (17) der Markierungsdatei (12) die codierten Informationen (si) von mehreren Frames (8), die der zu identifizierenden Videosequenz (11) unmittelbar vorhergehen, sowie wenigstens eine codierte Information (si) eines nachfolgenden Frames (8) umfassen.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die zu identifizierende Videosequenz (11) entweder angezeigt, übersprungen oder herausgeschnitten wird.
  4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Markierungen (17) der Markierungsdatei (12) eine Zeitinformation (t) oder eine äquivalente Information umfassen, aus der sich die Länge der zu identifizierenden Videosequenz (11) ergibt.
  5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die laufende Markierung (13) vom Videogerät (1) nur innerhalb eines bestimmten Intervalls (18) vor der gesuchten Videosequenz (11) erzeugt wird und vor dem Intervall (18) keine laufende Markierung (13) erzeugt wird.
  6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Markierungsdatei (12) für jede zu identifizierende Videosequenz (11), die übersprungen werden soll, jeweils eine erste Markierung (17), bestehend aus Codierungen (si) mehrerer Frames (8) vor dem Anfang, und eine zweite Markierung (17), bestehend aus Codierungen (si) mehrerer Frames (8) vor dem Ende der zu identifizierenden Videosequenz (11), umfasst.
  7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Markierung (13, 17) aus den charakteristischen Farb-, Helligkeits- und/oder Sättigungseigenschaften der Pixel eines vorgegebenen Bildpunktes (9) erzeugt wird.
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Markierungen (13, 17) anhand von einzelnen Bildpunkten (9) oder anhand eines Rasters aus solchen Bildpunkten (9) erzeugt werden.
  9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die einzelnen Bildpunkte (9) aus mehreren Pixeln bestehen, so dass das Wiedererkennungsverfahren unabhängig von der jeweiligen Auflösung ist.
  10. Verfahren nach einem der Ansprüche 7 bis 9, dadurch gekennzeichnet, dass Bildpunkte (9) an unterschiedlichen geometrischen Positionen in den Frames (8) angeordnet sind.
  11. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zum Vergleich der laufenden Markierung (13) mit der zugehörigen Markierung (17) in der Markierungsdatei (12) eine Korrelationsanalyse durchgeführt wird.
  12. Vorrichtung zum Verarbeiten von Bilddaten, insbesondere ein Videogerät (1), umfassend:

    – eine TV- oder Internet-Schnittstelle (14) zum Empfangen einer TV-Sendung sowie einer Markierungsdatei (12) von einer externen Quelle,

    – ein Speichermedium (2, 5) zum Aufzeichnen der Sendung, und

    – eine Prozessoreinheit (3) zum Auslesen eines Video-Datenstroms (6), der aus einer Folge von Frames (8) besteht,

    dadurch gekennzeichnet, dass

    – die Prozessoreinheit (3) eine laufende Markierung (13) aus mehreren Frames (8) erzeugt, die dem Anfang oder dem Ende einer gesuchten Videosequenz (11) vorhergehen,

    – das Videogerät (1) auf eine Markierungsdatei (12) zugreifen kann, die Markierungen (17) von wenigstens einer Videosequenz (11) der TV-Sendung umfasst, wobei die Markierungen (17) jeweils aus mehreren Frames (8) erzeugt sind, die einer gesuchten Videosequenz (11) vorhergehen, und

    – dass die Prozessoreinheit (3) die laufende Markierung (13) mit der in der Markierungsdatei (12) enthaltenen Markierung (17) der jeweils nächsten zu identifizierenden Videosequenz vergleicht, um die nachfolgende Videosequenz (11) zu identifizieren.
  13. Vorrichtung nach Anspruch 12, dadurch gekennzeichnet, dass die in der Markierungsdatei (12) enthaltene Markierung (12) eine Zeitinformation (t) oder eine äquivalente Information umfasst, die die Länge der zu identifizierenden Videosequenz (11) spezifiziert, und die Prozessoreinheit (3) die gesuchte Videosequenz (11), nachdem sie erkannt wurde, auf Grundlage der Information überspringt.
  14. Vorrichtung nach Anspruch 12 oder 13, dadurch gekennzeichnet, dass zum Auffinden des Anfangs eines gespeicherten Videofilms die Prozessoreinheit (3) kurz vor den ersten Frame (8) des wiederzugebenden Videofilms springt und eine laufende Markierung (13) erzeugt, die mit der Markierung (17) der jeweils nächsten zu identifizierenden Videosequenz (11) in der Markierungsdatei (12) verglichen werden.
Es folgen 3 Blatt Zeichnungen






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com