PatentDe  


Dokumentenidentifikation DE19634768A1 06.03.1997
Titel Vorrichtung und Verfahren zur Erfassung eines Gesichts in einem Videobild
Anmelder Siemens Corporate Research, Inc., Princeton, US;
The Trustees of Princeton University, Princeton, N.J., US
Vertreter Blumbach, Kramer & Partner, 81245 München
DE-Anmeldedatum 28.08.1996
DE-Aktenzeichen 19634768
Offenlegungstag 06.03.1997
Veröffentlichungstag im Patentblatt 06.03.1997
IPC-Hauptklasse G06K 9/62
IPC-Nebenklasse G06K 9/66   
Zusammenfassung Es ist ein Identifikationssystem und -Verfahren zum Identifizieren des Vorhandenseins eines menschlichen Gesichts in einem Videobild offenbart. Ein von einer Videokamera erhaltenes Bild wird hinsichtlich des Vorliegens eines Gesichts rasch analysiert. Während der Analyse des Bilds wird die Auflösung des Bilds verringert und eine Normalisierung zur Kompensation von Beleuchtungsveränderungen durchgeführt. Das modifizierte Bild wird dann mit einem zuvor aufgebauten Hintergrundbild verglichen, um eine binäre, interessierende Maske zu erzeugen. Unter Heranziehung der binären, interessierenden Maske wird die wahrscheinlichste Position des Gesichts durch Identifizierung der Oberseite, der Unterseite und der Seiten einer beliebigen, möglichen Kopfregion in der modifizierten, interessierenden Maske berechnet. Die identifizierte Kopfregion wird innerhalb eines Begrenzungsrahmens definiert, dessen Größe und Eigenschaften im Hinblick auf die Möglichkeit eines Gesichts analysiert werden. Sobald ermittelt ist, daß der Rahmen ein Gesicht enthalten kann, werden die in dem Begrenzungsrahmen enthaltenen Daten weiter analysiert. Bei der Analyse der Begrenzungsrahmendaten werden die Daten erneut zur Kompensation der Beleuchtung standardisiert. Der Begrenzungsrahmen wird auch größenmäßig auf eine ausgewählte Standardgröße gebracht, die mit in einem Speicher gespeicherten Identifikationsschablonen übereinstimmt. Nach der Größenanpassung werden die in dem Begrenzungsrahmen enthaltenen Daten ...

Beschreibung[de]

Die vorliegende Erfindung steht mit der gleichzeitig eingereichten, deutschen Patentanmeldung mit dem Titel "Neurales Netzwerk zur Lokalisierung und Erkennung eines verformbaren Objekts", Anmelder Siemens Corporate Research, Inc. USA, und The Trustees of Princeton University, USA, Erfinder Kung und andere, Priorität vom 30. August 1995, USA, US-Patentanmeldung Nr. 08/521,176, in Beziehung. Der Offenbarungsgehalt dieser vorstehend definierten deutschen Patentanmeldung wird als Anhang auch zum Bestandteil der vorliegenden Anmeldung gemacht.

Die vorliegende Erfindung bezieht sich auf Identifikationssysteme auf Video-Basis, die imstande sind, das Vorhandensein des Gesichts einer Person in einem Videobild automatisch zu erfassen. Insbesondere bezieht sich die vorliegende Erfindung auf Vorrichtungen und Verfahren, bei denen iterative Berechnungen zur anfänglichen raschen Identifizierung des Vorhandenseins eines Gesichts in einem Videobild und zum anschließenden Anpassen bzw. Zuordnen des Gesichts zu einer gespeicherten Identifikationsschablone bzw. Identifikationsvorlage eingesetzt werden.

Im Stand der Technik sind Technologien zur Lokalisierung von Gesichtern in einer komplexen Szene vorhanden. Bei vielen Methoden, wie etwa derjenigen, die in dem Artikel "Finding Faces in cluttered Scenes using Random Labeled Graph Matching" von Chen et al., IEEE (0-8186-7042-8/95), Seiten 637 bis 644, beschrieben ist, werden ausgefeilte Algorithmen eingesetzt, die viel Zeit zum Ablaufen brauchen. Als Ergebnis können derartige komplexe, auf Algorithmen basierende Methoden nicht leicht an Identifikationssysteme angepaßt werden, die eine schnelle Identifikation eines Gesichts fordern. Zum Einsatz bei Anwendungen, die eine rasche Reaktionszeit erfordern, wurden weniger aufwendige und daher weniger zeitaufwendige Algorithmen entwickelt. Jedoch wurden zur Erreichung des Ziels, daß diese herkömmlichen Methoden weniger aufwendig sind, Annahmen bei dem Verarbeitungsalgorithmus getroffen, die nicht lebensgerecht sind. Als Beispiel suchen bei den zum Stand der Technik rechnenden Systemen, wie etwa denjenigen, die als Beispiel in "Face Detection by Fuzzy Pattern Matching" von Chen et al, IEEE 95 (0-8186-7042-9/95), Seiten 591 bis 596; "Face Detection Using Templates" von Known et al., IEEE 94 (1051-4651/94), Seiten 764 bis 767; und in "Human Face Detection in a Complex Background" von Yang el al., Pattern Recognition, Vol. 27, Nr. 1, Seiten 53 bis 63, 1994, erläutert sind, die Verarbeitungsalgorithmen unrealistischerweise nach dunklem Haar oder einem dunklen, ein Gesicht mit heller Hauttönung umgebenden Hintergrund, oder hängen hiervon ab. Manche dieser herkömmlichen Methoden erfordern auch eine Farbkamera zur Erleichterung der Aufteilung von Gesicht/Hintergrund, während bei anderen Methoden angenommen wird, daß das gesuchte Gesicht asiatische Züge aufweist. Solche Annahmen sind nicht stets praxisgerecht und führen daher zu einem Identifikationssystem, das lediglich begrenzte Fähigkeiten besitzt.

Einer der größten Nachteile von vielen herkömmlichen Systemen und Methoden zur Gesichtsidentifizierung besteht darin, daß die bei diesen Systemen verwendeten Verarbeitungsalgorithmen annehmen, daß das zu identifizierende Gesicht während des Laufs der Identifikationsprozedur eine konstante Beleuchtung bzw. Helligkeit aufweist. Diese Annahme wird der Praxis ebenfalls nicht gerecht. In der realen Welt ändert sich die Beleuchtung ständig. Die Sonne verschwindet hinter Wolken, Lichter werden ein- und ausgeschaltet, Türen von hell erleuchteten Räumen öffnen und schließen sich, Autoscheinwerfer wandern vorbei, usw . . Bei vielen herkömmlichen Systemen zur Gesichtsidentifizierung nimmt der Verarbeitungsalgorithmus dann, wenn sich die Beleuchtung bzw. Helligkeit ändert, an, daß sich die Merkmale des Gesichts geändert oder bewegt haben, wodurch sich falsche oder widersprüchliche Ergebnisse einstellen.

Es ist daher eine Aufgabe der vorliegenden Erfindung, ein System und Verfahren zur Gesichtsidentifizierung zu schaffen, das eine rasche Identifizierung eines Gesichts unabhängig von der Farbe der Haut, der Haarfarbe oder anderen mit der Farbe zusammenhängenden Variablen ermöglicht.

Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein System zur Identifizierung von Gesichtern zu schaffen, das bei einem Einsatz im realen Leben, bei dem kontinuierliche Änderungen der Beleuchtung vorliegen, die sich in dem zu identifizierenden Gesicht widerspiegeln können, zuverlässig betreibbar ist.

Diese Aufgabe wird mit den in den unabhängigen Ansprüchen angegebenen Merkmalen gelöst.

Vorteilhafte Ausgestaltungen der Erfindung sind in den Unteransprüchen angegeben.

Die vorliegende Erfindung schafft ein Identifikationssystem und -Verfahren zur Identifizierung des Vorhandenseins eines menschlichen Gesichts in einem Videobild. In diesem System wird eine Videokamera zur Betrachtung einer Szene eingesetzt. Wenn eine Person in die betrachtete bzw. abgebildete Szene eintritt, wird ein Bildrahmen bzw. Einzelbild rasch im Hinblick auf das Vorhandensein eines Gesichts analysiert. Während der Analyse des Einzelbilds wird das Bild hinsichtlich der Auflösung und der Normalisierung verringert, um hierdurch Änderungen der Beleuchtung zu kompensieren. Das modifizierte Einzelbild bzw. Bild wird dann mit einem zuvor konfigurierten Hintergrundbild verglichen, um eine binäre Interessenmaske zu erzeugen. Unter Einsatz der binären Interessenmaske wird die wahrscheinlichste Position eines Gesichts dadurch berechnet, daß die Oberseite, die Unterseite und die Seiten von jeder möglichen Kopfregion in der modifizierten Interessenmaske identifiziert werden. Die identifizierte Kopfregion wird innerhalb eines Randkastens bzw. eines Randrahmens definiert, wobei die Größe und die Eigenschaften des Randrahmens im Hinblick auf die Möglichkeit eines Gesichts analysiert werden. Sobald ermittelt worden ist, daß der Randrahmen ein Gesicht enthalten kann, werden die Daten, die innerhalb des Randrahmens enthalten sind, weiter analysiert.

Bei der Analyse der Daten des Randrahmens werden die Daten erneut normalisiert bzw. standardisiert, um Änderungen der Beleuchtung zu kompensieren. Der Randrahmen wird auch in seiner Größe nochmals auf eine ausgewählte Standardgröße geändert, die an Identifizierungsschablonen bzw. Identifizierungsbilder angepaßt ist, die in einem Speicher gespeichert sind. Sobald die Anpassung hinsichtlich der Größe erfolgt ist, werden die Daten in dem Randrahmen mit verschiedenen Identifikationsschablonen bzw. Identifikationsbildern, die aus dem Speicher stammen, verglichen. Die beste Übereinstimmung mit den Identifikationsbildern wird mit einem Ergebnis bzw. einem Maß oder Wert versehen, der das Ausmaß der Übereinstimmung anzeigt. Wenn das Maß einen vorbestimmten Wert nicht überschreitet, wird angenommen, daß in dem ursprünglichen Bild kein Gesicht vorhanden ist. Wenn aber umgekehrt das Maß bzw. der Wert eine zweite vorbestimmte Schwelle überschreitet, wird angenommen, daß ein Gesicht identifiziert worden ist. In dem Fall, daß das Maß bzw. der Wert nicht unterhalb des ersten Schwellwerts liegt, aber auch nicht oberhalb des zweiten Schwellwerts, wird eine weitere Prozedur zur Augenlokalisierung bezüglich der Daten des Randrahmens durchgeführt. Falls ein Auge lokalisiert wird, wird angenommen, daß ein Gesicht vorhanden ist. Falls kein Auge lokalisiert wird, wird angenommen, daß kein Gesicht vorhanden ist, und es wird ein nachfolgendes Bild analysiert.

Die Erfindung wird nachstehend anhand von Ausführungsbeispielen unter Bezugnahme auf die Zeichnungen näher beschrieben.

Fig. 1 zeigt ein generelles Blockschaltbild, in dem der gesamte Aufbau eines Ausführungsbeispiels des Identifikationssystems gemäß der vorliegenden Erfindung schematisch dargestellt ist;

Fig. 2 zeigt ein Blockschaltbild, in dem die Verfahrensschritte zur Erzeugung einer binären Interessenmaske aus einem Bild bzw. Einzelbild, das von einer Videokamera erhalten wird, schematisch dargestellt sind;

Fig. 3A zeigt die binäre Interessenmaske, die durch die Verfahrensschritte erzeugt wird, die in Fig. 2 dargestellt sind;

Fig. 3B zeigt die binäre Interessenmaske gemäß Fig. 3A, die hinsichtlich Störungen bzw. Rauschen bereinigt ist;

Fig. 3C zeigt die bereinigte, binäre Interessenmaske gemäß Fig. 3B, die hinsichtlich der oberen Grenze eines Randkastens bzw. Randrahmens analysiert ist;

Fig. 3D und 3E zeigen die bereinigte, binäre Interessenmaske, die im Hinblick auf die seitlichen Grenzen des Randkastens analysiert wird;

Fig. 3F zeigt die bereinigte, binäre Interessenmaske, die im Hinblick auf die untere Grenze des Randrahmens analysiert ist;

Fig. 3G zeigt den Randrahmen, der der bereinigten, binären Interessenmaske überlagert ist, und

Fig. 4 zeigt das Verfahren zur Bestimmung des Vorhandenseins eines Gesichts aus bzw. in dem Randrahmen einer Interessenmaske bzw. in Betracht kommenden Maske.

Die vorliegende Erfindung schafft ein System und ein Verfahren zur Erfassung eines Gesichts in einem Videobild und zur Identifizierung des Gesichts dadurch, daß das Gesicht mit einer Schablone bzw. Vorlage, die in einem Speicher gespeichert ist, in Übereinstimmung gebracht wird. Die vorliegende Erfindung kann bei jedem beliebigen System eingesetzt werden, bei dem die Identität einer Person verifiziert werden muß, wie etwa bei einer ATM-Maschine (bzw. einem automatischen Schalterterminal), oder bei jedem beliebigen automatisierten System verwendet werden, bei dem sich die Erkennung des Vorhandenseins eines Gesichts als nützlich erweist.

Wie aus Fig. 1 ersichtlich ist, wird bei dem System und Verfahren zur Gesichtsidentifizierung in Übereinstimmung mit der vorliegenden Erfindung eine Videokamera 12 eingesetzt, die mit einem Bildprozessor gekoppelt ist. Wie im weiteren Text erläutert wird, analysiert der Bildprozessor die Bilder, die von der Videokamera 12 empfangen werden, mit Hilfe einer dreistufigen Prozedur. Als erstes wird das Videobild im Hinblick auf das Vorhandensein einer Person in einem zur Objekterfassung dienenden Aufgabenabschnitt (Subtask) analysiert, der durch den Block 14 veranschaulicht ist. Falls eine Person vorhanden ist, wird das Gesicht der Person in dem Videobild in einem der Gesichtslokalisierung dienenden Aufgabenabschnitt (Subtask) isoliert, der durch den Block 16 veranschaulicht ist. Das isolierte Gesicht wird dann digital mit verschiedenen Gesichtsschablonen bzw. Gesichtsvorlagen 18, die in einem gespeicherten Gedächtnis bzw. in einem Speicher enthalten sind, in einem der Gesichtsidentifizierung dienenden Aufgabenabschnitt (Subtask) verglichen, der durch den Block 20 veranschaulicht ist. Der zur Gesichtsidentifizierung dienende Aufgabenabschnitt bzw. Arbeitsabschnitt führt zunächst rasch eine grobe Gesichtsidentifizierung durch, um hierdurch die Verarbeitungszeit zu verbessern, das heißt zu verringern. Ein komplexerer Prozeß zur Gesichtsidentifizierung wird lediglich dann durchgeführt, wenn die Ergebnisse der groben Gesichtsidentifizierung nicht schlüssig waren. Durch Reduzierung und Aufteilung der Aufgabe (task) der Identifizierung eines Gesichts in drei primäre Aufgabenabschnitte (Untertasks) wird ein System und Verfahren zur Gesichtsidentifizierung geschaffen, das ein Gesicht rasch und genau identifizieren kann.

Der erste Schritt der raschen Objekterfassung, der durch den Block 14 in Fig. 1 dargestellt ist, wird unter Bezugnahme auf Fig. 2 in größeren Einzelheiten erläutert. In Fig. 2 ist dargestellt, daß die Videokamera 12 ein Bild bzw. Bilddaten 22 erzeugt. Bei dem bevorzugten Ausführungsbeispiel muß die Videokamera 12 lediglich eine Schwarz-Weiß-Kamera sein, die ein Bild mit einer mäßigen Auflösung von ungefähr 320 × 240 (Breite x Höhe) erzeugt. Aus Gründen der Vergrößerung der Berechnungsgeschwindigkeit werden die anfänglichen Bilddaten 22 in ihrer Größe bzw. Umfang auf ein Blockbild mit einer sehr viel kleineren Auflösung verringert. Das Blockbild 24 wird dadurch erzeugt, daß Bildelementblöcke, die in den ursprünglichen Bilddaten 22 enthalten sind, einer Mittelwertbildung unterzogen werden. Bei dem bevorzugten Ausführungsbeispiel werden 8 × 8 - Bildelementblöcke einer Mittelwertbildung unterzogen, so daß aus den ursprünglichen 320 × 240 - Bilddaten 22 ein Blockbild 24 mit einer Auflösung von 40 × 30 erzeugt wird. Bei der Erzeugung des Blockbilds 24 wird einer Block-Mittelwertbildung der Vorzug gegenüber einer geradlinigen bzw. direkten Unterabtastung gegeben, und zwar wegen der größeren Störungstoleranz, die durch die Block-Mittelwertbildung hervorgerufen wird.

Wenn das Blockbild 24 erzeugt worden ist, wird das Bild normalisiert bzw. normiert oder skaliert, das heißt standardisiert bzw. vereinheitlicht, um Änderungen zu minimieren, die durch Änderungen des Lichts hervorgerufen werden. Eine Normalisierung bzw. Standardisierung der Beleuchtung wird mittels eines Normalisierungsgradienten vorgenommen. Für die Richtung x in dem Blockbild 24 lautet der Gradient x (x-Gradient) wie folgt:



Hierbei bezeichnet B einen gewählten, konstanten Offset (Offsetabweichung). Bei den bevorzugten Berechnungen wird B als 1 bei einem nicht mit Vorzeichen versehenen Bytebild gewählt. Auch wenn der Normalisierungsgradient nicht für alle Änderungen der Beleuchtung optimal ist, ist das Leistungsvermögen des Normalisierungsgradienten angemessen, und es trägt die Einfachheit seiner Berechnung zu dem raschen Ansprechverhalten des gesamten Systems bei. Nach der Normalisierung bzw. Standardisierung ergibt sich als Ergebnis das Blockbild 24, das Bildelementblöcke aufweist, die entweder als schwarz oder als weiß betrachtet werden können, wodurch Bilddaten bereitgestellt werden, die sich leicht in binärer Form darstellen lassen.

Bei dem System gemäß der vorliegenden Erfindung wird eine feststehende Videokamera 12 eingesetzt. Da die Videokamera 12 feststeht, sind die Bilddaten 30 des Hintergrundbilds, die durch die Videokamera erhalten werden, relativ konstant. Die Bilddaten 30 des Hintergrundbilds werden in ein Blockbild aus dunklen und hellen Bildelementblöcken umgewandelt, und werden digital als eine binäre Sequenz gespeichert. Wenn eine Person in den Bereich bzw. Sichtbereich der Videokamera 12 gelangt, weicht das Bild von dem erwarteten Hintergrundbild ab. Eine binäre Maske 26 wird dadurch erzeugt, daß die im Hinblick auf den Gradienten x normalisierten bzw. standardisierten Blockbilddaten 28 eines jeweiligen Bilds mit den erwarteten Bilddaten 30 des Hintergrundbilds verglichen werden. Falls eine Position in dem abgetasteten Bild eine Änderung eines Schwellwertpegels überschreitet, wird der Wert in der binären Maske 26 für diese Position auf Eins (1) gesetzt. Falls sich eine Position in dem abgetasteten Bild gegenüber dem gespeicherten Hintergrundbild nicht geändert hat oder den für die Änderung festgelegten Schwellwertpegel nicht überschreitet, bleibt die Position in der binären Maske 26 ungesetzt bei Null (0).

Auch wenn ein Bildvergleich unter Heranziehung eines Blockbilds mit Normalisierung bzw. Standardisierung des Gradienten x ausreichend ist, läßt sich das Erfassungsvermögen dadurch verbessern, daß mehr als nur gerade der Gradient x analysiert wird. Zur Erzielung eines verbesserten Leistungsvermögens kann ein zweiter Satz von Blockbilddaten unter Einsatz eines Gradienten für die Richtung y (y-Richtungsgradient) erzeugt werden. Für die Richtung y lautet der Gradient y wie folgt:



Sobald die hinsichtlich des Gradienten y normalisierten bzw. standardisierten Blockbilddaten 32 berechnet sind, wird eine zweite, binäre Maske 34 dadurch erzeugt, daß die hinsichtlich des Gradienten y normalisierten bzw. standardisierten Blockbilddaten 32 mit den Bilddaten 30 des Hintergrundbilds verglichen werden. Falls eine Position in dem abgetasteten Rahmen bzw. Bild einen für die Änderung vorgegebenen Schwellwertpegel überschreitet, wird der Wert in der zweiten binären Maske 34 für diese Position auf Eins (1) gesetzt. Falls sich eine Position in dem abgetasteten Rahmen nicht gegenüber dem gespeicherten Hintergrundbild ändert oder den für die Änderung festgelegten Schwellwertpegel nicht überschreitet, verbleibt die Position in der zweiten binären Maske 34 ungesetzt bei Null (0).

Nach der Berechnung der ersten binären Maske 26 und der zweiten binären Maske 34 wird ein "ODER"-Vergleich 36 Bit für Bit zwischen den Daten durchgeführt, die in den beiden binären Masken 26, 34 enthalten sind. Als Ergebnis des "ODER"-Vergleichs wird eine Interessenmaske bzw. interessierende Maske 38 erzeugt, die Daten enthält, die sowohl hinsichtlich des Gradienten x als auch des Gradienten y normalisiert bzw. standardisiert sind. Da die interessierende Maske 38 aus dem Vergleich der beiden normalisierten Bilder erhalten wird, haben plötzliche Änderungen der Beleuchtung inhärent keine beträchtliche Auswirkung auf die Daten in der interessierenden Maske 38.

Da bei dem System gemäß der vorliegenden Erfindung eine Videokamera 12 eingesetzt wird, können nachfolgende Einzelbilder eines betrachteten Bilds im Hinblick auf das Auftreten einer Bewegung analysiert werden. Eine Bewegungsinformation kann dann zum Beseitigen von Störungen bzw. Rauschen aus der interessierenden Maske 38 eingesetzt werden. Durch eine Bilddifferenzierung, eine Schwellwertverarbeitung und durch andere bekannte Methoden zur Erfassung einer Bewegung in Videobildern kann eine Referenzmaske 40 für eine besondere bzw. eine jeweilige Bildfolge gewonnen werden. Die Referenzmaske 40 wird dann mit der interessierenden Maske 38 unter Einsatz eines "UND"-Vergleichs 42 digital verglichen, um eine abschließende, interessierende Maske 48 zu erzeugen. Der "UND"-Vergleich 42 zwischen den binären Daten der Referenzmaske 40 und der interessierenden Maske 38 führt üblicherweise zur Beseitigung von Störungen bzw. Rauschen in der interessierenden Maske 38, da der größte Teil der Beleuchtungsänderungen subtil bzw. schwach ist und nicht als Änderungen der Bewegung von Bild zu Bild registriert wird. Der "UND"-Vergleich zwischen den Daten der Referenzmaske 40 und der interessierenden Maske 38 ist auch im Hinblick auf die Bereinigung bzw. Beseitigung von Störungen in der interessierenden Maske 38 nützlich, die durch plötzliche Änderungen der Beleuchtung hervorgerufen werden. Eine plötzliche Änderung der Beleuchtung führt zu einem großen Ausmaß der Änderung, das bei einer Analyse von Bild zu Bild als Bewegung erfaßt wird. Als Ergebnis kann eine plötzliche Änderung der Beleuchtung zu einer Referenzmaske 40 führen, die eine Bewegung an allen Punkten anzeigt. Durch die Durchführung eines "UND"-Vergleichs zwischen einer solchen Referenzmaske und der interessierenden Maske 38 ergibt sich, daß die resultierende, abschließende, interessierende Maske die gleiche wie diejenige ist, die sich ergeben würde, falls keine Bewegungsinformation je benutzt worden wäre.

Es wird nun auf die Fig. 3A bis 3G Bezug genommen. Aus diesen Figuren ist ersichtlich, daß nach der Erzeugung der abschließenden, interessierenden Maske 48 diese Maske 48 im Hinblick auf das Vorhandensein eines Gesichts analysiert wird. Eine Lokalisierung des Gesichts wird durchgeführt, indem zunächst ein Begrenzungskasten bzw. Rahmenrand 50 (Fig. 3G) konstruiert wird, von dem angenommen wird, daß das Gesicht in ihm angeordnet ist. Der Begrenzungskasten oder Begrenzungsrahmen 50 wird unter der Annahme aufgebaut, daß die Oberseite und die Seiten des Kopfes unterscheidbare Merkmale sind, die in der abschließenden, interessierenden Maske 48 enthalten sind. Die Fig. 3A bis 3G zeigen die binären Daten, die in der abschließenden, interessierenden Maske 48 enthalten sind, als graphische Bilder, bei denen dunkle Blöcke binäre Einsen (1) und helle Blöcke binäre Nullen (0) sind. Bei dem ersten Schritt bei der Lokalisierung eines Gesichts in der abschließenden, interessierenden Maske 48 wird die ursprüngliche, abschließende, interessierende Maske 48 (Fig. 3A) dadurch gesäubert oder bereinigt, daß einzelne, isolierte, binäre Anomalien, bei denen ein Gesicht nicht möglich ist, beseitigt werden. Das Ergebnis ist eine mit weniger Störungen bzw. Rauschen behaftete, abschließende, interessierende Maske 48, wie es in Fig. 3B gezeigt ist.

Beginnend mit der bereinigten, abschließenden, interessierenden Maske 48 gemäß Fig. 3B wird dann die Oberseite des Begrenzungsrahmens 50 dadurch abgeschätzt, daß die Anzahl von dunklen Blöcken (binäre Einsen) in jeder Zeile der abschließenden, interessierenden Maske gezählt werden. Wenn die Anzahl von dunklen Blöcken in einer Zeile eine zuvor gewählte Größe bzw. einen zuvor gewählten Wert überschreitet, wird angenommen, daß die Zeile der Oberseite des Kopfes entspricht. Wie aus Fig. 3C ersichtlich ist, wird die obere Linie 52 des Begrenzungsrahmens 50 dann auf diese Zeile festgelegt.

Um Abschätzungen für die Seiten des Kopfes einer Person zu erhalten, wird jede Zeile unterhalb der oberen bzw. obersten Linie 52 des Begrenzungsrahmens 50 im Hinblick darauf analysiert, wo die verschiedenen dunklen Blöcke in dieser Zeile beginnen und enden. Aus den Fig. 3D und 3E ist ersichtlich, daß die mittlere Spaltenposition bzw. der Medianwert der Spaltenposition, bei der die dunklen Blöcke beginnen und enden, berechnet wird. Die mittlere Position bzw. Medianwert-Position, bei der die dunklen Blöcke beginnen, wird als die erste Seite 54 (Fig. 3D) des Begrenzungsrahmens 50 bezeichnet, während die mittlere Position bzw. Medianwert-Position, bei der die dunklen Blöcke enden, als die entgegengesetzte Seite 56 (Fig. 3E) des Begrenzungsrahmens 50 bezeichnet bzw. festgelegt wird.

Aufgrund des großen Umfangs der Variation der Größe der Menschen ist die Unterseite des Gesichts in der abschließenden, interessierenden Maske 48 am schwierigsten zu ermitteln. Unter Bezugnahme auf die Fig. 3F und 3G wird eine Schätzung der Unterseite bzw. des unteren Rands des Gesichts dadurch vorgenommen, daß ein sich verengender Punkt bzw. eine sich verengende Stelle in der abschließenden, interessierenden Maske 48 gefunden wird, die der Stelle entspricht, bei der sich der Kopf und die Schultern treffen. Dies erfolgt dadurch, daß die durchschnittliche Anzahl von schwarzen Blöcken für jede Zeile in der oberen Hälfte des Begrenzungsrahmens 50 betrachtet wird. Eine untere Grenze 58 wird dadurch gefunden, daß die Zeile in der abschließenden, interessierenden Maske 48 beginnend von der Unterseite analysiert wird. Die untere Grenze 58 des Begrenzungsrahmens 50 wird dann solange nach oben bewegt, bis sie eine Zeile erreicht, bei der die durchschnittliche Anzahl der dunklen Blöcke in der Zeile niedriger ist als die durchschnittliche Anzahl von dunklen Blöcken in den Zeilen in der oberen Hälfte des Begrenzungsrahmens 50.

Sobald der Begrenzungsrahmen 50 vollständig ist, wird der Begrenzungsrahmen 50 analysiert, um zu ermitteln, ob er angemessen ist oder ob ein weiteres Bild des Videobilds betrachtet werden sollte. Die Beurteilung der Angemessenheit erfolgt auf der Grundlage der Breite des Begrenzungsrahmens 50 und der Anzahl von dunklen Blöcken, die in dem Begrenzungsrahmen 50 enthalten sind. Falls der Begrenzungsrahmen zu klein oder zu groß ist oder zu wenig dunkle Blöcke enthält, wird angenommen, daß kein Gesicht in dem analysierten Rahmen bzw. Bild gefunden wurde, und es wird ein nachfolgendes Bild analysiert.

Nachdem der Begrenzungsrahmen 50 identifiziert worden ist und ermittelt wurde, daß der Begrenzungsrahmen 50 die minimalen Anforderungen erfüllt, werden die Inhalte des Begrenzungsrahmens 50 im Hinblick auf eine grobe Gesichtserkennung analysiert. Unter Bezugnahme auf Fig. 4 wird erläutert, daß die Daten, die in dem Begrenzungsrahmen 50 enthalten sind, mit Daten verglichen werden, die in verschiedenen Identifikationsschablonen bzw. Identifikationsvorlagen 60 enthalten sind, um das Vorhandensein eines Gesichts in dem Begrenzungsrahmen 50 zu bestätigen bzw. verifizieren. Bei dem Vergleichs- Aufgabenabschnitt wird anfänglich nach einer Übereinstimmung mit mehreren größenmäßig geeignet dimensionierten Identifikationsschablonen 60 bei dem Versuch der Bestimmung gesucht, ob überhaupt ein Gesicht in den Daten des Begrenzungsrahmens 50 enthalten ist. Bei dem Vergleichs-Aufgabenabschnitt wird die beste Übereinstimmung zwischen den Daten in dem Begrenzungsrahmen 50 und den Identifikationsschablonen 60 ausgewählt. Die beste Übereinstimmung wird zusammen mit einem Vertrauensmaß bzw. Zuverlässigkeitswerts ausgegeben, das bzw. der anzeigt, in welchem Ausmaß die Identifikationsschablone mit den Daten in dem Begrenzungsrahmen 50 übereinstimmte.

Die Größe des Begrenzungsrahmens 50 ist eine Variable, die von dem Bild, das von der Fernsehkamera aufgenommen wird, und von der Art der Interpretation dieses Bilds durch das System gemäß der vorliegenden Erfindung abhängt. Als Ergebnis müssen die Daten, die in dem Begrenzungsrahmen 50 enthalten sind, vor ihrer Verarbeitung oftmals größenmäßig neu festgelegt werden, bzw. es muß der Begrenzungsrahmen 50 größenmäßig neu festgelegt werden. Damit eine Kompensation im Hinblick auf Änderungen des Lichts erfolgt, wird der Begrenzungsrahmen 50 einer Lichtnormalisierungsprozedur bzw. einer Lichtstandardisierungsprozedur unterzogen, wodurch ein normalisierter bzw. standardisierter Begrenzungskasten oder Begrenzungsrahmen 64 erzeugt wird. Da die Daten, die in dem ursprünglichen Begrenzungsrahmen 50 enthalten sind, durch die Normalisierungsprozedur geändert werden, sind die resultierenden Daten in ihrer Natur nicht länger tatsächlich binär. Während des Normalisierungsvorgangs werden die Daten des Begrenzungsrahmens skaliert, um feine Details zu entfernen, und werden mit einem verstärkten Kontrast versehen. Im Prinzip stellt die Beleuchtungsnormalisierung bzw. -Standardisierung, der der Begrenzungsblock 50 unterzogen wird, eine Variation des Normalisierungsverfahrens dar, das in "A Novel Approach to Lighting Normalization" von Richard Bang, Ming Fang und anderen, SCR Technical Report 95-TR-543, beschrieben ist. Dieser Aufsatz wird hiermit durch Bezugnahme in den Offenbarungsgehalt vorliegender Anmeldung in vollem Umfang miteinbezogen. In diesem Artikel ist eine Tiefpaßfilterstufe mit mehrfacher Auflösung angesprochen. Bei der vorliegenden Erfindung wird die Tiefpaßfilterstufe mit mehrfacher Auflösung (Multi-Auflösung) vor ihrer Vervollständigung angehalten, wodurch sich ein Bild ergibt, das bei geringer Auslösung verbleibt. Eine solche Modifikation verringert die Verarbeitungszeit, die mit der Prozedur verknüpft ist, in erheblichem Ausmaß.

Darüber hinaus wird eine große Skalierungskonstante während der Normalisierung bzw. der Standardisierung eingesetzt, um feine Details zu beseitigen und einen harten Kontrast zu erzielen, wodurch die Daten des Begrenzungsblocks bzw. Begrenzungsrahmens mit gutem Kontrast versehen werden. Aufgrund des verstärkten Kontrasts und der Beseitigung von feinen Details ist der resultierende, normalisierte Begrenzungsrahmen 64 nahezu binärisiert (er weist dunkle Blöcke und helle Blöcke auf), enthält aber dennoch manche Blöcke, die nicht klar kategorisiert werden können. Zur Förderung der Vereinfachung der Berechnung wird der normalisierte Begrenzungsrahmen 64 als ein trinäres Bild (Bild mit drei Pegeln) quantifiziert, bei dem dunkle Regionen mit negativen Einsen (-1) versehen werden, helle Regionen mit Einsen (1) versehen werden, und die undefinierbaren Regionen mit Nullen (0) versehen werden.

Die Identifikationsschablonen 60 werden anhand einer Analyse von mindestens einem als Beispiel dienenden bzw. abgetasteten Gesicht aufgebaut. Da jedoch die Schablone eher ein generelles Gesicht als ein spezielles Gesicht repräsentieren kann, wird eine Mehrzahl von abgetasteten Gesichtern kompiliert oder zusammengestellt, um jede Identifikationsschablone 60 zu erzeugen. Jede Identifikationsschablone enthält eine Zusammenstellung aus Muster- bzw. Probengesichtern oder Vorlagegesichtern mit einer bestimmten, vorab ausgewählten Schablonengröße, wobei jede Identifikationsschablone 60 als ein trinäres Bild ausgebildet ist. Um das trinäre Bild zu schaffen, das eine Identifikationsschablone 60 darstellt, werden die verschiedenen, ausgewählten Gesichter digital miteinander verglichen. Falls sich ergibt, daß eine Schablonenposition bei nahezu allen Beispielsgesichtern bzw. Probengesichtern schwarz ist, wird der Wert der Schablone als eine negative Eins (-1) festgelegt. Falls sich ergibt, daß die Schablonenpositionen bei nahezu allen als Beispiel dienenden Gesichtern weiß ist, wird der Schablonenwert auf Eins (1) festgelegt. Falls jedoch eine Position in der Schablone bei den als Beispiel dienenden Gesichtern nicht konsistent scheint, wird ein Wert von Null (0) zugeordnet. Eine Möglichkeit der Überprüfung oder Ermittlung hinsichtlich dieser Werte der Schablonenpositionen besteht darin, den Mittelwert aus allen als Beispiel dienenden Gesichtern zu ermitteln. Falls der Mittelwert unter einer gewissen, festgelegten Schwelle liegt, wird die Position als eine negative Eins (-1) festgelegt. Falls der Mittelwert im Gegensatz hierzu aber oberhalb einer zweiten Schwelle liegt, wird der Wert auf Eins (1) festgelegt. Alle anderen Mittelwerte zwischen den beiden Schwellwerten werden auf Null (0) festgelegt.

Das trinäre Bild des normalisierten bzw. standardisierten Begrenzungsrahmens bzw. Begrenzungsfelds 64 ist nicht mit den Identifikationsschablonen 60 in einer solchen Weise korreliert, daß sich eine maximale Korrelationsantwort ergibt. Das gesamte Erfassungsvermögen wird dadurch verbessert, daß mehr Information als nur die maximale Antwort eingesetzt wird. Das Leistungsvermögen wird dadurch verbessert, daß die Kreuzkorrektur- Antworten (cross correction responses) zur Übereinstimmung gebracht bzw. miteinander verglichen werden. Dies bedeutet, daß der normalisierte Begrenzungsrahmen 64 mit den Identifikationsschablonen 60 korreliert wird, um ein Antwortbild 70 zu erhalten. In dem Antwortbild 70 als Ergebnis auftretende Muster werden dann analysiert. Als Beispiel kann nach Mustern mit dunkel-hell-dunkel in benachbarten Regionen des Antwortbilds 70 gesucht werden. Die gefundenen Muster werden dann auf der Grundlage des Unterschieds zwischen der hellen Region und der helleren der beiden dunklen Regionen bewertet. Durch Bewerten des Antwortbilds 70 wird für jede der Identifikatiosschablonen 60 eine gesamte Bewertung gebildet. Alle Identifikationsschablonen 60, die eine vorbestimmte Bewertung bzw. einen vorbestimmten Wert überschreiten, werden als Finalteilnehmer gespeichert.

Für jede Identifikationsschablone 60, die als ein Finalteilnehmer ermittelt wurde, werden eine Symmetriebewertung bzw. ein Symmetriewert und ein Maß für die gerade Korrelation (straight correlation) bestimmt. Der Finalteilnehmer mit der höchsten geraden Korrelation wird als übereinstimmend bzw. als Treffer ausgewählt, es sei denn, daß das Symmetriemaß niedrig ist. Falls dies der Fall ist, werden die gerade Korrelation und das Symmetriemaß mit denjenigen des als zweitbester qualifizierten Finalteilnehmers verglichen, um zu ermitteln, welcher die bessere Wahl darstellt. Wenn die beste Identifikationsschablone eine niedrige Bewertung aufweist, wird angenommen, daß in dem Begrenzungsrahmen kein Gesicht vorhanden ist. Falls die Bewertung oberhalb einer vorbestimmten Schwelle liegt, wird angenommen, daß ein Gesicht gefunden worden ist. In dem Fall, daß die Bewertung weder hoch noch niedrig ist, werden jedoch die Daten aus dem Begrenzungsrahmen zu einer Augenerfassungsprozedur geleitet, wie etwa derjenigen, die in der gleichfalls anhängigen, auf Seite 1 bereits angesprochenen und in vollem Umfang in den Offenbarungsgehalt vorliegender Anmeldung einbezogenen deutschen Patentanmeldung "Neurales Netzwerk zur Lokalisierung und Erkennung eines verformbaren Objekts" beschrieben ist. Falls keine Augen erfaßt werden, wird angenommen, daß kein Gesicht vorhanden ist.

Es versteht sich, daß das vorstehend beschriebene und dargestellte Ausführungsbeispiel des erfindungsgemäßen Gesichtserfassungssystems lediglich als Beispiel dient und viele Abänderungen und Modifikationen unter Heranziehung von funktionell äquivalenten Komponenten und/oder alternativen Ausführungsbeispielen vorgenommen werden können. Als Beispiel versteht es sich für den Fachmann, daß unterschiedliche Reduktionsgrößen für das abgetastete Bild eingesetzt werden können.

Es ist somit ein Identifikationssystem und -Verfahren zum Identifizieren des Vorhandenseins eines menschlichen Gesichts in einem Videobild offenbart. Ein von einer Videokamera erhaltenes Bild wird hinsichtlich des Vorliegens eines Gesichts rasch analysiert. Während der Analyse des Bilds wird die Auflösung des Bilds verringert und eine Normalisierung zur Kompensation von Beleuchtungsveränderungen durchgeführt. Das modifizierte Bild wird dann mit einem zuvor aufgebauten Hintergrundbild verglichen, um eine binäre, interessierende Maske zu erzeugen. Unter Heranziehung der binären, interessierenden Maske wird die wahrscheinlichste Position eines Gesichts durch Identifizierung der Oberseite, der Unterseite und der Seiten einer beliebigen, möglichen Kopfregion in der modifizierten, interessierenden Maske berechnet. Die identifizierte Kopfregion wird innerhalb eines Begrenzungsrahmens definiert, dessen Größe und Eigenschaften im Hinblick auf die Möglichkeit eines Gesichts analysiert werden. Sobald ermittelt ist, daß der Rahmen ein Gesicht enthalten kann, werden die in dem Begrenzungsrahmen enthaltenen Daten weiter analysiert. Bei der Analyse der Begrenzungsrahmendaten werden die Daten erneut zur Kompensation der Beleuchtung standardisiert. Der Begrenzungsrahmen wird auch größenmäßig auf eine ausgewählte Standardgröße gebracht, die mit in einem Speicher gespeicherten Identifikationsschablonen übereinstimmt. Nach der Größenanpassung werden die in dem Begrenzungsrahmen enthaltenen Daten mit verschiedenen Identifikationsschablonen aus dem Speicher verglichen. Die beste Überstimmung unter den Identifikationsschablonen wird mit einem Bewertungsmaß versehen, das das Ausmaß der Übereinstimmung anzeigt. Falls das Bewertungsmaß einen bestimmten Bewertungswert nicht überschreitet, wird angenommen, daß in dem ursprünglichen Bild kein Gesicht vorhanden ist. Falls aber das Bewertungsmaß eine zweite vorbestimmte Schwelle überschreitet, wird angenommen, daß ein Gesicht identifiziert worden ist. In der Fall, daß das Bewertungsmaß nicht unterhalb des ersten Schwellwert-Bewertungsmaßes, jedoch auch nicht oberhalb des zweiten Schwellwert-Bewertungsmaßes liegt, wird eine weitere Augenlokalisierungsprozedur bezüglich der Daten des Begrenzungsrahmens durchgeführt.


Anspruch[de]
  1. 1. Identifikationssystem zum Identifizieren eines Gesichts, mit

    einer Videokamera (12) zum Aufnehmen einer Szene und zum Erzeugen mindestens eines Bildrahmens bzw. Bilds der Szene,

    einer Lokalisierungseinrichtung zum Lokalisieren einer Zielregion in dem Bild,

    die ein Bild des Gesichts enthalten kann,

    einer Speichereinrichtung zum Speichern von Identifikationsschablonen (60) von Gesichtern, und

    einer Vergleichseinrichtung zum Vergleichen der Zielregion mit den Identifikationsschablonen, wobei ein Gesicht identifiziert wird, wenn das Bild in der Zielregion mit einer der Identifikationsschablonen im wesentlichen übereinstimmt.
  2. 2. System nach Anspruch 1, gekennzeichnet durch eine Einrichtung zum Unterscheiden oder Erkennen des Umrisses einer Person in der Szene, wobei die Zielregion den Kopf der Person in der Szene enthält.
  3. 3. System nach Anspruch 1 oder 2, gekennzeichnet durch eine Einrichtung zum Normalisieren des mindestens einen Bilds im Hinblick auf Beleuchtungsänderungen.
  4. 4. System nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Lokalisierungseinrichtung zur Lokalisierung einer Zielregion eine Einrichtung zum Identifizieren einer oberen Grenze (52) der Zielregion aufgrund eines Vergleichs von Bildelementblöcken, die in Zeilen des Bilds enthalten sind, mit einem Schwellwert-Zahlenwert aufweist.
  5. 5. System nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Lokalisierungseinrichtung zur Lokalisierung der Zielregion eine Einrichtung zum Identifizieren von Seitengrenzen der Zielregion aufgrund einer Bestimmung einer mittleren Position der Bildelementblöcke, die in den Zeilen des Bilds enthalten sind, aufweist.
  6. 6. System nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Lokalisierungseinrichtung zur Lokalisierung der Zielregion eine Einrichtung zum Identifizieren einer unteren Grenze (58) durch Mittelwertbildung der Anzahl von Bildelementblöcken, die in jeder Zeile der Zielregion enthalten sind, und durch Identifizieren einer Zeile mit einer Anzahl von Bildelementblöcken unterhalb des Durchschnitts aufweist.
  7. 7. Verfahren zum Identifizieren eines Gesichts, mit den Schritten:

    Erzeugen eines Bilds einer Szene mit einer vorbestimmten Auflösung von Bildelementen,

    Lokalisieren einer Zielregion in dem Bild, die das Bild eines Gesichts enthalten kann,

    Vergleichen der Zielregion des Bilds mit mindestens einer Identifikationsschablone, und

    Ermitteln, ob die Zielregion mit der mindestens einen Identifikationsschablone signifikant übereinstimmt.
  8. 8. Verfahren nach Anspruch 7, gekennzeichnet durch den Schritt der Unterscheidung bzw. Erkennung des Umrisses einer Person in der Szene, wobei die Zielregion den Kopf der Person in der Szene enthält.
  9. 9. Verfahren nach Anspruch 7 oder 8, dadurch gekennzeichnet, daß der Schritt der Erzeugung des Bilds das Aufnehmen der Szene durch eine Videokamera enthält, wobei das Bild ein elektronisches, durch die Videokamera erzeugtes Bild ist.
  10. 10. Verfahren nach Anspruch 7, 8 oder 9, gekennzeichnet durch den Schritt der Verringerung der vorbestimmten Auflösung.
  11. 11. Verfahren nach einem der Ansprüche 7 bis 10, gekennzeichnet durch den Schritt der Normalisierung bzw. Standardisierung des Bilds hinsichtlich Änderungen der Beleuchtung.
  12. 12. Verfahren nach einem der Ansprüche 7 bis 11, gekennzeichnet durch den Schritt der Normalisierung bzw. Standardisierung des Bilds mit einem Gradienten x (x-Gradient) zur Erzeugung eines normalisierten bzw. standardisierten x-Gradient- Bilds.
  13. 13. Verfahren nach einem der Ansprüche 7 bis 12, gekennzeichnet durch den Schritt der Normalisierung des Bilds mit einem Gradienten y (y-Gradient) zur Erzeugung eines normalisierten bzw. standardisierten y-Gradient-Bilds.
  14. 14. Verfahren nach Anspruch 13, gekennzeichnet durch den Schritt der Durchführung eines Vergleichs zwischen dem x-Gradient-Bild und dem y-Gradient-Bild zur Erzeugung eines normalisierten Bilds.
  15. 15. Verfahren nach einem der Ansprüche 7 bis 14, gekennzeichnet durch den Schritt der Erzeugung einer Referenzmaske aus einer Bewegungsanalyse von aufeinanderfolgenden Bildern des Objekts, und des Vergleichens der Referenzmaske mit dem Bild.
  16. 16. Verfahren nach einem der Ansprüche 7 bis 15, dadurch gekennzeichnet, daß der Schritt des Vergleichens der Zielregion den Teilschritt des Versehens der mindestens einen Identifikationsschablone mit einer Bewertung enthält, die anzeigt, wie gut die mindestens eine Identifikationsschablone mit der Zielregion übereinstimmt.
  17. 17. Verfahren nach Anspruch 16, dadurch gekennzeichnet, daß der Schritt der Bestimmung, ob die Zielregion mit der mindestens einen Identifikationsschablone signifikant übereinstimmt, den Vergleich der Bewertung mit einem Bewertungsschwellwert enthält.
  18. 18. Verfahren nach einem der Ansprüche 7 bis 17, gekennzeichnet durch den Schritt der Größenveränderung der Zielregion auf eine Standardgröße, die mit der Größe der mindestens einen Identifikationsschablone übereinstimmt.
  19. 19. Verfahren nach einem der Ansprüche 7 bis 18, gekennzeichnet durch den Schritt der Normalisierung bzw. Standardisierung der Zielregion hinsichtlich Veränderungen der Beleuchtung.
  20. 20. Verfahren nach einem der Ansprüche 7 bis 19, gekennzeichnet durch den Schritt der Untersuchung der Zielregion hinsichtlich des Vorhandenseins eines Auges in der Zielregion, falls die Zielregion mit der mindestens einen Identifikationsschablone in einem vorbestimmten Ausmaß übereinstimmt.






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com