PatentDe  


Dokumentenidentifikation DE102005028252A1 28.12.2006
Titel Verfahren zur rechnergestützten Verarbeitung von digitalen Daten
Anmelder Siemens AG, 80333 München, DE
Erfinder Tresp, Volker, Dr., 81739 München, DE;
Yu, Kai, 81739 München, DE;
Yu, Shipeng, 81737 München, DE
DE-Anmeldedatum 17.06.2005
DE-Aktenzeichen 102005028252
Offenlegungstag 28.12.2006
Veröffentlichungstag im Patentblatt 28.12.2006
IPC-Hauptklasse G06F 17/10(2006.01)A, F, I, 20051017, B, H, DE
IPC-Nebenklasse G06F 15/18(2006.01)A, L, I, 20051017, B, H, DE   
Zusammenfassung Die Erfindung betrifft ein Verfahren zur rechnergestützten Verarbeitung von digitalen Daten, insbesondere zur Verwendung in einem Verfahren zum maschinellen Lernen, wobei die digitalen Daten eine Anzahl von Objekten beinhalten, wobei jedes Objekt einen mehrdimensionalen Merkmalsvektor (xi) mit digitalen Dateneinträgen umfasst und wobei jedem Merkmalsvektor (Xi) wenigstens ein ein- oder mehrdimensionaler Ausgabevektor (yi) mit digitalen Dateneinträgen zugeordnet ist, bei dem:
a) eine Projektion berechnet wird, mit der die Merkmalsvektoren (xi) und die Ausgabevektoren (yi) in einen latenten Vektorraum projiziert werden, wobei die Projektion ein Rekonstruktionsfehlermaß optimiert, welches von dem Unterschied zwischen den Ausgabevektoren (yi) und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren abhängt;
b) mit der in Schritt a) berechneten Projektion Merkmalsvektoren (xi) in den latenten Vektorraum projiziert werden, wodurch modifizierte digitale Daten erhalten werden.

Beschreibung[de]

Die Erfindung betrifft ein Verfahren zur rechnergestützten Verarbeitung von digitalen Daten, welches insbesondere zur Verwendung in einem Verfahren zum maschinellen Lernen dient.

Auf dem Gebiet der Informationstechnologie gibt es eine Vielzahl von Verfahren zum maschinellen Lernen, mit denen rechnergestützt ein System aus Objekten, welche in der Form von digitalen Daten vorliegen, verarbeitet wird, um hierdurch Gesetzmäßigkeiten in den Objekten zu erkennen, so dass auch die Eigenschaften neuer Objekte in dem System beurteilt werden können. Ein typischer Anwendungsbereich des maschinellen Lernens ist die Mustererkennung in digitalen Daten, beispielsweise die Extraktion von Merkmalen aus digitalisierten Dokumenten oder Bildern.

Maschinelle Lernverfahren werden üblicherweise mit Trainingsdaten trainiert, welche die durch Merkmalsvektoren charakterisierten Objekte umfassen, denen wiederum Ausgabevektoren zugeordnet sind. Ein trainiertes Verfahren kann dann Ausgabevektoren von neuen Objekten oder fehlende Dateneinträge in Ausgabevektoren von bekannten Objekten vorhersagen.

In maschinellen Lernverfahren werden meist in einem Vorverarbeitungsschritt die Merkmalsvektoren der Objekte in einen neuen Raum projiziert, der kompakt, rauschfrei und aussagekräftig sein sollte. Dieser Raum wird im folgenden als latenter Vektorraum bezeichnet. Beispiele von Verfahren, mit denen eine solche Projektion durchgeführt wird, sind das PCA-Verfahren (PCA = Principal Component Analysis), das LDA-Verfahren (LDA = Linear Discriminant Analysis), das CCA-Verfahren (CCA = Canonical Correlation Analysis) und das PLS-Verfahren (PLS = Partial Least Squares).

Aufgabe der Erfindung ist es, ein verbessertes Projektionsverfahren für die Merkmalsvektoren von Objekten zu schaffen, welches eine höhere Genauigkeit bei der Vorhersage von Objekteigenschaften ermöglicht.

Diese Aufgabe wird durch die unabhängigen Patentansprüche gelöst. Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.

In dem erfindungsgemäßen Verfahren wird eine Projektion in einen latenten Vektorraum berechnet, die ein Rekonstruktionsfehlermaß optimiert, das von dem Unterschied zwischen den Ausgabevektoren und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren abhängt. Mithilfe der berechneten Projektion projiziert das Verfahren anschließend Merkmalsvektoren von bekannten und/oder neuen Objekten in den latenten Vektorraum, der die Abhängigkeiten der Ausgabevektoren berücksichtigt. Wie Tests gezeigt haben, können hierdurch Vorhersagen mit sehr hoher Genauigkeit erreicht werden.

In einer bevorzugten Ausführungsform berücksichtigt das Rekonstruktionsfehlermaß zur Berechnung der Projektion nicht nur den Unterschied zwischen den Ausgabevektoren und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren, sondern auch den Unterschied zwischen den Merkmalsvektoren und den mit der Projektion projizierten und anschließend rekonstruierten Merkmalsvektoren.

Vorzugsweise ist in dem erfindungsgemäßen Verfahren die Dimension des latenten Vektorraums kleiner als die Dimension des Vektorraums der Merkmalsvektoren und/oder die Anzahl von Objekten.

In einer weiteren bevorzugten Variante der Erfindung wird zur Berechnung der Projektion folgendes Optimierungsproblem gelöst: wobei V ∈ , X ∈ , A ∈ , Y ∈ , B ∈

wobei VTV = I (I ist die Einheitsmatrix);

wobei X = [x1; ...; xN]T;

wobei xi der i-te Merkmalsvektor mit der Dimension M ist;

wobei Y = [y1; ...; yN]T;

wobei yi der i-te Ausgabevektor mit der Dimension L ist;

wobei A, B die Ladungsmatrizen für X bzw. Y sind;

wobei N die Anzahl an Objekten ist;

wobei K die Dimension des latenten Vektorraums ist; und

wobei &bgr; eine positive reelle Zahl kleiner oder gleich 1 ist, insbesondere &bgr; = 0,5 oder &bgr; = 0,96 oder &bgr; = 1.

Dieses Optimierungsproblem wird in einer weiteren Variante der Erfindung in folgendes Optimierungsproblem umgewandelt: wobei VTV = 1,

wobei K = (1 – &bgr;)XXT + &bgr;YYT,

wobei die Lösung dieser Optimierung gegeben ist durch V = [v1, ..., vK], A = VTX, B = VTY wobei v1 bis vK die Eigenvektoren von K mit entsprechenden, in absteigender Reihenfolge sortierten Eigenwerten sind, wobei die Optimierung rekursiv für jedes vj durch Maximieren des Ausdrucks vTKv mit der Einschränkung vTv = 1 und v ⊥ span{v1, ..., vj–1} gelöst wird.

Um die Ausgabevektoren von neuen, im System noch unbekannten Objekten vorherzusagen, wird in einer bevorzugten Ausführungsform der Erfindung für die Projektion eine Abbildungsfunktion verwendet, welche die digitalen Dateneinträge der Merkmalsvektoren als Variablen enthält, wobei diese Variablen durch die Abbildungsfunktion in den latenten Vektorraum projiziert werden. Die Abbildungsfunktion kann wie folgt lauten oder von folgendem Ausdruck abhängen: &PSgr;j(x) = √&lgr;jwTjx j = 1, ..., K wobei w1, ..., wk ∈ die Eigenvektoren mit den größten K Eigenwerten &lgr;1 ≥ ... ≥ &lgr;K des folgenden Eigenwertproblems sind: XTXw = &lgr;[XTK–1X + &ggr;I]w wobei K =(1 – &bgr;)XXT + YYT und &ggr; ≥ 0, insbesondere &ggr; = 1, gilt.

Alternativ kann die Abbildungsfunktion über Kernel-Funktionen definiert werden, die im Bereich des maschinellen Lernens hinlänglich bekannt sind. Die Abbildungsfunktion lautet dann bzw. hängt dann von folgendem Ausdruck ab: &PSgr;j(x) = √&lgr;j&Sgr;Ni=1(&agr;j)ikx(xi, x) J = 1, ..., K wobei gilt (Kx)i,j = kx(xi, xj) und (Ky)i,j = ky(yi, yj);

wobei (Kx)i,j eine N × N Kernel-Matrix für eine Kernel-Funktion kx(xi, xj) ist und (Kx)i,j eine N × N Kernel-Matrix für eine Kernel-Funktion ky(yi, yj) ist;

wobei K = (1 – &bgr;)Kx + &bgr;Ky

wobei &agr;1, ..., &agr;k ∈ die Eigenvektoren mit den größten K Eigenwerten &lgr;1 ≥ ... ≥ &lgr;K des folgenden Eigenwertproblem sind: K2x&agr; = &lgr;[KxK–1Kx + &ggr;Kx]&agr; wobei &ggr; ≥ 0, insbesondere &ggr; = 1, gilt.

Als Kernel-Funktionen können z.B. Gaußsche RBF-Kernels verwendet werden, welche wie folgt definiert sind: kx(xi, xj) = exp(–∥⁣xi – xj∥⁣2/2&sgr;2) ky(yi, yj) = exp(–∥⁣yi – yj∥⁣2/2&sgr;2)

Die Abbildungsfunktion kann eine lineare oder eine nichtlineare Abbildung der Merkmalsvektoren sein.

Das erfindungsgemäße Verfahren kann ggf. auch auf Merkmalsvektoren angewandt werden, denen jeweils mehrere Typen von Ausgabevektoren zugeordnet sind. In diesem Fall berücksichtigt das Rekonstruktionsfehlermaß den Unterschied zwischen den Ausgabevektoren und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren von jedem Typ von Ausgabevektoren.

Das erfindungsgemäße Verfahren wird vorzugsweise in einem Verfahren zum maschinellen Lernen eingesetzt, bei dem:

  • i) mit dem erfindungsgemäßen Verfahren die Merkmalsvektoren in einen latenten Vektorraum projiziert werden;
  • ii) auf der Basis der in Schritt i) ermittelten projizierten Merkmalsvektoren ein maschinelles Lernverfahren trainiert wird, um anschließend Vorhersagen über Ausgabevektoren von bekannten und/oder neuen Objekten zu ermitteln.

Das maschinelle Lernverfahren basiert vorzugsweise auf Support-Vektor-Maschinen und dient insbesondere zur Mustererkennung und/oder Datenextraktion, insbesondere zur Extraktion von Datenkategorien, in den Objekten. Ein weiterer Anwendungsfall des erfindungsgemäßen Verfahrens ist seine Verwendung in einem Verfahren zum kollaborativen Filtern (engl. "Collaborative Filtering"). Bei diesem hinlänglich aus dem Stand der Technik bekannten Verfahren wird die Bewertung eines bekannten Objekts durch einen Benutzer auf der Basis von Bewertungen von anderen Nutzern vorhergesagt.

Neben den erfindungsgemäßen Verfahren umfasst die Erfindung auch ein Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung der erfindungsgemäßen Verfahren, wenn das Programmprodukt auf einem Rechner abläuft.

Ausführungsbeispiele der Erfindung werden nachfolgend anhand der beigefügten Figuren erläutert.

Es zeigen:

1 den Ablauf einer Ausführungsform des erfindungsgemäßen Verfahrens;

2 den Ablauf einer anderen Ausführungsform des erfindungsgemäßen Verfahrens.

3 Diagramme, welche die Vorhersagequalität eines maschinellen Lernverfahrens unter Verwendung des erfindungsgemäßen Verfahrens zeigen, wobei das Lernverfahren zur Vorhersage von Benutzerpräferenzen verwendet wird; und

4 Diagramme, welche die Vorhersagequalität eines maschinellen Lernverfahrens unter Verwendung des erfindungsgemäßen Verfahrens zeigen, wobei das Lernverfahren zur Vorhersage von Kategorien von Dokumenten und Bildern verwendet wird.

Bevor auf die detaillierte Beschreibung von bevorzugten Ausführungsformen eingegangen wird, werden zunächst folgende Notationen festgelegt, die für die nachfolgende Beschreibung und auch für die Ansprüche gültig sind:

Es werden digitale Daten betrachtet, die N Objekte umfassen. Für i = 1, ..., N wird jedes Objekt i durch einen M-dimensionalen Merkmalsvektor xi ∈ beschrieben, wobei jedem Merkmalsvektor ein L-dimensionaler Ausgabevektor yi ∈ zugeordnet ist. Die digitalen Dateneinträge der Merkmalsvektoren werden als Matrix X = [x1; ...; xN]T ∈ dargestellt und die digitalen Dateneinträge der Ausgabevektoren werden als Matrix Y = [y1; ...; yN]T ∈ dargestellt, wobei [·]T das Transponierte der Matrix darstellt.

Die nachfolgend beschriebenen Verfahren werden zur Lösung von Vorhersage-Problemen verwendet, bei denen für bekannte oder neue Objekte deren entsprechende Ausgabevektoren vorhergesagt werden sollen. Die erfindungsgemäßen Verfahren werden hierbei als Vorverarbeitungsschritt eingesetzt, in dem die Merkmalsvektoren zunächst in einen latenten K-dimensionalen Vektorraum projiziert werden, wobei dieser Vektorraum ein Hilfsvektorraum ist, dessen Dimension vorzugsweise kleiner als die des Vektorraums der Merkmalsvektoren ist. Nach der Projektion können die in den latenten Vektorraum projizierten Daten als Trainingsdaten eines maschinellen Lernverfahrens eingesetzt werden und schließlich können mit dem trainierten Verfahren Vorhersagen getroffen werden.

Im folgenden bezeichnen fettgedruckte kleine lateinische Buchstaben Spaltenvektoren und fettgedruckte große lateinische Buchstaben bezeichnen Matrizen. Der Ausdruck ∥⁣·∥⁣ bezeichnet die Frobeniusnorm für Matrizen und die 2-Norm für Vektoren. Ferner bezeichnet Tr[·] die Spur für Matrizen.

Die im folgenden beschriebenen Ausführungsformen der Erfindung haben gemeinsam, dass sie eine sogenannte überwachte Projektion (supervised projection) in den latenten Vektorraum durchführen, wobei bei einer überwachten Projektion die Dateneinträge der Ausgabevektoren berücksichtigt werden. Demgegenüber wird bei bekannten Projektionsverfahren, wie z.B. dem PCA-Algorithmus (PCA = Principal Component Analysis), nur eine sog. unüberwachte Projektion durchgeführt (unsupervised projection), bei der nur die Dateneinträge der Merkmalsvektoren berücksichtigt werden.

Zur Durchführung der überwachten Projektion wird in allen Ausführungsformen des erfindungsgemäßen Verfahrens eine Optimierung des Rekonstruktionsfehlers durchgeführt, wobei der Rekonstruktionsfehler derart definiert ist, dass er die Abweichung der rekonstruierten projizierten Ausgabevektoren von den ursprünglichen Ausgabevektoren berücksichtigt.

Mathematisch lässt sich das durch die nachfolgend beschriebenen Ausführungsformen gelöste Optimierungsproblem wie folgt formulieren: mit VTV = I,

wobei V ∈ die K-dimensionalen Projektionen sowohl der Merkmalsvektoren X ∈ als auch der Ausgabevektoren Y ∈ darstellen und A ∈ , B ∈ die Ladungsmatrizen sind. 0 < &bgr; ≤ 1 ist ein Einstellparameter, der bestimmt, wie stark die Projektionen durch die Ausgabevektoren beeinflusst werden sollen. Durch die Bedingung VTV = I wird sichergestellt, dass die Variablen im latenten Vektorraum linear unabhängig sind.

Zur Berechnung des obigen Optimierungsproblems (1) macht man sich folgenden Satz 1 zunutze, der von den Erfindern bewiesen wurde:

Satz 1: Falls V, A und B die optimalen Lösungen des Optimierungsproblems (1) sind und falls K = (1 – &bgr;)XXT + &bgr;YYT, dann gilt:

  • (i) A =VTX, B = VTY;
  • (ii) Beim Optimum entspricht die Optimierungsfunktion gemäß Gleichung (1) Tr[K] – Tr[VTKV].

Da der Ausdruck Tr[K] fest ist, kann gemäß Satz 1 das Optimierungsproblem laut (1) als ein Optimierungsproblem nur in Bezug auf V betrachtet werden: wobei VTV = I.

Aus den Gleichungen (1) und (2) ergibt sich die Unbestimmtheit, dass, falls V eine Lösung ist, auch Ṽ = VR eine Lösung ist, wobei R eine beliebige Rotationsmatrix ist. Der folgende Satz 2, der von den Erfindern bewiesen wurde, trägt diesem Umstand Rechnung:

Satz 2: Es wird angenommen, dass [v1, ..., vN] die Eigenvektoren der Matrix K sind und &lgr;1 ≥ ... ≥ &lgr;N die entsprechenden Eigenwerte. Falls Ṽ die Gleichung (2) löst, gilt:

  • (i) Ṽ = [v1, ..., vN]R, wobei R eine beliebige K × K orthogonale Rotationsmatrix ist;
  • (ii) Das Maximum der Optimierungsfunktion gemäß Gleichung (2) ist &Sgr;&lgr;i.

Dieser Satz sagt aus, dass die Eigenvektoren von K eine Lösung des Optimierungsproblems (1) darstellen und jede beliebige Rotation das Optimum nicht verändert. Um die o. g. Unbestimmtheit zu entfernern, werden Lösungen betrachtet, welche den Eigenvektoren von K entsprechen, d. h. V = [v1, ..., vK].

Deshalb kann das Optimierungsproblem gemäß Gleichung (1) auch wie folgt formuliert werden: wobei VTV = 1.

Es sei hierbei angemerkt, das die Lösung des Problems (3) nur den Eigenvektor vl von K liefert. Das volle Optimierungsproblem wird durch rekursive Berechnung von vj durch Maximieren des Ausdrucks vTKv mit der Einschränkung vTv = 1 und v ⊥ span{v1, ..., vj–1} gelöst. Die Gleichung (3) wurde aus Vereinfachungsgründen genannt und weil ihr Lagrange-Formalismus direkt zu dem Eigenwertproblem führt.

Indem die Lagrange-Ableitung auf Null gesetzt wird, erhält man das Eigenwertproblem KV = &lgr;v. Es wird angenommen, dass v1, ..., vN die Eigenvektoren von K mit in absteigender Reihenfolge sortierten Eigenwerten sind. Unter der Verwendung der ersten K Eigenvektoren wird das Optimierungsproblem (1) gelöst durch: V = [v1, ...., vk], A = VTX und B = VTY.

Die Lösung des Problems (3) mithilfe der Eigenwertbestimmung von K stellt eine Ausführungsform der Erfindung dar, welche immer dann eingesetzt werden kann, wenn für bekannte Objekte Vorhersagen über Dateneinträge des entsprechenden Ausgabevektors in Abhängigkeit von Dateneinträgen von Ausgabevektoren von anderen bekannten Objekten getroffen werden sollen. Ein derartige Problemstellung wird auch bei dem kollaborativen Filtern (engl. "Collaborative Filtering") gelöst.

Um die vorliegende Erfindung auch zur Vorhersage von Ausgabevektoren von neuen Objekten zu verwenden, wird gemäß einer bevorzugten Ausführungsform der Erfindung eine lineare Abbildungsfunktion &PSgr;(x) für die Projektion vom Vektorraum der Merkmalsvektoren in den latenten Vektorraum verwendet, wobei x einen Merkmalsvektor mit den Dateneinträgen als Variablen darstellt.

Es wird hierbei folgende lineare Abbildung definiert: V = XW

Somit gilt vi = Xwi für i = 1, ..., K mit W = [w1, ..., wk] ∈ . Durch Einsetzen von v = Xw in Gleichung (3) erhält man folgendes Optimierungsproblem für w: wobei WTXTXW = 1

Indem die Ableitung des Lagrange-Formalismus in Bezug auf w auf Null gesetzt wird, erhält man folgendes verallgemeinertes Eigenwertproblem: XTKXw = &lgr;XTXw(5)

Hierdurch werden M verallgemeinerte Eigenvektoren w1, ..., wM sowie die Eigenwerte &lgr;1≥ .... ≥ &lgr;M ermittelt. Die ersten K Eigenvektoren werden zur Bildung der folgenden Abbildungsfunktion verwendet: &PSgr;j(x) = √&lgr;jwTjx j = 1, ..., K(6)

Somit erhält man als Ergebnis &PSgr;(x)) = [&PSgr;1(x), ..., &PSgr;k(x)]T, wodurch x in den K-dimensionalen latenten Vektorraum abgebildet wird.

Jedoch können – ähnlich wie bei anderen linearen Systemen – die gelernten Abbildungen instabil sein, wenn span{x1, ..., xN} aufgrund einer geringen Anzahl von Objekten oder einer Abhängigkeit der Dateneinträge der Merkmalsvektoren einen geringeren Rang als aufweist. Folglich ändert eine Störung von w mit einem beliebigen w* ⊥ span{x1, ..., xN} nicht die Optimierungsfunktion gemäß Gleichung (6), da (w + w*)Txi = wTxi. Jedoch kann diese Störung erheblichen Einfluss auf die Projektionen von Merkmalsvektoren außerhalb von span{x1, ..., xN} haben. Um die Stabilität zu verbessern, wird w beschränkt.

Unter der Annahme, dass rang(K) = N, ist die Gleichung (3) äquivalent zur Minimierung des Ausdrucks vTK–1v. Durch Einführung der aus dem Stand der Technik bekannten Tikhonov-Regularisierung in das Problem gemäß Gleichung (4) erhält man: mit wTXTXw = 1.

Hierbei ist ∥⁣w∥⁣2 = wTw ein Strafterm, der in der aus dem Stand der Technik bekannten Ridge-Regression verwendet wurde, und &ggr; ist ein Einstellparameter.

Das entsprechende verallgemeinerte Eigenwertproblem lautet dann wie folgt: [XTK–1X + &ggr;I]w = &lgr;~XTXw(8)

Hierdurch erhält man verallgemeinerte Eigenvektoren w1, ..., wM mit Eigenwerten &lgr;~ 1 ≤ ... ≤ &lgr;~ M. Diese Eigenwerte sind in aufsteigender Reihenfolge sortiert, da für die Abbildungsfunktion die K Eigenvektoren mit den kleinsten Eigenwerten verwendet werden.

Der folgende, von den Erfindern bewiesene Satz 3 zeigt, dass der Regularisierungsterm ∥⁣w∥⁣2 die Unbestimmtheit der Abbildungsfunktionen entfernt, indem w auf den Raum span{x1, ..., xN} eingeschränkt wird und hierdurch die Stabilität der Abbildungsfunktionen verbessert wird.

Satz 3: Falls w ein Eigenvektor des verallgemeinerten Eigenwertproblems gemäß Gleichung (8) ist, muss w eine Linearkombination aus xi, i = 1, ....N, sein, nämlich wobei &agr; ∈ .

In dem Problem (8) wird nach Eigenvektoren mit den kleinsten Eigenwerten gesucht, wobei deren Berechnung der instabilste Teil der Lösung des Eigenwertproblems ist. Deshalb wird das Problem (8) in folgendes Problem umformuliert, wobei &lgr; = 1/&lgr;~ : XTXw = &lgr;[XTK–1X + &ggr;I]w(9)

Es wird somit nach den K Eigenvektoren mit den größten Eigenwerten gesucht.

1 zeigt zusammenfassend den Ablauf des soeben beschriebenen Verfahrens, bei dem die Projektion in den latenten Vektorraum mithilfe einer Abbildungsfunktion erfolgt, welche eine lineare Abbildung der Merkmalsvektoren ist.

Zunächst wird in Schritt S1 für vorgegebene Merkmalsvektoren und Ausgabevektoren X ∈ und Y ∈ die Dimension K des latenten Vektorraums sowie ein Wert für &bgr; (der größer als 0 und kleiner bzw. gleich 1 ist) sowie ein Wert für &ggr; (der größer bzw. gleich 0 ist) festgelegt.

In Schritt S2 wird dann die Matrix K wie folgt berechnet: K = (1 – &bgr;)XXT + &bgr;YYT

Schließlich wird im Schritt S3 folgendes verallgemeinerte Eigenwertproblem gelöst: XTXw = &lgr;[XTK–1X + &ggr;I]w

Hierdurch werden Eigenvektoren w1, ..., wK mit den größten K Eigenwerten &lgr;1 ≥ ... ≥ &lgr;K erhalten.

Hieraus wird dann im Schritt S4 die Projektionsfunktion in den latenten Vektorraum wie folgt ermittelt: &PSgr;j(x) = √&lgr;jwTjx.

Im Vorangegangenen wurden lineare Abbildungsfunktionen betrachtet, um die Merkmalsvektoren x in einen latenten Vektorraum zu projizieren. Jedoch impliziert der Satz 3 auch die Verwendung einer nicht-linearen Abbildungsfunktion.

Hierzu werden sog. Kernels betrachtet. Hierbei handelt es sich um eine auf dem Gebiet des maschinellen Lernens hinlänglich bekannte Gruppe von Funktionen, welche ein Skalarprodukt in einem hochdimensionalen Raum darstellen und auf einer Datenmenge eine positiv-semidefinite Kernel-Matrix mit Eigenwerten größer bzw. gleich 0 erzeugen.

Im folgenden wird eine Kernel-Funktion kx(·,·) betrachtet, welche das innere Produkt im Vektorraum der Merkmalsvektoren ist, d.h. kx(xi, xj) = ⟨xi, xj⟩ = xxj.

Mithilfe von Satz 3 ergibt sich dann: v = Xw = XXT&agr; = Kx&agr; wobei Kx die N × N Kernel-Matrix ist, welche folgende Bedingung erfüllt: (Kx)i,j = kx(xi, xj) ∥⁣w∥⁣2 kann mit der Kernel-Matrix wie folgt berechnet werden: ∥⁣w∥⁣2 = wTw = &agr;TXXT&agr; = &agr;TKx&agr;.

Analog kann eine Kernel-Funktion für das innere Produkt im Vektorraum der Ausgabevektoren mit entsprechender Kernel-Matrix Ky = YYT definiert werden. Die Matrix K kann somit unter Verwendung von Kernels definiert werden: K = (1 – &bgr;)Kx + &bgr;Ky(10)

Die Gleichung (7) kann somit wie folgt formuliert werden: wobei &agr;TK&agr; = 1

Hieraus ergibt sich folgendes verallgemeinertes Eigenwertproblem: [KxK–1Kx + &ggr;Kx]&agr; = &lgr;~K2x&agr;(12)

Die Gleichung (12) kann wie folgt umgeschrieben werden, wobei &lgr; = 1/&lgr;~ gilt: K2x&agr; = &lgr;[KxK–1Kx + &ggr;Kx]&agr;(13)

Die ersten K Eigenvektoren werden zur Erzeugung der Abbildungsfunktionen verwendet. Die j-te Abbildungsfunktion (j = 1, ..., K) lautet dann wie folgt: wobei &agr;1, ..., &agr;K die K Eigenvektoren mit den größten Eigenwerten &lgr;1 ≥ ... ≥ &lgr;K sind.

Bis hierhin wurde die zuvor beschriebene Lösung des Optimierungsproblems mit einer linearen Abbildungsfunktion lediglich umformuliert. Durch eine Verallgemeinerung der Kernel-Funktionen auf nicht-lineare Abbildungen kann jedoch auch eine nicht-lineare Abbildungsfunktion zur Projektion in den latenten Vektorraum erhalten werden. Hierzu wird die nicht lineare Abbildung ϕ : x ∈ → ϕ(x) ∈ F definiert, welche einen Merkmalsvektor x in einen hochdimensionalen oder sogar unendlich-dimensionalen Vektorraum F abbildet. Die Matrix X wird gewählt als [ϕ (x1), ..., ϕ (xN)]T. Somit wird die Kernel-Funktion definiert als: kx(xi, xj) = ⟨ϕ(xi), ϕ(xj)⟩

Da weiterhin Kx = XXT gilt, können direkt die Kernel-Funktionen kx(xi, xj) verwendet werden, ohne dass ϕ(·) explizit bekannt ist. Beispielsweise können die in Anspruch 10 definierten Gaußschen RBF-Kernels verwendet werden.

Eine Kernel-Matrix Ky für den Vektorraum der Ausgabevektoren kann analog zu Kx durch eine nicht-lineare Abbildung ϕ(·) definiert werden.

2 zeigt zusammenfassend den Ablauf des soeben beschriebenen Verfahrens, bei dem die Projektion in den latenten Vektorraum mithilfe von Kernel-Funktionen erfolgt, um insbesondere eine nicht-lineare Abbildung der Merkmalsvektoren in den latenten Vektorraum zu ermöglichen.

Zunächst wird in Schritt S1' für vorgegebene Merkmalsvektoren und Ausgabevektoren X ∈ und Y ∈ die Dimension K des latenten Vektorraums sowie ein Wert für &bgr; (der größer als 0 und kleiner bzw. gleich 1 ist) sowie ein Wert für y (der größer bzw. gleich 0 ist) festgelegt.

In Schritt S2' werden die Kernel-Matrizen (Kx)i,j und (Ky)i,j zu vorgegebenen Kernel-Funktionen kx(xi, xj) bzw. ky(yi, yj) bestimmt und anschließend wird die Matrix K wie folgt berechnet: K = (1 – &bgr;)Kx + &bgr;Ky

Sollten Dateneinträge in der Matrix Y fehlen, wird die Matrix Ky wie folgt approximiert: wobei Nl die Anzahl von nicht fehlenden Einträgen in der l-ten Spalte von Y ist und Yl die l-te Spalte von Y ist, wobei die fehlenden Einträge mit 0 aufgefüllt wurden.

Schließlich wird im Schritt S3' folgendes verallgemeinerte Eigenwertproblem gelöst: K2x&agr; = &lgr;[KxK–1Kx + &ggr;Kx]&agr;

Hierdurch werden die Eigenvektoren &agr;1, ..., &agr;K mit den größten K Eigenwerten &lgr;1 ≥ ... ≥ &lgr;K erhalten.

Hieraus wird dann im Schritt S4' die Projektionsfunktion in den latenten Vektorraum wie folgt ermittelt:

Nachfolgend werden zwei Beispiele erläutert, in denen das erfindungsgemäße Verfahren in einem Verfahren zum maschinellen Lernen eingesetzt wird. Das erfindungsgemäße Verfahren wird nachfolgend als MORP-Verfahren (MORP = Multi-Output Regularized Projection) bezeichnet.

Das erste Beispiel betrifft ein Experiment zur Vorhersage der Präferenzen von Benutzern. Es wurden hierbei Gemälde betrachtet, wobei jedes Gemälde durch einen 491-dimensionalen Merkmalsvektor charakterisiert ist. Die Merkmalsvektoren umfassen hierbei jeweils ein Farb-Histogramm (216-dimensional), ein Korrelogramm (256-dimensional), erste und zweite Farb-Momente (9-dimensional) und eine Pyramiden-Wavelet-Struktur (10-dimensional). Es wurden die Beurteilungen von insgesamt 190 Benutzern für 642 Gemälde gesammelt. Jeder Benutzer konnte zwischen den beiden Beurteilungen "Gefallen" und "Nichtgefallen" für eine Anzahl von zufällig ausgewählten Gemälden wählen. Die 190 Beurteilungen von jedem Benutzer stellen somit die Dateneinträge von Ausgabevektoren dar, wobei jeder Ausgabevektor einem Merkmalsvektor (d. h. Gemälde) zugeordnet ist. Durchschnittlich hatte jeder Benutzer 89 Gemälde beurteilt, so dass Dateneinträge in den Ausgabevektoren fehlen. Es handelt sich somit um ein typisches Klassifikationsproblem mit mehreren Ausgaben, da für jedes Gemälde eine Vielzahl von Beurteilungen der Benutzer vorhergesagt werden muss.

Zur Lösung dieses Problems wurde eine maschinelle Lernmethode basierend auf Support-Vektor-Maschinen (SVM) verwendet, wobei in einem Vorverarbeitungsschritt mittels des MORP-Verfahrens die 491-dimensionalen Merkmalsvektoren in einen 20-dimensionalen latenten Vektorraum projiziert wurden. Es wurde hierbei eine Ausführungsform des MORP-Verfahrens eingesetzt, welche eine RBF-Kernel-Funktion für Kx und eine lineare Kernel-Funktion für Ky verwendet. Es wurde &bgr; = 0,5 und &ggr; = 0,001 gewählt. Der Wert von y ist für das Verfahren unkritisch, solange er sehr klein ist. Das MORP-Verfahren wurde hierbei mit einem Kernel-PCA-Verfahren, einem Kernel-CCA-Verfahren sowie einem Verfahren, das die ursprünglichen Merkmalsvektoren verwendet, verglichen.

Zum Trainieren des SVM-Verfahrens wurden für eine Anzahl von Test-Nutzer jeweils 20 Beurteilungen verwendet und anschließend wurden die restlichen Beurteilungen vorhergesagt. Im MORP- und CCA-Verfahren wurden zur Berechnung der Projektion die 190-dimensionalean Ausgabevektoren verwendet, wobei fehlende Einträge mit Nullen aufgefüllt wurden.

Als erste Metrik zur Beurteilung der Vorhersagequalität wurde die sog. Top-N-Genauigkeit verwendet, welche das Verhältnis der tatsächlich in die Kategorie „Gefallen" eingestuften Gemälde zu den N am besten bewerteten Gemälden wiedergibt. Da im Vektorraum der Ausgabevektoren Dateneinträge fehlen, wurde nur der Anteil an bekannten, in der Kategorie „Gefallen" eingestuften Gemälden gezählt. Diese Größe ist kleiner als die tatsächliche Top-N-Genauigkeit. Im vorliegenden Experiment ist die Auswahl der Gemälde, die den Benutzern vorgestellt wurden, zufällig, so dass die Verteilungen von beurteilten/nicht beurteilten Gemälden auch zufällig ist. Die zufällige Auswahl verändert nicht die Verhaltensweisen der betrachteten Verfahren.

Die zweite Metrik ist die sog. ROC-Kurve, bei der in Abhängigkeit von einem festgelegten Einstufungskriterium, ob ein Gemälde als gut oder schlecht angesehen wird (dieses Kriterium kann darüber festgelegt werden, wie viele der am besten bewerteten Gemälde der Kategorie „gutes Gemälde" zugeordnet werden), die Sensitivität (d.h. dass ein gutes Gemälde durch das System empfohlen wird) gegen (1-Spezifität) aufgetragen ist, wobei die Spezifität die Wahrscheinlichkeit wiedergibt, dass ein schlechtes Gemälde vom System zurückgewiesen wird. Je größer die Fläche unter der ROC-Kurve, desto besser ist die Qualität des Algorithmus.

3 zeigt im linken Diagramm den Vergleich der Top-N-Genauigkeiten des MORP-Verfahrens und der o.g. Vergleichsverfahren. Man erkennt, dass das MORP-Verfahren wesentlich bessere Genauigkeiten als die anderen Verfahren liefert. Das rechte Diagramm zeigt die ROC-Kurven für das MORP-Verfahren und die o.g. Vergleichsverfahren. Auch hier erkennt man, dass der MORP-Algorithmus die besten Ergebnisse liefert, da seine Fläche unter der ROC-Kurve am größten ist.

Das zweite Beispiel betrifft die Klassifikation von Objekten, wobei zwei Objektdatensätze verwendet wurden. Der erste Datensatz betrifft Dokumente aus der Textsammlung Reuters-21578, die Fachleuten hinlänglich bekannt ist und in der den Dokumenten eine Vielzahl von Kategorien zugewiesen sind. Der zweite Datensatz betrifft Bilder aus der Corel-Image-Datenbank, die Fachleuten ebenfalls bekannt ist. Den Bildern wurden hierbei manuell Kategorien zugewiesen. In diesem zweiten Beispiel wurde wiederum das SVM-Lernverfahren mit dem MORP-Verfahren sowie mit Vergleichsverfahren (Kernel-PCA und dem Verfahren mit den ursprünglichen Merkmalsvektoren) kombiniert. Die Objekte (d.h. die Dokumente bzw. die Bilder) wurden in zwei Datengruppen S1 und S2 aufgeteilt, wobei die Objekte in S2 bei der Berechnung der Projektion im MORP-Verfahren nicht verwendet wurden. Ferner wurde das MORP-Verfahren für &bgr; = 0,96 und &bgr; = 1 getestet. Im MORP-Verfahren wurde im Falle der Dokumente der Textsammlung eine lineare Kernel-Funktion verwendet, wohingegen bei den Bildern der Corel-Image-Datenbank eine RBF-Kernel-Funktion (mit &sgr; = 25) eingesetzt wurde. Ferner wurde in den MORP-Verfahren in einem 50-dimensionalen latenten Vektorraum projiziert und &ggr; wurde auf 1 gesetzt.

4 zeigt vier Diagramme, welche die Genauigkeiten der mit den Verfahren vorhergesagten Klassifikationen in Abhängigkeit von der Anzahl der Trainigsdaten wiedergeben. Hierbei betreffen die oberen beiden Diagramme die Ergebnisse für die Reuters-Dokumente und die unteren Diagramme zeigen die Resultate für die Corel-Image-Datenbank. Ferner beziehen sich die beiden linken Diagramme auf die Datengruppe S1 und die rechten Diagramme betreffen die Datengruppe S2. Man erkennt, dass das MORP-Verfahrn in vielen Fällen bessere Ergebnisse als die anderen Verfahren liefert, insbesondere für die Bilder der Corel-Image-Datenbank.


Anspruch[de]
Verfahren zur rechnergestützten Verarbeitung von digitalen Daten, insbesondere zur Verwendung in einem Verfahren zum maschinellen Lernen, wobei die digitalen Daten eine Anzahl von Objekten beinhalten, wobei jedes Objekt einen mehrdimensionalen Merkmalsvektor (xi) mit digitalen Dateneinträgen umfasst und wobei jedem Merkmalsvektor (xi) wenigstens ein ein- oder mehrdimensionaler Ausgabevektor (yi) mit digitalen Dateneinträgen zugeordnet ist, bei dem:

a) eine Projektion berechnet wird, mit der die Merkmalsvektoren (xi) und die Ausgabevektoren (yi) in einen latenten Vektorraum projiziert werden, wobei die Projektion ein Rekonstruktionsfehlermaß optimiert und insbesondere minimiert, welches von dem Unterschied zwischen den Ausgabevektoren (yi) und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren abhängt;

b) mit der in Schritt a) berechneten Projektion Merkmalsvektoren (xi) von neuen und/oder bekannten Objekten in den latenten Vektorraum projiziert werden, wodurch modifizierte digitale Daten erhalten werden.
Verfahren nach Anspruch 1, bei dem das Rekonstruktionsfehlermaß ferner von dem Unterschied zwischen den Merkmalsvektoren (xi) und den mit der Projektion projizierten und anschließend rekonstruierten Merkmalsvektoren abhängt. Verfahren nach Anspruch 1 oder 2, bei dem die Dimension des latenten Vektorraums kleiner als die Dimension des Vektorraums der Merkmalsvektoren (xi) und/oder die Anzahl von Objekten. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Optimierung des Rekonstruktionsfehlermaßes zur Berechnung der Projektion wie folgt lautet: wobei V ∈ , X ∈ , A ∈ , Y ∈ , B ∈

wobei VTV = I;

wobei X = [x1; ...; xN]T;

wobei xi der i-te Merkmalsvektor mit der Dimension M ist;

wobei Y = [y1; ...; yN]T

wobei yi der i-te Ausgabevektor mit der Dimension L ist;

wobei A, B die Ladungsmatrizen für X bzw. Y sind;

wobei N die Anzahl an Objekten ist;

wobei K die Dimension des latenten Vektorraums ist; und

wobei &bgr; eine positive reelle Zahl kleiner oder gleich 1 ist, insbesondere &bgr; = 0,5 oder &bgr; = 0,96 oder &bgr; = 1.
Verfahren nach Anspruch 4, bei dem die Optimierung des Rekonstruktionsfehlermaßes in folgende Optimierung umgewandelt wird: wobei VTV = 1,

wobei K = (1 – &bgr;)XXT + &bgr;YYT,

wobei die Lösung dieser Optimierung gegeben ist durch V = [v1, ..., VK], A = VTX, B = VTY wobei v1 bis vK die Eigenvektoren von K mit entsprechenden, in absteigender Reihenfolge sortierten Eigenwerten sind, wobei die Optimierung rekursiv für jedes vj durch Maximieren des Ausdrucks vTKv mit der Einschränkung vTv = 1 und v ⊥ span{x1, ..., xj–1} gelöst wird.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem eine Abbildungsfunktion (&PSgr;j(x)) für die Projektion verwendet wird, welche die digitalen Dateneinträge der Merkmalsvektoren als Variablen enthält, wobei diese Variablen durch die Abbildungsfunktion in den latenten Vektorraum projiziert werden. Verfahren nach Anspruch 6 in Kombination mit Anspruch 4 oder 5, bei dem die Abbildungsfunktion (&PSgr;j(x)) wie folgt lautet oder von folgendem Ausdruck abhängt: &PSgr;j(x) = √&lgr;jwTjx j = 1, ..., K wobei w1, ..., wk ∈ die Eigenvektoren mit den größten K Eigenwerten &lgr;1 ≥ ... ≥ &lgr;K des folgenden Eigenwertproblems sind: XTXw = &lgr;[XTK–1X + &ggr;I]w wobei K = (1– &bgr;)XXT + &bgr;YYT und &ggr; ≥ 0, insbesondere &ggr; = 1, gilt. Verfahren nach Anspruch 6 in Kombination mit Anspruch 4 oder 5, bei dem die Abbildungsfunktion (&PSgr;j(x)) wie folgt lautet oder von folgendem Ausdruck abhängt: &PSgr;j(x) = √&lgr;j&Sgr;Ni=1(&agr;j)ikx(xi, x) j = 1, ..., K wobei gilt (Kx)i,j = kx(xi, xj) und (Ky)i,j = ky(yi, yj);

wobei (Kx)i,j eine N × N Kernel-Matrix für eine Kernel-Funktion kx(xi, xj) ist und (Ky)i,j eine N × N Kernel-Matrix für eine Kernel-Funktion ky(yi, yj) ist;

wobei K = (1 – &bgr;)Kx + &bgr;Ky

wobei &agr;1, ..., &agr;k ∈ die Eigenvektoren mit den größten K Eigenwerten &lgr;1 ≥ ... ≥ &lgr;K des folgenden Eigenwertproblem sind: K2x&agr; = &lgr;[KxK–1Kx + &ggr;Kx]&agr; wobei &ggr; ≥ 0, insbesondere &ggr; = 1, gilt.
Verfahren nach Anspruch 8, bei dem die Kernel-Funktionen kx(xi, xj) und ky(yi, yj) Gaußsche RBF-Kernels sind, welche wie folgt definiert sind: kx(xi, xj) = exp(–∥⁣xi – xj∥⁣2/2&sgr;2) ky(yi, yj) = exp(–∥⁣yi – yj∥⁣2/2&sgr;2) Verfahren nach Anspruch 6 oder 7, bei dem die Abbildungsfunktion (&PSgr;j(x)) eine lineare Abbildung der Merkmalsvektoren (xi) ist. Verfahren nach Anspruch 8 oder 9, bei dem die Abbildungsfunktion (&PSgr;j(x)) eine nichtlineare Abbildung der Merkmalsvektoren (xi) ist. Verfahren nach einem der vorhergehenden Ansprüche, bei dem jedem Merkmalsvektor (xi) mehrere Typen von Ausgabevektoren (yi) zugeordnet sind, wobei das Rekonstruktionsfehlermaß den Unterschied zwischen den Ausgabevektoren (yi) und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren von jedem Typ von Ausgabevektoren (yi) berücksichtigt. Verfahren zum maschinellen Lernen auf der Basis von digitalen Daten, wobei die digitalen Daten eine Anzahl von Objekten beinhalten, wobei jedes Objekt einen mehrdimensionalen Merkmalsvektor (xi) mit digitalen Dateneinträgen umfasst und wobei jedem Merkmalsvektor (xi) wenigstens ein ein- oder mehrdimensionaler Ausgabevektor (yi) mit digitalen Dateneinträgen zugeordnet ist, bei dem:

i) mit einem Verfahren nach einem der vorhergehenden Ansprüche die Merkmalsvektoren (xi) in einen latenten Vektorraum projiziert werden;

ii) auf der Basis der in Schritt i) ermittelten projizierten Merkmalsvektoren (xi) ein maschinelles Lernverfahren trainiert wird, um anschließend Vorhersagen über Ausgabevektoren (yi) von bekannten und/oder neuen Objekten zu ermitteln.
Verfahren nach Anspruch 13, bei dem das maschinelle Lernverfahren auf Support-Vektor-Maschinen basiert. Verfahren nach Anspruch 13 oder 14, wobei das Verfahren zur Mustererkennung und/oder Datenextraktion, insbesondere zur Extraktion von Datenkategorien, in den Objekten eingesetzt wird. Verfahren nach Anspruch 13 oder 14, wobei das Verfahren zum kollaborativen Filtern eingesetzt wird. Computerprogrammprodukt, mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung eines Verfahrens nach einem der vorhergehenden Ansprüche, wenn das Programmprodukt auf einem Rechner abläuft.






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

  Patente PDF

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com