PatentDe  


Dokumentenidentifikation DE602005001046T2 03.01.2008
EP-Veröffentlichungsnummer 0001675330
Titel Erkennung von unerwünschten Nachrichten (SPAM) auf Basis des Nachrichteninhalts
Anmelder Lucent Technologies Inc., Murray Hill, N.J., US
Erfinder Cai, Yigang, Naperville, Illinois 60565, US;
Qutub, Shehryar S., Hoffman Estates, Illinois 60194, US;
Sharma, Alok, Lisle, Illinois 60532, US
Vertreter derzeit kein Vertreter bestellt
DE-Aktenzeichen 602005001046
Vertragsstaaten DE, FR, GB
Sprache des Dokument EN
EP-Anmeldetag 15.12.2005
EP-Aktenzeichen 052577053
EP-Offenlegungsdatum 28.06.2006
EP date of grant 02.05.2007
Veröffentlichungstag im Patentblatt 03.01.2008
IPC-Hauptklasse H04L 12/58(2006.01)A, F, I, 20060530, B, H, EP

Beschreibung[de]
Technisches Gebiet

Die vorliegende Erfindung betrifft Verfahren zum Erkennen von Spam-Nachrichten auf der Basis des Inhalts der Nachricht.

Allgemeiner Stand der Technik

Mit dem Aufkommen des Internet ist es leicht geworden, mit geringen oder keinen Kosten für den Absender Nachrichten zu einer großen Anzahl von Zielen zu senden. Die Nachrichten umfassen die Kurznachrichten des SMS-Dienstes. Diese Nachrichten enthalten unerbetene und unerwünschte Nachrichten (Spam), die für den Empfänger der Nachricht, der die Nachricht löschen und bestimmen muß, ob sie von irgendwelcher Bedeutung ist, ärgerlich sind. Ferner sind sie für den Träger des zum Senden der Nachricht verwendeten Telekommunikationsnetzes ärgerlich, nicht nur weil sie mit Bezug auf zornige Kunden, die mit Spam überflutet werden, ein Kundenbeziehungsproblem darstellen, sondern auch weil diese Nachrichten, für die gewöhnlich wenig oder kein Umsatz entsteht, Netzbetriebsmittel benutzen. Eine Veranschaulichung der Ernsthaftigkeit dieses Problems wird durch die beiden folgenden Statistiken gegeben. In China wurden 2003 zwei Trillionen SMS-Nachrichten (Kurznachrichtendienst) über das chinesische Telekommunikationsnetz gesendet; von diesen Nachrichten waren schätzungsweise drei Viertel Spam-Nachrichten. Die zweite Statistik ist, daß in den Vereinigten Staaten schätzungsweise 85–90% der E-Mail-Nachrichten Spam sind.

Es wurden mehrere Anordnungen vorgeschlagen, um die Anzahl der abgelieferten Spam-Nachrichten zu verringern, und viele wurden implementiert. Es wurden viele Anordnungen vorgeschlagen, um Nachrichten vor ihrer Ablieferung zu analysieren. Gemäß einer Anordnung wird, wenn der anrufende Teilnehmer nicht zu einer vom Anrufer spezifizierten vorgewählten Gruppe gehört, die Nachricht blockiert. Spam-Nachrichten können auch abgefangen werden, indem man es einem angerufenen Teilnehmer erlaubt, zu spezifizieren, daß keine Nachrichten abgeliefert werden sollen, die für mehr als N Ziele bestimmt sind.

Ein angerufener Teilnehmer kann sich weigern, seine Telefonnummer oder E-Mail-Adresse zu publizieren. Zusätzlich zu den offensichtlichen Nachteilen, es Anrufern nicht zu erlauben, die Telefonnummer oder E-Mail-Adresse des angerufenen Teilnehmers nachzuschlagen, sind solche Anordnungen wahrscheinlich ineffektiv. Ein schlauer Hacker kann eine nicht aufgelistete E-Mail-Adresse aus dem IP-Netz erkennen, indem er zum Beispiel Nachrichtenkopfteile in einem Router überwacht. Eine nicht aufgelistete angerufene Nummer lädt den Anrufer dazu ein, Nachrichten zu allen zehntausend Telefonnummern eines Vermittlungsstellencodes zu senden; wie bereits erwähnt, ist dies mit derzeitigen Anordnungen zum Senden von Nachrichten zu mehreren Zielen sehr leicht.

Zu den schwerer zu fassenden Spam-Nachrichten gehören widerwärtige Nachrichten für pornographische Zwecke oder zum Übermitteln unerwünschter Werbung zu den Empfängern. Häufig können solche Nachrichten nur durch Untersuchung des Inhalts der Nachricht abgefangen werden, da die Absender möglicherweise viele harmlose Nachrichten von derselben Quelle senden. Ein Hauptproblem der Spam-Erkennung besteht darin, Spam auf der Basis des Inhalts der Nachricht zu erkennen.

Die Patentschrift WO 00/26795 (JUSTSYSTEM Pittsburgh Research Center, M. Kantrowitz et al.; 11.05.2000) beschreibt Anordnungen, die aus einem Begriffslexikon jedem Begriff eines Dokuments ein Gewicht zuweisen, das Gewicht mit der Anzahl des Auftretens multiplizieren und durch die Gesamtzahl der Wörter oder die Anzahl einzigartiger Wörter dividieren, um eine Bewertung abzuleiten, die die Möglichkeit darstellt, daß ein Dokument eine Junk-Nachricht repräsentieren kann.

Die Patentschrift WO 2004/061698 (Activestate Corporation, I. Dougherty et al.; 22.07.2004) beschreibt Anordnungen zum Erkennen von Spam-Nachrichten auf der Basis von Spam-Merkmalen. Die Merkmale dienen zum Ableiten von Klassifikationsinformationen zur Analyse von Nachrichten, um zu bestimmen, ob eine Nachricht eine Spam-Nachricht ist.

Kurzfassung der Erfindung

Gemäß der Erfindung der Anmelder wird das obige Problem gelöst und ein Fortschritt gegenüber dem Stand der Technik erzielt, wobei verdächtige Nachrichten auf die Anwesenheit bestimmter Eigenschaften, wie zum Beispiel Schlüsselwörter, und auf die Häufigkeit solcher Eigenschaften analysiert werden; jeder Eigenschaft wird ein entsprechender Spam-Index gegeben, eine Größe, die praktisch statisch ist und vordefiniert und provisioniert wird und vorteilhafterweise hängt ein Gewichtungsfaktor, der sich dynamisch ändert, von dem Verkehrsvolumen und Nachrichten-Inhaltstypen ab. Nachrichten werden auf jede Eigenschaft hin untersucht, deren Häufigkeit der Verwendung eine Schwelle übersteigt; auf vorbestimmte Kombinationen von Eigenschaften, deren kombinierte Verwendung eine Schwelle übersteigt; und auf alle Eigenschaften, deren kombinierte Verwendung eine Schwelle übersteigt. Gemäß einem Merkmal der Erfindung der Anmelder kann der Gewichtungsfaktor jeder Eigenschaft dynamisch eingestellt werden, um eine Anpassung an die Ergebnisse einer Untersuchung verdächtiger Nachricht durch einen menschlichen Analysierer zu erreichen. Vorteilhafterweise kann der Detektionsprozeß durch die Verwendung eines menschlichen Analysierers lernen.

Kurze Beschreibung der Zeichnung(en)

1 zeigt die Funktionsweise der Erfindung der Anmelder; und

2 ist ein Flußdiagramm der Erfindung der Anmelder.

Ausführliche Beschreibung

1 zeigt die Funktionsweise der Erfindung der Anmelder. Eine Quelle 1 möchte eine Nachricht zu einem Ziel 2 senden. Die Nachricht wird zu einem Netz 3 gesendet, das erkennt, daß es sich hierbei um eine Spam-Nachricht handelt, aber um eine solche, die zur Bestimmung Nachrichteninhaltsanalyse erfordert. Das Netz 3 leitet die Nachricht zu einem Nachrichtenanalysator 10. Wenn der Nachrichtenanalysator schließt, daß dies keine Spam-Nachricht ist, wird die Nachricht über das Netz 4 zu dem Ziel 2 gesendet.

Der Nachrichtenanalysator 10 enthält Tabellendaten 14 von Eigenschaften, einen Härteindex für jede Eigenschaft, einen Gewichtungsfaktor für jeden Härteindex und eine Härteindexschwelle für die Eigenschaft.

Eine Spam-Eigenschaft ist ein Wort, eine Phrase, ein Satz, ein Bild oder ein Videosegment, das ein möglicher Indikator einer Spam-Nachricht ist. Das Wort „Madam" ist ein Beispiel. Für jede in der Nachricht auftretende Eigenschaft wird ein Produkt der Anzahl, wie oft die Eigenschaft auftritt, des Härteindex und des Gewichtungsfaktors berechnet, um ein Härteniveau abzuleiten. Die Härteniveaus dienen zur Bestimmung, ob die Nachricht als Spam-Nachricht zu behandeln ist.

Der Härteindex und die Härteschwelle werden relativ konstant gehalten, aber der Gewichtungsfaktor kann als Reaktion auf Nachrichten von einem Spam-Dienstbüro 15 geändert werden, als Reaktion auf die Erkennung in dem Büro spezieller Problembereiche (um den Gewichtungsfaktor zu vergrößern) oder von Bereichen, in denen sehr wenig Spam-Aktivität bestand (um den Gewichtungsfaktor zu reduzieren).

Der Nachrichtenanalysator nimmt den Inhalt der Nachricht und sucht nach vorgespeicherten Eigenschaften, wie zum Beispiel den Wörtern „Madam" und „Lovers". Für jede vorgespeicherte Eigenschaft besteht ein Gewichtungsfaktor, um anzuzeigen, wie stark diese Eigenschaft gewichtet werden soll, um zu einem Härteniveau zu kommen. Nachrichten, deren Härteniveau eine vorbestimmte Schwelle übersteigt, werden blockiert und können für weitere menschliche Analyse gespeichert werden.

2 ist ein Flußdiagramm der Funktionsweise der Spam-Prüfung der Anmelder. Eine ankommende Nachricht wird empfangen und zur Spam-Analyse gepuffert (Aktionsblock 201). Die Spam-Tabellendaten werden erhalten, um den Spam-Härteindex für Eigenschaften der Nachricht zu berechnen (Aktionsblock 203). Die Spam-Analyse kehrt für Nachrichteneigenschaften der Nachricht zu dem Spam-Härteindex zurück (Aktionsblock 205). Dienstlogik füllt eine Analyse-Tabellenkalkulation mit dem Härteindex für jede Eigenschaft und erhält das verteilte Spam-Härteindexprofilmuster (Aktionsblock 207). Die Prüfung 209 prüft, ob der Härteindex einer einzelnen die Schwelle für diese Eigenschaft übersteigt. Wenn etwaige die Grenze übersteigen (nachfolgend zu beschreibender Aktionsblock 221), erfolgt der Eintritt. Andernfalls erfolgt der Eintritt in die Prüfung 211, um zu prüfen, ob etwaige Muster des Härteindex eine Schwelle übersteigen. Wenn etwaige die Schwelle für das Muster übersteigen, erfolgt der Eintritt in den Aktionsblock 221. Andernfalls wird unter Verwendung aller Eigenschaften oder aller Eigenschaften, deren Härteindex eine Schwelle übersteigt, ein aggregierter Spam-Härteindex berechnet (Aktionsblock 213). Wenn dieser aggregierte Index eine Oberschwelle übersteigt (Prüfung 215), ist die Nachricht schwarz. Wenn er kleiner als eine Unterschwelle ist (Prüfung 216), ist die Nachricht weiß. Für andere Nachrichten bestimmt man mit der Prüfung 217, ob die Nachricht einer menschlichen Analyse unterzogen werden soll. Wenn nicht, wird die Nachricht zu seinem Ziel weitergeleitet (Aktionsblock 223). Wenn sie für menschliche Analyse ausgewählt wurde, wird die Nachricht zu einem Dienstbüro gesendet (Aktionsblock 218). Das Ergebnis der menschlichen Untersuchung (Prüfung 219) bestimmt entweder ein zufriedenstellendes Ergebnis, und die Nachricht wird weitergeleitet (Aktionsblock 223), oder ein unzufriedenstellendes Ergebnis, und die Nachricht wird als Spam behandelt und den Funktionen des Aktionsblocks 221 unterzogen.

Aktionsblock 221 speichert gegebenenfalls die Spam-Nachricht, speichert eine aktualisierte Spamfilter- und regeldienstdatenbank, die durch die menschliche Untersuchung abgeleitet wurde, und aktualisiert den Spam-Härtegewichtsfaktor und die Indexobergrenze, und fügt gegebenenfalls neue verteilte Spam-Muster hinzu.

Die obige Beschreibung beschreibt eine bevorzugte Ausführungsform der Erfindung der Anmelder. Durchschnittsfachleuten werden andere Ausführungsformen einfallen, ohne von dem Schutzumfang der Erfindung abzuweichen. Die Erfindung wird nur durch die angefügten Ansprüche beschränkt.


Anspruch[de]
Verfahren zum Erkennen von unerwünschten Spam-Nachrichten in einem Telekommunikationsnetz, mit den folgenden Schritten:

Speichern (14) eines Index, der für jede Eigenschaft einer potentiellen Nachricht vordefiniert ist;

Erkennen und Speichern (10, 11, 201) einer Nachricht, von der verdächtigt wird, daß sie Spam ist;

Ableiten von Eigenschaften der gespeicherten Spam-Nachricht (10, 203);

Berechnen des Produkts der Anzahl, wie oft jede Eigenschaft auftritt, und ihres Index (203);

Bilden eines verteilten Spam-Profils aus den Produkten (207); und

Bestimmen (213, 215), ob das verteilte Spam-Profil den Kriterien für die Klassifizierung einer Nachricht als eine Spam-Nachricht genügt;

dadurch gekennzeichnet, daß

der Schritt des Speicherns (10, 11, 201) ferner den Schritt des Speicherns eines dynamisch einstellbaren Gewichtungsfaktors und einer Grenze für jede Eigenschaft einer potentiellen Nachricht umfaßt; und

der Schritt des Berechnens (203) den Schritt des Berechnens des Produkts der Anzahl, wie oft jede Eigenschaft auftritt, des dynamisch einstellbaren Gewichtungsfaktors und des vordefinierten Index umfaßt.
Verfahren nach Anspruch 1, wobei, wenn irgendein Produkt seine Obergrenze für die Eigenschaft dieses Produkts (209) überschreitet, die assoziierte Nachricht als eine Spam-Nachricht deklariert wird (221). Verfahren nach Anspruch 1, ferner mit den folgenden Schritten:

für mehrere Muster von Eigenschaften wird eine Obergrenze für jedes Muster gespeichert (211); und

wenn die Obergrenze für irgendein Muster überschritten wird, Deklarieren einer Nachricht als Spam-Nachricht (221).
Verfahren nach Anspruch 1, wobei, wenn die Summe aller Produkte für die Nachricht eine vorbestimmte obere Schwelle (213) überschreitet, die Nachricht als eine Spam-Nachricht behandelt wird (221). Verfahren nach Anspruch 1, wobei der Gewichtungsfaktor oder die Obergrenze einer Eigenschaft als Reaktion auf eine Nachricht von einem Servicebüro geändert werden können. Vorrichtung zum Erkennen von unerwünschten Spam-Nachrichten in einem Telekommunikationsnetz, umfassend:

ein Mittel zum Speichern (14) eines Index, der für jede Eigenschaft einer potentiellen Nachricht vordefiniert ist;

ein Mittel zum Speichern (10, 11, 201) einer Nachricht, von der verdächtigt wird, daß sie Spam ist;

ein Mittel zum Ableiten (10, 203) von Eigenschaften der gespeicherten Spam-Nachricht;

ein Mittel zum Berechnen (10, 203) des Produkts der Anzahl, wie oft jede Eigenschaft auftritt, und ihres vordefinierten Index;

ein Mittel (10, 207) zum Bilden eines verteilten Spam-Profils aus den Produkten; und

ein Mittel (10, 213, 215) zum Bestimmen, ob das verteilte Spam-Profil den Kriterien für die Klassifizierung einer Nachricht als eine Spam-Nachricht genügt;

dadurch gekennzeichnet, daß

das Mittel zum Speichern (14) ferner ein Mittel zum Speichern eines dynamisch einstellbaren Gewichtungsfaktors und einer Grenze für jede Eigenschaft einer potentiellen Nachricht umfaßt; und

das Mittel zum Berechnen (10, 201) ein Mittel zum Berechnen des Produkts der Anzahl, wie oft jede Eigenschaft auftritt, des dynamisch einstellbaren Gewichtungsfaktors und des vordefinierten Index umfaßt.
Vorrichtung nach Anspruch 6, ferner mit einem Mittel zum Behandeln der assoziierten Nachricht als eine Spam-Nachricht (10, 211), wenn irgendein Produkt seine Obergrenze für die Eigenschaft dieses Produkts (10, 209) überschreitet. Vorrichtung nach Anspruch 6, ferner umfassend: ein Mittel, das für mehrere Muster von Eigenschaften eine Obergrenze für jedes Muster speichert (10, 211); und ein Mittel zum Behandeln einer Nachricht als eine Spam-Nachricht (10, 221), wenn die Obergrenze für irgendein Muster überschritten wird. Vorrichtung nach Anspruch 6, ferner mit einem Mittel zum Behandeln der assoziierten Nachricht als eine Spam-Nachricht (10, 211), wenn die Summe aller Produkte für die Nachricht eine vorbestimmte obere Schwelle (10, 213) überschreitet. Vorrichtung nach Anspruch 6, ferner mit einem Mittel (10) zum Ändern des Gewichtungsfaktors oder der Obergrenze einer Eigenschaft als Reaktion auf eine Nachricht von einem Servicebüro (15).






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

  Patente PDF

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com