PatentDe  


Dokumentenidentifikation DE10145176C2 24.12.2003
Titel Verfahren zur Klickpfad-Rekonstruktion sowie Verfahren zur Bestimmung eines Gangunterschieds
Anmelder Examind AG, 86199 Augsburg, DE
Erfinder Behmenburg, Thomas, 41564 Kaarst, DE;
Emde, Werner, Dr., 53844 Troisdorf, DE;
Sablowski, Reinhard, 51381 Leverkusen, DE
Vertreter Grünecker, Kinkeldey, Stockmair & Schwanhäusser, 80538 München
DE-Anmeldedatum 13.09.2001
DE-Aktenzeichen 10145176
Offenlegungstag 24.04.2003
Veröffentlichungstag der Patenterteilung 24.12.2003
Veröffentlichungstag im Patentblatt 24.12.2003
IPC-Hauptklasse G06F 15/173

Beschreibung[de]

Die vorliegende Erfindung betrifft ein Verfahren zur Klickpfad-Rekonstruktion gemäß den Oberbegriffen der Ansprüche 1 und 8 sowie ein Verfahren zur Bestimmung eines Gangunterschieds gemäß dem Oberbegriff des Patentanspruchs 3.

Die Benutzung von Hypertext-Dokumenstrukturen, die insbesondere im Internetdienst World Wide Web vorkommen, erfolgt als Folge von Abruf-Antwort- Interaktionen beim Herunterladen von Dokumenten. Der Benutzer fordert ein Dokument an, das ihm dann von einem sogenannten Dokumentserver geliefert wird. Typischerweise fordert ein Benutzer nicht nur ein einzelnes Dokument an, sondern mehrere Dokumente in Folge. Die Reihenfolge der einzelnen Abrufe sowie die zeitlichen Abstände dazwischen werden als Klickpfade bezeichnet. Aus Klickpfaden kann man einerseits Rückschlüsse über die Dokumentstruktur und die Dokumente sowie andererseits über die einzelnen Benutzer und Benutzergruppen ziehen. Ein Benutzer ist gleichzeitig Empfänger der heruntergeladenen Dokumente, so dass in dieser Anmeldung Benutzer und Empfänger synonym verwendet werden.

In der Praxis müssen solche Klickpfade aus Protokollaufzeichnungen der Dokumentenserver (log files) gewonnen werden.

Die Begriffe Sitzung, Session und Visit werden in der Literatur synonym verwendet, um einen zusammenhängenden Aufenthalt eines Benutzers in einer Hypertext- Dokumentstruktur zu beschreiben. Dabei ist ein Klickpfad genau einer Sitzung zugeordnet. Das heißt umgekehrt, dass eine Sitzung einen Klickpfad umfasst.

Die GB 2 341 955 A beschreibt einen Webseitenbesucheremulator für Belastungstests. Das Verfahren zum Emulieren des Verhaltens von Benutzern umfasst und das Initialisieren einer emulierten Verteilung. Die Verteilung spiegelt von Benutzern getroffene Entscheidungen während eines Aufenthalts auf der Webseite wieder. Es werden zufällig eine Anzahl von Besuchern aus der emulierten Verteilung ausgewählt. Diese Besucher besuchen die Seite, bevor die Emulationssitzung beendet wird.

"Web Mining and its SQL based Parallel Execution" von Masaru Kitsuregawa, et al Proceedings; Webshop an Information Technology for Ritual Enterprises; 29.01.2001 bis 30.01.2001; Gold Coast, Qld., Australia, IEEE; INSPEC Accession Number 6859704 beschäftigt sich mit der Datengewinnung aus Netzen (Web Mining). Diese können in mehrere Kategorien eingeteilt werden. Es können Verknüpfungsregeln oder Folgemuster verwendet oder Protokollaufzeichnungen ausgewertet werden.

Die Protokollaufzeichnungen (log files) eines Dokumentenservers enthalten typischerweise die in Fig. 1 dargestellten Informationen für jeden einzelnen Dokumentenabruf. Feld 1 enthält die Empfängeradresse (IP-Adress). Dies ist die maschinenlesbare Adresse des Benutzers, an die der Dokumentenserver das Dokument übertragen hat. Die Empfängeradresse kann die technische IP-Adresse und/oder auch den über Namendienste (name services) ausgedrückten Hostnamen enthalten. In Feld 2 sind Datum und Uhrzeit eingetragen. Die Gesamtheit von Datum und Uhrzeit wird als Zeitmarke (Timestamp) bezeichnet. Die Zeitmarke gibt je nach Dokumentenservertyp die Zeit der Serveruhr an, zu der die Übertragung angefordert, begonnen oder beendet wurde. Feld 3 enthält die genaue Bezeichnung des angeforderten Dokuments. Diese wird im Fachjargon als URL (uniform resource locator) bezeichnet. Feld 4 enthält den Namen eines referenzierenden Dokuments (Referrer), falls der Benutzer den Dokumentabruf über einen Verweis (Link) in einem anderen Dokument ausgelöst hatte. In Feld 5 wird die Betrachtungssoftware (User Agent) angegeben. Feld 5 enthält typischerweise Hinweise auf Hersteller und Version des zum Abruf des Dokuments verwendeten Programms, das vorzugsweise ein Browser ist sowie auf Betriebssystem und Hardwareplattform des Empfängers.

Wie weiter unten beschrieben wird, kann der Dokumentenabruf ferner Sitzungskennungen wie z. B. Cookies enthalten.

Die Protokollaufzeichnungen liegen für jeden Server in chronologischer Reihenfolge vor. Häufig werden aufgrund der Leistungsauslegung des Anbieters oder aufgrund der Art der gelieferten Dokumente mehrere Dokumentenserver betrieben, die jeweils getrennte Protokollaufzeichnungen führen. So kann beispielsweise ein Server die Dokumente selbst zur Verfügung stellen, während eine anderer Server Werbebanner zur Verfügung stellt.

Die Rekonstruktion von Klickpfaden muss die folgenden Fragen beantworten:

  • - Mit welchem Dokumentabruf beginnt ein Klickpfad?
  • - Welche Dokumente gehören zum Klickpfad?
  • - Mit welchem Dokumentabruf endet der Klickpfad?

Es gibt mehrere herkömmliche Auswertungsverfahren der Protokollaufzeichnungen.

Die Firma Sanesolutions bietet mit ihrem Produkt "NetTracker 5.0 Enterprise" ein Softwarepaket an, um den Verkehr auf einer Vielzahl von Webseiten genau zu analysieren (httpt/ / web.archeve.org/web/20010807143145/http: / / ww.sane.com/products/NecTracker/ent.html).

Herkömmlicherweise wurden Dokumentabrufe auf Basis der Empfängeradresse und der Betrachtungssoftware ausgewertet. Bei diesem Ansatz wird die Klickpfadanalyse im Serverprotokoll so durchgeführt, dass bei gleicher Empfängeradresse und gleicher Betrachtungssoftware die Zugehörigkeit zweier Dokumentabrufe zu einem Klickpfad angenommen wird. Bei unterschiedlicher Empfängeradresse oder unterschiedlicher Betrachtungssoftware wird angenommen, dass die Dokumentabrufe zu unterschiedlichen Klickpfaden gehören, also von unterschiedlichen Empfängern heruntergeladen wurden.

Herkömmlicherweise wurden ferner in heruntergeladenen Dokumenten absichtlich für den Benutzer unsichtbare Graphiken eingebettet und zur Klickpfadanalyse herangezogen. Diese unsichtbaren Graphiken werden als Pixelbilder bezeichnet. Sie werden für jedes abgerufene Dokument individuell eingebunden und stellen beispielsweise weiße Punkte auf weißem Hintergrund dar, um für den Benutzer unsichtbar zu sein. Die Aufzeichnung der Abrufe von so modifizierten Dokumenten enthalten zwar weniger technische Details. Es werden jedoch nur technisch erfolgreiche Dokumentabrufe gelistet, so dass sich die Qualität der so aufgezeichneten Klickpfade erhöht.

Darüber hinaus werden Sitzungskennungen zur Klickpfad-Rekonstruktion verwendet. Es gibt zwei Arten der Vergabe von Sitzungskennungen. Die erste besteht in der Cookie-Setzung (Cookie zu deutsch: süßer Keks oder Plätzchen). Hierbei teilt ein Dokumentenserver der Betrachtungssoftware des Empfängers eine Kennung - nämlich das Cookie - mit, die die Betrachtungssoftware dann bis auf weiteres bei jedem weiteren Dokumentenabruf an den Dokumentenserver übermittelt. Die zweite Art der Kennzeichnung von Sitzungen besteht in der Codierung der Sitzung in den Abruf selbst.

Der Dokumentenserver überprüft bei jedem Abruf eines Dokuments, ob in der Dokumentbezeichnung selbst eine Sitzungskennung mitübermittelt wurde und speichert diese gegebenenfalls. Zur weiteren Auswertung von Cookies kann ein weiteres Feld in den Protokollaufzeichnungen über die Abrufe vorgesehen sein (Fig. 1). Die Codierung der Session in den Abruf selbst kann entweder im Feld 3 für die Dokumentbezeichnung mit eingetragen werden oder von der Dokumentbezeichnung abgetrennt und ebenfalls in einem eigenen Feld gespeichert werden.

Herkömmlicherweise wird ferner eine Klickstromanalyse (click stream analysis) durchgeführt. Hierbei wird nicht mehr ein einzelner Nutzer auf dem Weg durch die Dokumentstruktur betrachtet. Vielmehr wird analysiert, wie viele Nutzer in unmittelbarer Folge erst ein bestimmtes Dokument und dann ein zweites bestimmtes Dokument abgerufen haben. Die so erhaltenen Klickströme stellen aggregierte Klickpfade dar, die insbesondere bei der Analyse des Benutzerverhaltens von populären, also vielbesuchten Seiten hilfreich sind.

Die herkömmlichen Verfahren zur Erstellung von Klickpfaden werden in realen Implementierungen durch Dokumentzwischenspeicherung, Adresswechsel, Wechsel der Sitzungskennungen und Gangungenauigkeiten der Serveruhren erschwert.

Die Dokumentenanforderung eines Benutzers wird nicht in jedem Fall an den Dokumentenserver weitergleitet. Vielmehr prüft die Betrachtungssoftware zunächst, ob das Dokument nicht bereits bei einem früheren Aufruf heruntergeladen wurde und im Computer der Benutzers für eine spätere Verwendung gespeichert wurde. Nur falls das Dokument nicht vorliegt, wird der Abruf des Dokuments an den Server abgeschickt. Darüber hinaus können zwischen dem Computer des Benutzers und dem Dokumentenserver Cache-Server oder Proxy-Server die Dokumentenanforderung aus ihren eigenen Zwischenspeichern erfüllen und deshalb die Anforderung nicht mehr an den Dokumentenserver weiterleiten. Da der Dokumentenserver in diesen Fällen den Abruf nicht protokollieren kann, fehlt ein entsprechender Eintrag in den Protokollaufzeichnungen. Dies führt bei der Auswertung der Dokumentabrufe basierend auf der Empfängeradresse und der Betrachtungssoftware oder basierend auf Sitzungskennungen, dazu, dass in rekonstruierten Klickpfaden einzelne Abrufe fehlen. Bei der Klickstromanalyse entstehen Unterbrechungen im Klickstrom.

Die Netzwerkverbindung des Benutzers zum Dokumentenserver wird häufig so aufgebaut, dass zunächst eine Verbindung zu einem Diensteanbieter hergestellt wird und dieser dann die Anforderung an den Dokumentenserver weiterleitet. Der Diensteanbieter sendet die Abrufe vorzugsweise über einen ihm im Augenblick am wenigsten belastet erscheinenden Datenkanal an den Dokumentenserver. Werden so mehrere Datenkanäle während eines Besuches verwendet, enthält Dokumentenserver dann Dokumentabrufe des gleichen Benutzers, die aber unterschiedliche Empfängeradressen aufweisen. Zwar protokolliert der Diensteanbieter die Kanalzuweisungen, so dass er die gelieferten Dokumente an die eigentliche Empfängeradresse weiterleiten kann. Die Information über die Kanalzuweisungen wird jedoch nicht an den Dokumentenserver übertragen, so dass diese Zusatzinformation nicht für das Erstellen von Klickpfaden herangezogen werden kann. Die Folge ist, dass in den Protokollaufzeichnungen des Dokumentenservers wechselnde Adresse für den gleichen Klickpfad vorkommen. Probleme aufgrund von Adresswechsel können auch in größeren Unternehmen auftreten.

Bei der Erstellung von Klickpfaden aufgrund von Empfängeradresse und Betrachtungssoftware und bei der Auswertung der Abrufe eingebetteter Pixelbilder hat ein Adresswechsel zur Folge, dass ein Klickpfad nicht mehr rekonstruiert werden kann.

Bei der Verwendung von Sitzungskennungen kann es passieren, dass die Kennung während einer Sitzung wechselt. Dies kann beispielsweise durch Löschen des Cookie-Speichers, eine generelle Verweigerung einer Cookie-Annahme oder bei Codierung im Abruf selbst durch manuelle Neuaufrufe der Leitseiten geschehen. Auch Programmierfehler auf der Dokumentenserverseite beim Anlegen der Dokumentenstruktur können zu Neuvergaben von Sitzungskennungen führen. Diese führt bei der Erstellung von Klickpfaden aufgrund mitgeführter Sitzungskennungen dazu, dass bei jedem Kennungswechsel fälschlicherweise ein neuer Klickpfad eröffnet wird.

Die DE 197 33 445 A1 offenbart ein Analysesystem mit einem Analysegerät und einer DV-Einheit. Das Analysegerät umfasst einen Zeitzähler. Die DV-Einheit umfasst ein Zeitnormal. Analyseergebnisse des Analysegeräts werden zusammen mit Zeitwerten des Zeitzählers an die DV-Einheit übertragen und dort verarbeitet, wobei die Zeitwerte durch Vergleich mit dem Zeitnormal in absolute Zeitwerte umgerechnet werden. Der Zeitzähler des Analysegeräts ist weniger genau als das Zeitnormal. Deshalb werden im Analysegerät von der tatsächlichen Zeit abweichende Zeiten aufgezeichnet. Die Abweichungen werden durch den Vergleich mit dem Zeitnormal herausgerechnet.

Werden auf der Anbieterseite mehrere Dokumentenserver eingesetzt, so sind deren Serveruhren im allgemeinen nicht perfekt miteinander synchronisiert. Beim Zusammenführen von Protokollaufzeichnungen verschiedener Server ist es jedoch erforderlich, dass die Abrufe von den unterschiedlichen Servern in eine chronologische Reihenfolge gebracht werden können. Eine mangelhafte Synchronisierung der Serveruhren kann folglich bei der Erstellung von Kickpfaden auf der Empffängeradresse und der Betrachtungssoftware, basierend auf eingebetteten Pixelbildern und basierend auf mitgeführten Sitzungskennungen zu einer fehlerhaften Herstellung von Klickpfaden beim Zusammenführen von Protokollaufzeichnungen unterschiedlicher Server führen.

Es ist die Aufgabe dieser Erfindung, Verfahren für eine zuverlässigere Klickpfad- Rekonstruktion anzugeben.

Diese Aufgabe wird durch Verfahren gemäß den Patentansprüchen 1, 3 sowie 8 gelöst.

Bevorzugte Ausführungsformen sind Gegenstand der abhängigen Ansprüche.

Vorteilhaft an der Berücksichtigung des Gangunterschieds zwischen verschiedenen Serveruhren bei der Klickpfad-Rekonstruktion ist, dass Fehler aufgrund von nicht chronologischen Protokollaufzeichnungen vermieden werden.

Vorteilhaft an der Berechnung des Gangunterschieds von zwei Serveruhren aufgrund von Protokollaufzeichnungen beider Server ist, dass durch den berechneten Gangunterschied nicht nur der tatsächliche Gangunterschied der Serveruhren, sondern vielmehr auch Unterschiede in der auf den Server laufenden Software ausgeglichen werden. Wie oben ausgeführt, kann beispielsweise ein Dokumentenserver die Zeitmarke speichern, zu der die Übertragung angefordert wurde, während der andere Server die Zeitmarke speichert, zu der die Übertragung beendet wurde.

Der Vorteil des Löschens von Einträgen von Empfängern, die nicht in den Protokollaufzeichnungen beider Server vorkommen, ist, dass Speicherplatz und Rechenzeit gespart wird, weil aus solchen Einträgen keine Information über den Gangunterschied der beiden Serveruhren gewonnen werden kann.

Vorteilhaft am Löschen und damit Nichtberücksichtigen von Einträgen, deren Abrufdauer sich um mehr als einen vorgegebenen Schwellwert unterscheidet, ist, dass Einträge aussortiert werden, deren durchschnittliche Zeitpunkte für das Herunterladen sich offensichtlich unterscheiden. Ist die Abrufdauer eines Empfängers auf einem ersten Server länger als auf einem zweiten Server, so kann vermutet werden, dass es Zeiten gibt, während denen dieser Empfänger Dokumente lediglich von einem Server abgerufen hat. Aufgrund dieser Dokumentenabrufe stimmen die durchschnittlichen Zeitpunkte der Abrufe nicht überein.

Vorteilhaft am Aussondern von Daten für Empfängeradressen, deren Abrufdauer größer als ein vorgegebener Schwellwert ist, ist, dass ausschließlich kurze Sitzungen zur Berechnung der Gangunterschiede herangezogen werden. Bei längeren Sitzungen kann es vorkommen, dass am Anfang der Sitzung mehr Dokumente von dem einen Server und am Ende mehr Dokumente vom anderen Server heruntergeladen werden. Hierdurch stimmen die durchschnittlichen Zeitpunkte der Abrufe nicht mehr überein, so dass längere Sitzungen keinen zuverlässigen Anhaltspunkt mehr über den Gangunterschied der Serveruhren liefern.

Falls sich die durchschnittlichen Zeitpunkte der Abrufe in den Protokollaufzeichnungen des einen Servers um mehr als ein vorgegebener Schwellwert unterscheiden, kann vermutet werden, dass der Empfänger zuerst den einen und später den anderen Server besucht hat. Auch in diesem Fall liefern die entsprechenden Einträge in den Protokollaufzeichnungen beider Server keine Information über den Gangunterschied der Serveruhren. Somit ist es gerechtfertigt, auch solche Einträge bei der Berechnung des Gangunterschieds herauszufiltern.

Vorteilhaft an der Kombination von Sitzungskennungen und Kompatibilitätsregeln ist, dass bei der Änderung einer Sitzungskennung nicht automatisch ein neuer Klickpfad begonnen wird. Vielmehr liefern die Kompatibilitätsregeln die Möglichkeit, zusammengehörige Teilklickpfade zusammenzuführen.

Vorteilhaft an der Zuordnung eines Abrufs aufgrund von Kompatibilitätsregeln zu einem Klickpfad, wenn der Abruf keine Sitzungskennung erhält, ist, dass andernfalls der Abruf keinem Klickpfad zugeordnet werden kann.

Vorteilhaft an der Erstellung von Listen über Empfängeradressen von erkennbar zusammengehörenden Klickpfaden ist, dass hierdurch Information über die Kanalzuweisungen bei Diensteanbietern wiedergewonnen und für die Klickpfad- Rekonstruktion nutzbar gemacht wird.

Ein weiteres Kriterium, um Sitzungen zu unterscheiden, bietet die Betrachtungssoftware. Sie muss in einer Sitzung gleich bleiben, da definitionsgemäß ein Empfänger oder Benutzer nicht eine Sitzung an einem Computer beginnen und an einem anderen weiterführen kann. Wird somit festgestellt, dass die Betrachtungssoftware unterschiedlich ist, so handelt es sich auch um unterschiedliche Klickpfade.

Im folgenden wird eine bevorzugte Ausführungsform der Erfindung anhand der beiliegenden Zeichnungen näher erläutert. Dabei zeigen:

Fig. 1 einen Datensatz mit den Daten, die von einem Server typischerweise mindestens für den Abruf eines Dokuments gespeichert werden,

Fig. 2 die Schritte zur Kompensation des Gangunterschiedes zweier Serveruhren,

Fig. 3 ein Flussdiagramm zur Erläuterung der Zuordnung eines Abrufs zu einem Klickpfad,

Fig. 4 eine Regelliste sowie

Fig. 5 ein Flussdiagramm über die Abarbeitung der Kompatibilitätsregeln.

Im folgenden wird erläutert, wie Serveruhren zweier Server synchronisiert werden oder, anders ausgedrückt, wie ihr Gangunterschied kompensiert wird.

Zunächst wird von einer Gruppe von n Servern ausgegangen. Ein Gangunterschied kann jedoch definitionsgemäß nur den Gangunterschied zwischen zwei Servern angeben. Aus diesem Grund wird einer der Server als Referenzserver definiert (22). Die Kriterien für die Auswahl des Referenzservers werden weiter unten angegeben. Im Anschluss wird für jeden anderen Server der Gangunterschied bezüglich des Referenzservers bestimmt. Es werden also insgesamt (n - 1) Gangunterschiede bestimmt. Zuletzt werden die Zeitmarken in den Protokollaufzeichnungen der anderen Server um den jeweiligen Gangunterschied korrigiert.

Die Bestimmung des Gangunterschieds zweier Server erfolgt aufgrund der Protokollaufzeichnungen beider Server. Aus den Protokollaufzeichnungen wird ein zeitlicher Bereich ausgewählt. Dies können beispielsweise die vergangenen 24 Stunden (Std.) sein. Aufgrund der Protokollaufzeichnungen jedes Servers wird für jeden Server in Schritt 23 eine Liste erstellt, in der zu jeder Empfängeradresse die Anzahl der Abrufe, der Durchschnitt aller Zeitmarken sowie die Abrufdauer (spread), also die zeitliche Differenz zwischen den Zeitmarken des frühesten und des spätesten Abrufs eingetragen wird.

In der bevorzugten Ausführungsform wird diese Liste für den Referenzserver nur einmal bei der Berechnung des Gangunterschieds für den ersten anderen Server bestimmt. Für die Berechnung der Gangunterschiede für die weiteren anderen Server wird eine Kopie dieser Liste gespeichert.

Für die Berechnung des Gangunterschieds werden nur die Einträge in der Liste des Referenzservers und der Liste des anderen Servers berücksichtigt,

  • 1. deren Empfängeradressen in beiden Listen vorkommen (25),
  • 2. deren Abrufdauer sich um weniger als 10 Sekunden (s) unterscheidet (26),
  • 3. deren Abrufdauer in jedem Server kleiner als 2 Minuten (min.) ist (24) und
  • 4. deren durchschnittliche Zeitmarken für die beiden Server sich um weniger als 3 Stunden (Std.) unterscheiden (27).

Die Zeitangaben gelten für eine bevorzugte Ausführungsform. Diese können jedoch geändert werden, um das Verfahren an andere Erfordernisse, wie z. B. anderes Benutzerverhalten oder eine andere Antwortzeit auf Abrufe insbesondere aufgrund einer anderen Netzarchitektur (Festnetz, Mobilfunk, UMTS) anzupassen.

Bei einer bevorzugten Implementierung wird das Kriterium 3, wonach die Abrufdauer jedes einzelnen Servers kleiner als 2 min. sein soll, für jede Liste nach ihrer Erstellung geprüft. Die Einträge, die dieses Kriterium nicht erfüllen, werden in allen Listen in Schritt 24 gelöscht. In dieser bevorzugten Implementierung wird erst nach dem Löschen in der Liste des Referenzservers die Kopie erstellt. Der Grund für das Vorziehen dieses Kriteriums liegt darin, dass es für jeden Server unabhängig von den anderen Servern geprüft werden kann.

Anschließend werden in jeder Liste die Einträge in Schritt 25 gelöscht, deren Empfängeradresse nicht auch in der anderen Liste vorkommt. Zuletzt werden in den Schritten 26 und 27 die Einträge gelöscht, die die Kriterien 2 und 4 nicht erfüllen, deren Abrufdauern sich also um mehr als 10 s unterscheiden oder deren durchschnittliche Zeitmarken sich um mehr als 3 Std. unterscheiden. Die Abarbeitung dieser beiden Schritte kann in beliebiger Reihenfolge erfolgen.

Der Grund für das Löschen der Einträge, die nur auf einem Server vorkommen, liegt darin, dass solche Einträge keine Information über den Gangunterschied der Serveruhren enthalten. Der Grund für das Löschen von Einträgen, die lange Abrufdauern, also länger als 2 min. aufweisen, besteht in der Möglichkeit, dass der Benutzer anfangs mehr Dokumente von dem einen Server und später mehr Dokumente von dem anderen Server abgerufen hat, so dass die Durchschnitte der Zeitmarken für die Abrufe nicht den gleichen Zeitpunkt markieren. Dies würde zu einer Verfälschung der Gangunterschiede beitragen.

Eine ähnliche Argumentation gilt für den Ausschluss von Listeneinträgen, deren Abrufdauern sich um mehr als 10 s unterscheiden. In diesem Fall gibt es einen Zeitraum von signifikanter Länge, während dem der Benutzer lediglich Abrufe von einem Server durchgeführt hat. Auch hier markieren die Durchschnitte der Zeitmarken nicht den gleichen Zeitpunkt.

Unterscheiden sich die mittleren Zeitmarken beider Server schließlich stark, also beispielsweise um mehr als 3 Std, so liegt die Vermutung nahe, dass es sich um unterschiedliche Sitzungen des gleichen Empfängers handelt, so dass die Durchschnitte der Zeitmarken auch in diesem Fall nicht den gleichen Zeitpunkt markieren.

Aus den in beiden Listen verbleibenden Einträgen wird für jede Empfängeradresse die Zeitdifferenz zwischen der durchschnittlichen Zeitmarke auf dem Referenzsensor minus der durchschnittlichen Zeitmarke auf dem anderen Server berechnet. Der Gangunterschied wird als arithmetisches Mittel der Zeitdifferenzen berechnet.

Beim Löschen der Einträge kann es vorkommen, dass nur eine sehr geringe Zahl von Einträgen oder im Extremfall kein Eintrag in den beiden Listen verbleibt. In diesem Fall kann die Filterung der Einträge wiederholt werden, wobei beispielsweise die Zeitgrenzen in den Kriterien verdoppelt werden. In einer anderen Implementierung kann jedoch das Verbleiben von zu wenigen oder gar keinen Einträgen dahingehend interpretiert werden, dass sich Benutzer praktisch nicht gleichzeitig auf den Servern bewegt haben. Daraus folgt, dass auch die aus den Protokollaufzeichnungen erstellten Klickpfade nicht sehr verfälscht werden, falls die Serveruhren unzureichend synchronisiert sind. Somit kann man den Gangunterschied bei einem Verbleiben von zu wenigen Einträgen in den Listen den Gangunterschied auf Null setzen.

In einer weiteren Implementierung kann, falls die Bestimmung des Gangunterschieds aufgrund einer zu geringen Anzahl von verbleibenden Einträgen in den Listen nicht möglich ist, die Synchronisierung dieses Servers gegenüber einem anderen Server als dem Referenzserver durchgeführt werden. Der Referenzserver sollte so ausgewählt werden, dass er möglichst viele verbleibende Einträge bei der Synchronisierung mit möglichst vielen Servern aufweist.

Anstelle des oben beschriebenen Löschens von Einträgen in den Listen können die Einträge in einer anderen Implementierung auch lediglich markiert werden, so dass sie bei der weiteren Berechnung des Gangunterschieds außen vor bleiben. Anstelle des Streichens von Empfängeradressen in Schritt 25, die lediglich in einer Liste vorkommen, kann auch eine gemeinsame Liste von Einträgen für beide Server erstellt werden. In dieser Liste können die Einträge nach Empfängeradresse zusammengeführt werden, so dass beispielsweise die zu einer Empfängeradresse gehörenden Daten in eine Zeile der gemeinsamen Liste eingetragen werden und die gemeinsame Liste 5 Spalten, nämlich für die Empfängeradresse, den Durchschnitt aller Zeitmarken vom Referenzserver, die Abrufdauer vom Referenzserver, die durchschnittliche Zeitmarke vom anderen Server sowie die Abrufdauer vom anderen Server enthält. In dieser Liste können dann die Kriterien 2 und 4 schnell überprüft werden und die Einträge gelöscht oder markiert werden, die diese Kriterien nicht erfüllen.

Das Verfahren zur Bestimmung des Gangunterschieds kann auf einem der Server, vorzugsweise dem Referenzserver oder einem dritten Computer, durchgeführt werden.

Nachdem für jeden anderen Server - soweit erforderlich - ein Gangunterschied ermittelt wurde, werden die Protokollaufzeichnungen aller Server zu einer einzigen Protokollaufzeichnung 6 in chronologischer Reihenfolge zusammengeführt. Diese Protokollaufzeichnung besteht aus der Liste aller Abrufe eines Betrachtungszeitraums. Die Abrufe werden vorzugsweise in ihrer chronologischen Reihenfolge nach einem in Fig. 3 dargestellten Verfahren geprüft und einem Klickpfad zugeordnet. In einer bevorzugen Implementierung kann die Zusammenführung der Protokollaufzeichnungen auf einem anderen Computer erfolgen, der dann das anhand von Fig. 3 erläuterte Verfahren durchführt. In einer anderen Implementierung kann das anhand von Fig. 3 dargestellte Verfahren auf einem Server durchgeführt werden, nachdem die Protokollaufzeichnungen auf diesem Server zusammengeführt wurden.

Zunächst wird in Schritt 12 geprüft, ob ein Abruf eine Sitzungskennung enthält. Sitzungskennungen sind Ziffern- oder Buchstabenkombination, die einem Benutzer zum Zweck der Wiedererkennung zugeordnet werden. Je nach Art des Betriebs der Dokumentenserver können die Sitzungskennungen auf verschiedene Weise berücksichtigt werden. Manche Serverbetreiber verwenden Sitzungskennungen, die nur für einzelne Dokumentenserver gelten. Für jeden Server, von dem ein Benutzer heruntergeladen hat, existiert also eine eigene Sitzungskennung. In diesem Fall werden pro Klickpfad mehrere Sitzungskennungen verwaltet. Die Verarbeitung läuft lokal. Werden Sitzungskennungen verwendet, die über die Dokumentenserver hinweg Gültigkeit haben, so kann die Verarbeitung auch global erfolgen.

Ferner wird berücksichtigt, ob der Betreiber die Sitzungskennungen mehr oder weniger zuverlässig verwaltet. Bei der häufig anzutreffenden, weniger zuverlässigen Verwaltung treten innerhalb einer Sitzung häufiger Kennungswechsel auf. In diesem Fall werden die Sitzungskennungen ausschließlich positiv verwendet, d. h. ein Protokolleintrag gilt als zu einem Klickpfad im Zwischenspeicher passend, wenn seine Sitzungskennung bereits in einem früheren Protokolleintrag des Klickpfads verwendet wurde.

Werden die Sitzungskennungen vom Betreiber sehr sorgfältig verwaltet, dann kann die vollständige Nutzung der Sitzungskennung verwendet werden. In diesem Fall gilt ein Protokolldatensatz zusätzlich als ausdrücklich nicht zu einem Klickpfad passend, wenn dieser schon einen Protokolleintrag mit einer anderen Sitzungskennung enthält. Die Überprüfung, zu welchem Klickpfad ein Abruf gehört, der eine Sitzungskennung erhält, erfolgt in Schritt 13. Für jeden Klickpfad ist ein Klickpfadbezeichner 11 vorgesehen. Um die Verarbeitung zu beschleunigen, kann jeder Klickpfad eine Liste verwalten, die die Sitzungskennungen der diesen Klickpfad zugeordneten Abrufe enthält.

Wird in Schritt 12 ermittelt, dass der Abruf keine Sitzungskennung erhält, wird in Schritt 14 versucht, diesen Abruf anhand von Kompatibilitätsregeln einem Klickpfad zuzuordnen. Wird bei einer weniger zuverlässigen Verwaltung der Sitzungskennungen in Schritt 13 kein passender Klickpfad gefunden, so wird ebenfalls in Schritt 14 anhand von Kompatibilitätsregeln geprüft, ob dieser Abruf einem bestehenden Klickpfad zugeordnet werden kann. Die Kompatibilitätsregeln werden anhand von Fig. 4 und 5 näher erläutert. Wird anhand der Kompatibilitätsregeln in Schritt 14 ein passender Klickpfad gefunden, so wird der Abruf diesem zugeordnet. Andernfalls wird ein neuer Klickpfad eröffnet und ein neuer Zwischenspeicher angelegt.

Für jeden Klickpfad wird ein Zwischenspeicher angelegt. Um den verfügbaren Speicher möglichst effektiv zu nutzen, wird ein neuer Zwischenspeicher vorzugsweise erst dann angelegt, wenn in Schritt 14 festgestellt wird, dass ein Abruf einen neuen Klickpfad eröffnet. In einer bevorzugten Implementierung werden für einen Zwischenspeicher und den darin gespeicherten Klickpfad die gleichen Bezeichner (identifier, ID) 11 verwendet.

Nach Abarbeitung eines Abrufs oder einer vorgegebenen Anzahl von Abrufen wird in Schritt 15 für jeden Zwischenspeicher überprüft, ob sich die Zeitmarke des jüngsten Abrufs in einem Klickpfad von der des nächsten zu bearbeitenden Abrufs um mehr als eine vorgegebene Zeitdifferenz unterscheidet. Ist dies der Fall, so wird der Klickpfad abgeschlossen, was in Fig. 3 durch ein Dach dargestellt wird. So stellt insbesondere Klickpfad 1 einen abgeschlossenen Klickpfad dar. In der bevorzugten Implementierung werden alle Zwischenspeicher nacheinander auf Zeitablauf in Schritt 15 geprüft und evtl. abgeschlossen, bevor der nächste Abruf in Schritten 12 bis 14 abgearbeitet wird.

Fachleuten ist jedoch klar, dass die Prüfung des Zeitablaufs 15 unabhängig von den Zuordnungsschritten 12 bis 14 erfolgen kann. Deshalb kann für die Schritte 12 bis 14 ein Prozessor in einem Mehrprozessorcomputer zuständig sein, während ein anderer Prozessor den Zeitablauf in Schritt 15 geprüft. Um beide Vorgänge parallel implementieren zu können, kann vor der Bearbeitung eines Abrufs in Schritt 12 dessen Zeitmarke in einem (nicht dargestellten) Zwischenspeicher gespeichert werden, auf den auch der für die Zeitablaufsprüfung zuständige Prozessor Zugriff hat.

Im folgenden werden die Kompatibilitätsregeln anhand von Fig. 4 und 5 erläutert. Durch die Kompatibilitätsregeln wird versucht, einen Abruf dem richtigen Klickpfad aufgrund seiner Empfängeradresse und/oder seiner Betrachtersoftware zuzuordnen. Aufgrund der oben beschriebenen Probleme durch Adresswechsel auf der Benutzerseite wird nicht scharf auf Gleichheit geprüft, sondern es werden Regellisten abgearbeitet, um Kompatibilitäten festzustellen. Eine solche Regelliste 40 zeigt Fig. 4. Sie besteht in einer bevorzugten Implementierung aus zwei Spalten, von denen eine die Empfängeradressen 41 und die andere die entsprechenden Klickpfadbezeichner 42 speichert. Eine solche Regelliste wird anhand von vorher analysierten Klickpfaden erstellt. Es wird von Zeit zu Zeit ermittelt, welche Empfängeradressen in erkennbar zusammengehörigen Klickpfaden gleichzeitig auftreten. Hierbei werden sowohl die technischen IP-Adressen selbst als auch deren über Namendienste (name services) ausgedrückten Hostnamen berücksichtigt.

In Fig. 5 in Schritt 51 wird in einer Implementierung die Spalte 41 nach der Empfängeradresse des gerade bearbeiteten Abrufs durchsucht. Wird die Empfängeradresse des gerade bearbeiteten Abrufs in Spalte 41 gefunden, wird anschließend die Betrachtungssoftware in Schritt 52 geprüft, andernfalls wird ein neuer Klickpfad angelegt.

Bei Vergleichen der Betrachtersoftware treten zwei Fälle auf: bei Servern gleichen Typs werden identische Bezeichnungen der Betrachtersoftware verlangt, weil ein Benutzer innerhalb einer Sitzung per Definitionen den Computer nicht wechseln kann. Komplexere Kompatibilitäten sind zu berücksichtigen, sobald unterschiedlich geartete Dokumentenserver zusammengeführt werden. Speichert ein Dokumentenserver, der beispielsweise Werbebanner liefert, nur aggregierte Daten über die Betrachtersoftware und nicht die vollständige Bezeichnung der Benutzersoftware mit Herstellerangabe, Versionsnummer, Programmname sowie Betriebssystem und Hardwareplattform, so müssen Kompatibilitäten beachtet werden. Auch in diesem Fall der unvollständigen Angabe der Betrachtungssoftware wird geprüft, ob für beide Abrufe die gleiche Betrachtungssoftware benutzt worden sein kann oder ob diese unterschiedlich sein muss. Im letzter Fall wird in Schritt 52 entschieden, dass die Abrufe zu unterschiedlichen Klickpfaden gehören müssen. Es wird folglich ein neuer Klickpfade angelegt.


Anspruch[de]
  1. 1. Verfahren zur Klickpfad-Rekonstruktion mit den Schritten:

    Herunterladen von Dokumenten von einem ersten Server als auch von einem zweiten Server durch mehrere Empfänger, wobei es Empfänger gibt, von denen jeder sowohl vom ersten als auch vom zweiten Server Dokumente herunterlädt, wobei der erste Server eine erste Uhr und der zweite Server eine zweite Uhr umfasst; und

    Rekonstruieren eines Klickpfades eines Empfängers;

    gekennzeichnet durch den Schritt:

    Berücksichtigen (30) des Gangunterschieds zwischen den Uhren des ersten und des zweiten Servers beim Rekonstruieren des Klickpfades.
  2. 2. Verfahren nach Anspruch 1, gekennzeichnet durch die Schritte:

    Erstellen (21) einer ersten Liste, in der bei jedem Herunterladen vom ersten Server die Empfängeradresse und der Zeitpunkt des Herunterladens gemäß der ersten Uhr gespeichert wird,

    Erstellen (21) einer zweiten Liste, in der bei jedem Herunterladen vom zweiten Server die Empfängeradresse und der Zeitpunkt des Herunterladens gemäß der zweiten Uhr gespeichert wird,

    Berechnen (23) des Durchschnitts der Zeitpunkte für jede Empfängeradresse in jeder Liste,

    Berechnen einer Differenz durch Subtrahieren (28) des Durchschnitts der Zeitpunkte in der zweiten Liste vom Durchschnitt der Zeitpunkte in der ersten Liste für jede Empfängeradresse, die sowohl in der ersten als auch in der zweiten Liste vorkommt; und

    Berechnen (29) des Gangunterschieds als Durchschnitt der Differenzen.
  3. 3. Verfahren zur Bestimmung eines Gangunterschieds zwischen einer ersten Uhr in einem ersten Server und einer zweiten Uhr in einem zweiten Server mit den Schritten:

    Erstellen einer ersten Liste (21) über Abrufe vom ersten Server, wobei in der ersten Liste für jeden Abruf die Empfängeradresse und der Zeitpunkt des Abrufs gemäß der ersten Uhr gespeichert wird;

    Erstellen einer zweiten Liste (21) über Abrufe von dem zweiten Server, wobei in der zweiten Liste für jeden Abruf die Empfängeradresse und der Zeitpunkt des Abrufs gemäß der zweiten Uhr gespeichert wird,

    gekennzeichnet durch die Schritte:

    Berechnen (23) des Durchschnitts der Zeitpunkte für jede Empfängeradresse in jeder Liste;

    Berechnen einer Differenz durch Subtrahieren (28) des Durchschnitts der Zeitpunkte in der zweiten Liste vom Durchschnitt der Zeitpunkte in der ersten Liste für jede Empfängeradresse, die sowohl in der ersten als auch in der zweiten Liste vorkommt; und

    Berechnen (29) des Gangunterschieds als Durchschnitt der Differenzen.
  4. 4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass aus der ersten und zweiten Liste vor der Berechnung (25) von Durchschnitten von Zeitpunkten die Einträge gelöscht werden, deren Empfänger nicht in beiden Listen vorkommen.
  5. 5. Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass aus der ersten und zweiten Liste die Einträge für dieselbe Empfängeradresse gelöscht (26) werden, deren Abrufdauer sich in der ersten und zweiten Liste um mehr als einen ersten vorgegebenen Schwellenwert unterscheiden.
  6. 6. Verfahren nach einem der Ansprüche 2 bis 5, dadurch gekennzeichnet, dass aus der ersten und zweiten Liste die Einträge für dieselbe Empfängeradresse gelöscht (24) werden, deren Abrufdauer in einer der Listen größer als ein zweiter vorgegebener Schwellenwert ist.
  7. 7. Verfahren nach einem der Ansprüche 2 bis 6, dadurch gekennzeichnet, dass aus der ersten und zweiten Liste die Einträge für dieselbe Empfängeradresse gelöscht werden, deren durchschnittliche Zeitpunkte der Abrufe sich um mehr als einen dritten Schwellenwert unterscheiden.
  8. 8. Verfahren zur Klickpfad-Rekonstruktion mit den Schritten:

    Anlegen eines neuen Zwischenspeichers (8), wenn festgestellt wird, dass ein Klickpfad mit dem Abruf eines Dokuments neu beginnt und Speichern des Abrufs in dem neuen Zwischenspeicher (8); und

    Speichern des Abrufs eines Dokuments in einem ersten bestehenden Zwischenspeicher, wenn festgestellt (13) wird, dass die Sitzungskennung des Abrufs des Dokuments der Sitzungskennung eines der im ersten bestehenden Zwischenspeicher gespeicherten Abruf entspricht;

    gekennzeichnet durch die Schritte:

    Überprüfen (14) des Abrufs anhand von Kompatibilitätsregeln (51, 52), wenn die Sitzungskennung eines Abrufs eines Dokuments keiner Sitzungskennung der in den bestehenden Zwischenspeichern gespeicherten Abruf entspricht; und

    Speichern des Abrufs in einem zweiten bestehenden Zwischenspeicher, wenn anhand der Kompatibilitätsregeln festgestellt wurde, dass der Abruf zu dem im zweiten bestehenden Zwischenspeicher gespeicherten Anfang eines Klickpfades gehört;

    Anlegen eines neuen Zwischenspeichers (8), wenn aufgrund der Kompatibilitätsregeln (51, 52) festgestellt wird, dass der Abruf zu keinem in den bestehenden Zwischenspeichern gespeicherten Klickpfaden gehört und somit einen neuen Klickpfad beginnt und Speichern des Abrufs in dem neuen Zwischenspeicher (8).
  9. 9. Verfahren nach Anspruch 8, gekennzeichnet durch die Schritte:

    Überprüfen (14), wenn der Abruf keine Sitzungskennung enthält, anhand der Kompatibilitätsregeln (51, 52), ob der Abruf zu einem in den bestehenden Zwischenspeichern gespeicherten Klickpfad gehört und zu welchem Klickpfad er gehört,

    Speichern des Abrufs ein einem dritten Zwischenspeicher, wenn die Überprüfung der Kompatibilitätsregeln (51, 52) ergab, dass der Abruf zu dem im dritten Zwischenspeicher gespeicherten Klickpfad gehört und Anlegen eines neuen Zwischenspeichers, wenn die Überprüfung der Kompatibilitätsregeln (51, 52) ergab, dass der Abruf zu keinem in einem Zwischenspeicher gespeicherten Klickpfad gehört und somit einen neuen Klickpfad beginnt und Speichern des Abrufs in dem neuen Zwischenspeicher.
  10. 10. Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass bei der Überprüfung der Kompatibilitätsregeln die IP-Adressen der Empfänger (51) und der Name der Betrachtersoftware (52) berücksichtigt wird.
  11. 11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass anhand der bereits analysierten Klickpfade ermittelt wird, welche Klickpfade erkennbar zusammengehören und welche Empfängeradressen in einem Klickpfad oder in zusammengehörenden Klickpfaden gemeinsam vorkommen und dass die Ergebnisse in einer Liste (40) gespeichert werden, die den Empfängeradressen (41) Klickpfade (42) zuordnet, wobei als Kompatibilitätsregel überprüft wird, ob die Empfängeradresse des Abrufs in der Liste vorkommt, und in diesem Fall festgestellt wird, dass der Abruf zu dem entsprechenden Klickpfad gehört und sonst festgestellt wird, dass der Abruf einen neuen Klickpfad beginnt.
  12. 12. Verfahren nach einem der Ansprüche 10 oder 11, dadurch gekennzeichnet, dass die Kompatibilitätsregeln auch den Namen der Betrachtersoftware des Abrufs mit den früheren Abrufen, die bereits zu Klickpfaden zusammengefasst wurden, vergleicht (52), wobei festgestellt wird, dass er Aufruf nicht zu einem Klickpfad gehört, wenn aus den Namen der Betrachtersoftware des Aufrufs und der früheren Aufrufe dieses Klickpfades hervorgeht, dass es sich um unterschiedliche Software handelt.
  13. 13. Verfahren nach einem der Ansprüche 8 bis 12, dadurch gekennzeichnet, dass vor dem wiederholten Zuordnen eines Abrufs zu einem Klickpfad gemäß den Ansprüchen 8 bis 12 die Abrufe von Dokumenten unterschiedlicher Server in eine chronologische Reihenfolge gebracht werden, wobei die Gangunterschiede der Uhren der Server mit einem Verfahren gemäß einem der Ansprüche 3 bis 7 bestimmt und die Zeitmarken der Abrufe in dem Gangunterschied kompensiert (30) werden.






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com