PatentDe  


Dokumentenidentifikation DE10309938A1 23.09.2004
Titel Verfahren zur Reduzierung des Speicherbedarfs in einem Netzwerk umfassend mehrere Datenverarbeitungseinrichtungen
Anmelder AUDI AG, 85057 Ingolstadt, DE
Erfinder Pfeiffer, Ulrich, Dipl.-Ing. (FH), 85107 Baar-Ebenhausen, DE
DE-Anmeldedatum 07.03.2003
DE-Aktenzeichen 10309938
Offenlegungstag 23.09.2004
Veröffentlichungstag im Patentblatt 23.09.2004
IPC-Hauptklasse G06F 17/60
IPC-Nebenklasse G06F 17/30   G06F 15/167   G06F 7/04   G06F 12/16   
Zusammenfassung Verfahren zur Reduzierung des Speicherplatzbedarfs in einem Netzwerk, umfassend mehrere Datenverarbeitungseinrichtungen mit jeweils wenigstens einem Speichermedium, welche Datenverarbeitungseinrichtungen zur Übertragung von Datensätzen miteinander kommunizieren,
- wobei die Datensätze vorbestimmter Speichermedien innerhalb des Netzwerks zur Ermittlung im Wesentlichen identischer Datensätze, die auf verschiedenen Speichermedien vorhanden sind, analysiert werden,
- wobei unter ermittelten gleichen Datensätzen ein Datensatz als originärer Datensatz bestimmt wird,
- und wobei die übrigen Datensätze gelöscht und im jeweiligen Speichermedium ein Datenlink zum Speicherort des originären Datensatzes abgelegt wird.

Beschreibung[de]

Die Erfindung betrifft ein Verfahren zur Reduzierung des Speicherplatzbedarfs in einem Netzwerk umfassend mehrere Datenverarbeitungseinrichtungen mit jeweils wenigstens einem Speichermedium, welche Datenverarbeitungseinrichtungen zur Übertragung von Datensätzen miteinander kommunizieren.

Bedingt durch die Vernetzung von Datenverarbeitungseinrichtungen ist es zunehmend üblich, einen von einer Person erstellten Datensatz, z.B. in Form eines Textes oder ähnlichem, anderen Personen über das Netzwerk zukommen zu lassen. Es erfolgt auf diesem Wege eine einfache, schnelle und problemlose Verteilung eines Datensatzes oder eines Dokuments an eine mehr oder weniger große Anzahl anderer Kommunikationsteilnehmer, die beziehungsweise deren Datenverarbeitungseinrichtungen an das Netzwerk angebunden sind. An jeder Datenverarbeitungseinrichtung, die einen solchen Datensatz empfängt, wird der Datensatz im dortigen Speichermedium abgelegt. Das führt dazu, dass ein und dasselbe Dokument mehrfach auf unterschiedlichen Datenverarbeitungseinrichtungen gespeichert ist. Handelt es sich bei dem Datensatz beispielsweise um ein Textprotokoll mit einer Datensatzgröße von 1 MB, das über eine Verteiler-Software (z.B. den „Outlook"-Verteiler) an z.B. 10 Personen gesendet wurde, ergibt dies einen Gesamtspeicherbedarf von 11 MB (1 MB "Originaldatensatz", 10 MB "Kopiedatensätze), bezogen auf das Gesamtspeichervolumen der Netzwerkgebundenen Speichermedien. Ersichtlich wird also durch die Mehrfachspeicherung identischer Datensätze ein beachtliches Volumen des vorhandenen Speichervolumens belegt. Schätzungen gehen davon aus, dass annähernd jeder in einem Unternehmen erstellte Datensatz, also annähernd jedes Dokument wenigstens zweimal, im Mittel bis zum viermal in identischer Form netzwerkseitig auf unterschiedlichen Speichermedien abgelegt ist. Mit dieser übermäßigen Belegung des vorhandenen Speicherplatzes durch identische Dokumente gehen Mehrkosten für ein Unternehmen einher, da zwangsläufig von Haus aus ein größeres Speichergesamtvolumen vorgehalten werden muss.

Der Erfindung liegt damit das Problem zugrunde, ein Verfahren anzugeben, das die Reduzierung des Speicherplatzes ermöglicht.

Zur Lösung des Problems ist bei einem Verfahren der eingangs genannten Art ist erfindungsgemäß vorgesehen, dass

  • – die Datensätze vorbestimmter Speichermedien innerhalb des Netzwerks zur Ermittlung im Wesentlichen identischer Datensätze, die auf verschiedenen Speichermedien vorhanden sind, analysiert werden,
  • – dass unter ermittelten identischen Datensätzen ein Datensatz als originärer Datensatz bestimmt wird,
  • – und dass die übrigen Datensätze gelöscht und im jeweiligen Speichermedium ein Datenlink zum Speicherort des originären Datensatzes abgelegt wird.

Die Erfindung schlägt dem Grunde nach vor, Speichermedien, die innerhalb des Netzwerks eingebunden sind, auf vorhandene identische Datensätze hin zu analysieren. Dabei können alle innerhalb des Netzwerks eingebundenen Speichermedien analysemäßig bearbeitet werden, es ist auch denkbar, nur eine bestimmte Anzahl oder nur bestimmte Speichermedien in diese der Reduktion des Speicherplatzbedarfs dienende Analyse einzubinden, beispielsweise solche Speichermedien, wo bekanntermaßen sehr viele Datensätze vorhanden sind etc. Dabei ist unter „Netzwerk" jedwede Kommunikationsstruktur zu verstehen, die die Kommunikation zwischen verschiedenen Datenverarbeitungseinrichtungen gleich welcher Art (PC, Server etc.) ermöglicht. Unter „Speichermedium" ist jedwedes physisches und virtuelles Speichermedium zu verstehen, die Analyse erfolgt dabei in allen unternehmensseitig vorhandenen Plattformen, also in unterschiedlichen speicherseitigen Datenbanken, Speicherprogrammen etc. Je umfassender die Analyse ist, um so mehr identische Datensätze können gefunden werden und um so deutlicher kann die erfindungsgemäß erzielbare Speicherbedarfsreduzierung sein.

Wurden nun identische Datensätze im Rahmen dieser Analyse ermittelt, so wird bestimmt, welcher dieser identischen Datensätze als „originärer Datensatz", also als der Datensatz, der den Original-Datensatz bildet und von dem die anderen identischen Datensätze Kopien darstellen, betrachtet wird. Dies muss jedoch nicht der tatsächliche, im Original vom Datensatzersteller erstellte Datensatz sein, es kann auch irgendeiner der anderen identischen Datensätze sein, je nachdem wie die Analysestruktur beziehungsweise der Algorithmus zur Bestimmung des originären Datensatzes ausgelegt ist.

Wurde nun ein solcher originärer Datensatz bestimmt, so werden alle übrigen identischen Datensätze gelöscht und im jeweiligen Speichermedium ein Datenlink zum Speicherort des zuvor definierten originären Datensatzes abgelegt. Das heißt der Empfänger eines vormals versendeten Datensatzes findet, nachdem das erfindungsgemäße Reduktionsverfahren durchgeführt wurde, in seinem Speichermedium nicht mehr eine identische Kopie des originären Datensatzes, sondern lediglich noch einen sehr wenig Speicherplatz benötigenden Datenlink, der ihn bei Anwählen sofort zum Speicherort des originären Datensatzes führt beziehungsweise einen Zugriff auf diesen Datensatz ermöglicht, so dass dieser Datensatz am Monitor der Datenverarbeitungseinrichtung, auf dem das Speichermedium der Datenlink angewählt wurde, sofort wiedergegeben werden kann. Das heißt, der belegte Speicherplatz derjenigen Speichermedien, wo lediglich identische, nicht jedoch ein originärer Datensatz vorhanden war, werden im tatsächlich belegten Speicherplatz durch Löschen dieser Datensätze reduziert. Nachdem es sich bei dem Datenlink, der auch als Hyperlink benannt werden kann, lediglich um eine hinterlegte Adresse, die auf den originären Datensatz zeigt, handelt, für die lediglich wenige Bit Speicherplatz benötigt werden, ergibt sich eine äußerst beachtliche Speicherplatzreduktion. Belegter Speicherplatz kann also zurückgewonnen werden, das heißt das gesamte Speichervolumen kann wesentlich effizienter genutzt werden, gleichwohl hat jeder ohne weiteres Zugriff auf ein an ihn vormals verteiltes Dokument, das er über den Datenlink sofort anwählen kann.

Nach einer Weiterbildung des Erfindungsgedankens kann vorgesehen sein, dass in der Analyse mehrere der folgenden datensatzspezifischen Informationen erfasst und ausgewertet werden, um einen identischen Datensatz zu ermitteln:

die Art der Datensätze,

der Speichername der Datensätze,

die Größe der Datensätze,

die Speicherzeitpunkte der Datensätze,

den Datensatzersteller betreffende Speicherdaten der Datensätze, die Speicherorte.

Dies sind übliche Informationen, die zu einem gespeicherten Datensatz abgelegt werden und mithin im Rahmen der Analyse erfasst und ausgewertet werden können.

Um die Analyse möglichst effizient und sicher gestalten zu können kann vorgesehen sein, die Datensätze zunächst nach ihrer Art und ihrem Speichernamen zu sortieren, gleichartige und gleichnamige Datensätze anschließend nach ihrer Größe zu sortieren und schließlich gleichgroße Datensätze nach ihrem Speicherdatum zu sortieren, so dass über diesen Sortierschritt die Datensätzeanalyse- und auswertung optimiert zusammengefasst werden.

Die Datensätze selbst werden nach einer vorteilhaften Weiterbildung des Erfindungsgedankens dann als identisch bekannt, wenn die Datensatzart, der Datensatzname und die Datensatzgröße identisch sind. An dieser Stelle ist darauf hinzuweisen, dass unter dem Begriff „Datensatzart" Datensätze bzw. Dateien beliebigen Formats zu verstehen sind, z.B. Datensatz- oder Dateiformate. „.doc", „.pdf", „.ppt", „.bmp" etc. Auch ist es möglich, innerhalb der Analyse nur bestimmte Datensatz- oder Dateiformate und damit Datensatztypen zu berücksichtigen, z.B. nur „.doc"-Dateien oder dergleichen. Dies kann gegebenenfalls vor Durchführung des Reduktionsverfahrens festgelegt werden.

Es kann nun mitunter vorkommen, dass es sich bei zwei Datensätzen oder Dateien um identische handelt, diese jedoch unterschiedliche Größen besitzen, z.B. weil im einen Datensatz eine Zusatzinformation, z.B. ein zusätzlicher Speichervermerk oder dergleichen aufgenommen wurde. Die Datensatzgrößen unterscheiden sich nur unwesentlich, also nur um wenige Bits. Dies führt dem Grunde nach dazu, dass sie nicht als identisch erkannt werden würden. Eine zweckmäßige Erfindungsausgestaltung sieht nun vor, bei Ermittlung zweier von der Datensatzart und vom Datensatznamen her gleichen, jedoch unterschiedlich großen Datensätzen, von denen einer insbesondere ein originärer Datensatz ist, dem Benutzer der Datenverarbeitungseinrichtung, auf deren Speichermedium ein solcher Datensatz abgelegt ist, eine die mögliche und vom Benutzer zu veranlassende Löschung und Hinterlegung eines Datenlinks anzeigende Information gegeben wird. Es wird dem Benutzer also angezeigt, dass es sich möglicherweise um einen löschungsreifen Datensatz handelt, jedoch auf Grund der Größendifferenz keine automatische Löschung und Verlinkung stattfand. Dies ist vom Benutzer selbst zu initiieren, wozu ihm die genannte Information angezeigt wird, die er beispielsweise dann erhält, wenn er nach Durchführung des Reduktionsverfahrens die Datenverarbeitungseinrichtung erneut hochfährt oder dergleichen. Dies ist in der Regel dann zweckmäßig , wenn sich die Datensätze nur unwesentlich in ihrer Größe unterscheiden, wenn also lediglich eine Größendifferenz von wenigen Byte vorliegt.

Alternativ dazu besteht die Möglichkeit, bei Ermittlung zweier von der Datensatzart und vom Datensatznamen her gleicher, jedoch unterschiedlich großer Datensätze, von denen einer insbesondere ein originärer Datensatz ist, die einzelnen Daten beider Datensätze miteinander zu vergleichen und bei einer hinreichenden Übereinstimmung, insbesondere eine Übereinstimmung von wenigstens 99,95 % beide als identisch zu behandeln und im Übereinstimmungsfall eine automatische Löschung des einen oder beider Datensätze (sollte es sich bei keinem der beiden um einen als originär erkannten Datensatz handeln) zu veranlassen. Die Übereinstimmung sollte möglichst hoch sein, sie kann auch deutlich größer als die exemplarisch angegebenen 99,95 % sein.

Zur Bestimmung eines Datensatzes als originärer Datensatz hat es sich als vorteilhaft erwiesen, wenn derjenige als originär bestimmt wird, der das älteste Speicherdatum aller identischen Datensätze aufweist. In der Regel wird ein originärer Datensatz zunächst erstellt und gespeichert, wonach erst zeitlich später die Verteilung erfolgt. Das Speicherdatum ist also ein hinreichend sicheres Kriterium zur Originalitätsbestimmung. Ein originärer Datensatz sollte zweckmäßigerweise mit einem Sicherheitshinweis oder einer Sicherheitsfunktion gekoppelt werden, wobei eine Sicherheitsfunktion z. B. eine Schreibschutzfunktion ist, die ein unbeabsichtigtes Überschreiben durch den Benutzer der Datenverarbeitungseinrichtung, auf deren Speichermedium der originäre Datensatz abgelegt ist, verhindert. Wird also der originäre Datensatz angewählt und wird versucht, ihn zu ändern, wird die Schreibschutzfunktion aktiviert und dem Anwender angezeigt, dass ein Überschreiben nicht möglich ist. Hierbei ist es denkbar, dass der Anwender die Schreibfunktion außer Kraft setzt und den originären Datensatz doch ändern möchte. Die auf diesen Datensatz weisenden Datenlinks, die auf anderen Speichermedien hinterlegt sind, würden dann die jeweiligen Anwender nicht mehr zu dem originären Datensatz führen, da dieser geändert wurde, wobei unter „ändern" jedwede Änderung, sei sie noch so gering bis hin zum vollständigen Löschen des Datensatzes, zu verstehen ist. In einem solchen Fall ist es denkbar, dass vor der Änderung automatisch der Datensatz an die Speicherorte, an denen die Datenlinks auf den anderen Speichermedien hinterlegt sind, zurückübertragen wird, sodass die Anwender nach wir vor Zugriff auf den originären Datensatz haben. Alternativ ist es auch denkbar, nach Art einer Sicherungskopie den originären Datensatz automatisch abzulegen, gegebenenfalls an einem anderen Ort auf dem Speichermedium, und die Datenlinks entsprechend zu ändern. Der originäre Datensatz kann dann ohne weiteres geändert werden, die ursprünglichen Empfänger haben nach wie vor Zugriff auf den ursprünglichen originären Datensatz.

Als Sicherheitshinweis ist es denkbar, ein sich bei einem Zugriffsversuch auf den originären Datensatz öffnendes, am Monitor, der der jeweiligen Datenverarbeitungseinrichtung zugeordnet ist, angezeigtes Hinweisfenster darzustellen, mit dem der Benutzer darauf aufmerksam gemacht wird, dass er im Begriff ist, einen originären Datensatz, auf den diverse Datenlinks weisen, zu verändern. Um dem Anwender ferner zur Kenntnis zu geben, dass es sich bei einem Datensatz um einen originären Datensatz handelt, ist es ferner denkbar, wenn ein als originärer Datensatz ermittelter Datensatz auch als ein solcher in seinem Datensatznamen gekennzeichnet wird, z. B. durch den automatischen Namenszusatz „Original" od. dgl. Generell dienen die oben beschriebenen Sicherheits- oder Schutzmaßnahmen dazu, am Status quo, der vor der Durchführung des erfindungsgemäßen Reduktionsverfahrens gegeben war, trotz Reduktion und der gegebenen Änderungsmöglichkeit eines originären Datensatzes nichts zu ändern, d. h., jeder ursprüngliche Empfänger eines verteilten Datensatzes ist stets in der Lage, auf diesen trotz Reduktion und gegebenenfalls vorgenommene Änderung des originären Datensatzes in der Originalform zugreifen zu können. Den Anwendern wird so ein Höchstmaß an Sicherheit vor einem unbedachten Ändern eines originären Datensatzes gegeben.

Für den Fall, dass ein originärer Datensatz auf einen anderen Speicherort im originären Speichermedium oder in einem anderen Speichemedium übertragen wird, sieht eine vorteilhafte Erfindungsausgestaltung vor, dass die auf den originären Datensatz zeigenden Datenlinks automatisch angepasst werden. Es erfolgt also quasi eine automatische „Nachführung" der Datenlinks bei einer Veränderung des Speicherortes des originären Datensatzes.

Im Falle einer Änderung des originären Datensatzes und einer damit im Zusammenhang stehenden Anpassung der Datenlinks ist es zweckmäßig, wenn die vorgenommene Linkanpassung dem Anwender, der den originären Datensatz ändert, mitgeteilt wird.

Mitunter kann der Fall auftreten, dass aufgrund auch identischer Speicherzeitpunkte kein originärer Datensatz basierend auf diesem Kriterium definiert werden kann. Es ist nun möglich, dass der Datensatzersteller seinen ursprünglichen Datensatz als originären Datensatz von Haus aus kennzeichnen kann, wobei im Rahmen der Analyse dieser Datensatz dann als originärer Datensatz betrachtet wird. Wird also beispielsweise ein Dokument im „Outlook"-Verteiler an diverse Empfänger verteilt, und werden sämtliche Datensätze, also auch der ursprüngliche Datensatz, mit dem gleichen Speicherzeitpunkt abgelegt, so wäre das Original anhand des Kriteriums „Speicherzeitpunkt" nicht erkennbar. Ist es jedoch durch den Originalersteller kenntlich gemacht, kann die Analyse dies berücksichtigen.

Neben dem erfindungsgemäßen Verfahren betrifft die Erfindung ferner ein Netzwerk umfassend mehrere Datenverarbeitungseinrichtungen mit jeweils wenigstens einem Speichermedium, welche Datenverarbeitungseinrichtungen zum Übertragen von Datensätzen miteinander kommunizieren, umfassend wenigstens eine Datenverarbeitungseinrichtung ausgebildet zur Durchführung des Verfahrens der vorbeschriebenen Art. Hierbei ist unter Datenverarbeitungseinrichtung jedwedes Verarbeitungsgerät zu verstehen, sei es ein PC, ein Datenserver oder ähnliches. Auf diesem Datenverarbeitungsgerät ist die entsprechende, zur Durchführung des Verfahrens dienende Software bzw. der Analyse- und Auswertealgorithmus abgelegt, der die erfindungsgemäße Analyse/Auswertung und Löschung bzw. Verlinkung ermöglicht. Da das oben beschriebene Verfahren relativ zügig abarbeitbar ist, kann es in relativ kurzen Zeitfenstern während betriebsfreier Zeiten (z. B. an Wochenenden, Betriebsferien etc.) eingesetzt werden. Auch lässt die Natur der Verfahrens es jederzeit zu, den Verfahrensablauf zu unterbrechen, da der Datenbestand erst bei Ersetzung durch Links und dem tatsächlichen Löschen angetastet wird. Bereits durchgeführte Löschungen bzw. Verlinkungen beeinflussen die Wiederaufnahme des Verfahrensablaufs nicht.

Weitere Vorteile, Merkmale und Einzelheiten der Erfindung ergeben sich aus dem im Folgenden beschriebenen Ausführungsbeispiels sowie anhand der Zeichnung. Dabei zeigen:

1 eine Prinzipdarstellung eines Netzwerks, geeignet zur Durchführung des erfindungsgemäßen Verfahrens, und

25 Abfolgediagramme, die das erfindungsgemäße Verfahren zeigen.

1 zeigt ein erfindungsgemäßes Netzwerk 1, im gezeigten Beispiel bestehend aus sechs Datenverarbeitungseinrichtungen 2, wobei die zentral gezeigte Datenverarbeitungseinrichtung 2' z. B. ein zentraler Server sein kann, mit dem die Datenverarbeitungseinrichtungen 2 über geeignete Kommunikationsverbindungen 3 verbunden sind und über den jede Datenverarbeitungseinrichtung 2 mit einer anderen Datenverarbeitungseinrichtung 2, die im Netzwerk 1 eingebunden ist, kommunizieren kann. Es versteht sich von selbst, dass das Netzwerk 1 beliebig groß sein kann und 1 lediglich beispielhaft zu verstehen ist.

Im gezeigten Beispiel sei angenommen, dass der zentrale Server 2' zur Durchführung des erfindungsgemäßen Verfahrens zur Daten- bzw. Speicherplatzreduktion ausgebildet ist. Auf ihm ist also die zur Durchführung des Verfahrens dienende Software bzw. der Analyse-, Auswertungs- und Verarbeitungsalgorithmus abgelegt.

Soll nun eine Speicherplatzreduzierung bzw. -optimierung vorgenommen werden, so gliedert sich das dabei ablaufende Verfahren in mehrere Schritte, wie sie lediglich exemplarisch in den 25 dargestellt sind. Zunächst wird das Verfahren im Schritt a gestartet, das heißt, das entsprechende Software-Tool wird aufgerufen, was z. B. automatisch dann erfolgen kann, wenn ein für die Durchführung des Verfahrens hinreichendes Zeitfenster, innerhalb welchem das Verfahren unkritisch (z. B. weil keine der Datenverarbeitungseinrichtungen in Betrieb ist) zukünftig gegeben ist. Dies ist z. B. an Wochenenden oder während der Nachtstunden denkbar.

Im Schritt b werden nun sämtliche im Netzwerk 1 eingebundenen Speichermedien, die durch die Speichermediensymbole 4 dargestellt sind, hinsichtlich ihres Inhalts hin gesichtet. Das heißt die Datenverarbeitungseinrichtung 2', die angenommenermaßen das erfindungsgemäße Verfahren durchführt, sichtet nun zunächst den eigenen Datenbestand, gleich auf welchem Speichermedium er sich befindet, sowie den Datenbestand sämtlicher Speichermedien der netzwerkmäßig gebundenen Datenverarbeitungseinrichtungen 2 bzw. von etwaigen weiteren, diesen zugeordneten Speichermedien. Hierbei kann es sich um jedwedes physisches oder virtuelles Speichermedium handeln, also z. B. Laufwerke oder virtuelle Speicherplattformen (z. B. „Outlook" etc.) handeln. Es besteht natürlich die Möglichkeit, nur bestimmte Speichermedien im Rahmen der Reduktionsüberprüfung zu bearbeiten, also z. B. nur die physikalischen Speichermedien, also Laufwerke etc. Dies kann seitens des Unternehmens, das die entsprechende Software implementiert hat, gewählt werden.

Im Rahmen der Sichtung der Inhalte sowie deren ersten Analyse gemäß b werden nun sämtliche auf den gesichteten Speichermedien befindlichen Datensätze erfasst und diesbezüglich relevante Informationen aufgenommen. Dies sind primär die Art der Datensätze, der Speichername der Datensätze, die Größe der Datensätze, die Speicherzeitpunkte der Datensätze, den Datensatzersteller betreffende Speicherdaten der jeweiligen Datensätze sowie die Speicherorte. Im mit c gekennzeichneten Schaubild ist exemplarisch ein Auszug der in b erfolgten Sichtung gezeigt. Wenngleich die im Schritt c gezeigten Datensätze bereits eine gewisse sortierte Struktur zeigen (es sind bereits gleichartige Datensätze zu Blöcken zusammengefasst), können diese im Rahmen dieser Ersterfassung auch völlig unterschiedlich und willkürlich bezüglich einander angeordnet bzw. zusammengefasst sein. Sämtliche gleichartigen Datensätze sind mit fortlaufenden Nummern gekennzeichnet, anhand derer sich die nachfolgend beschriebene Umordnung einfach erkennen lässt. Im Schritt c ist lediglich exemplarisch eine Tabelle gezeigt, die verschiedene Datensätze zeigt, die bereits groß zusammengefasst wurden. Zuerst sind fünf „.doc"-Datensätze gezeigt, die alle den Namen „Protokoll" tragen. Die ersten vier besitzen eine Größe von 1402783 K, während der fünfte eine Größe von 1602083 K besitzt. Die Speicherdaten sind nur zum Teil übereinstimmend, am gleichen Tag wurden die beiden gleichgroßen Datensätze, die in den Zeilen 1 und 2 aufgelistet sind, gespeichert, nämlich an 01.11.2002, jedoch zu unterschiedlichen Uhrzeiten. Der Ersteller war jeweils „Meier". Die jeweiligen Speicherorte sind schließlich in der letzten Spalte angegeben und geben die Orte an, wo die jeweiligen Datensätze auf unterschiedlichen Speichermedien der unterschiedlichen Datenverarbeitungsgeräte 2 abgelegt sind.

Der zweite Datenartblock sind „.pdf"-Datensätze. Hier liegen im Beispiel sechs Datensätze vor, die alle die Namen „SOFA 02" tragen und alle gleich groß sind. Unter den „.pdf"-Datensätzen wurden die Datensätze 1–4 und 6 alle am gleichen Tag gespeichert, nämlich dem 12.08.2002, während der Datensatz Nr. 5 am 11.08.2002 gespeichert wurde. Die Uhrzeiten sind ebenfalls unterschiedlich. Eine Erstellerinformation liegt hier nicht vor, angegeben sind jeweils noch die unterschiedlichen Speicherorte auf den unterschiedlichen Speichermedien.

Der dritte Datenartblock sind im gezeigten Beispiel die „.jpg"-Datensätze, von denen fünf vorhanden sind, die alle die Namen „3er" besitzen. Innerhalb dieser Datenart sind die Datensätze 1–4 gleichgroß (2723301 K), während der Datensatz Nr. 5 kleiner ist (163301 K), alle wurden jedoch am selben Tag gespeichert und – soweit die Datensätzenummern 1 – 3 und 5 betroffen sind, zur selben Uhrzeit, der Datensatz Nr. 4 wurde etwas früher gespeichert. Ebenfalls gleich ist die jeweilige Erstellerinformation, unterschiedlich sind die jeweiligen Speicherorte.

Im nächsten Schritt werden nun die im Schritt c aufgenommenen Datensätze in der Reihenfolge „Datensatzart, Datensatzname, Datensatzgröße, Speicherzeitpunkt (Datum/Uhrzeit), Erstellerinformation und Speicherort" sortiert. Es werden also – wenn nicht wie hier bereits geschehen – wie im Schritt d gezeigt alle „.doc"-Dateien zusammengefasst, alle „.pdf"-Dateien, alle „.jpg"-Dateien etc. Innerhalb der jeweiligen Datensatzart erfolgt nun eine Sortierung nach den Dateinamen, das heißt, gleich benannte Datensätze werden wiederum zusammengefasst. Innerhalb der gleich benannten Datensätze wird nun im nächsten Sortierschritt nach der Datensatzgröße sortiert, das heißt, es werden diejenigen Datensätze unmittelbar zusammengefasst, bzw. wie im Schritt d gezeigt, untereinander dargestellt, die die gleiche Größe aufweisen. Anschließend werden die gleichgroßen Datensätze nach dem Speicherzeitpunkt sortiert, das heißt, Datensätze, die am selben Tag abgespeichert wurden, werden wiederum zusammengefasst, es ergibt sich insgesamt eine chronologische Sortierung. Innerhalb der Datensätze, die am gleichen Tag gespeichert wurden, erfolgt eine weitere Sortierung nach dem Speicherzeitpunkt, also nach der Speicheruhrzeit. Ferner wird so jedem Datensatz auch die entsprechende Information betreffend den Ersteller sowie der jeweilige konkrete Speicherort angegeben.

Insgesamt ergibt sich nun ausgehend von den im Schritt c Datensätzen das im Schritt d gezeigte Sortierbild. Ersichtlich wurde der „doc"-Datensatz Nr. 5, da er der größte der "„.doc"-Datensätze ist, zuerst in die Tabelle eingeschrieben, anschließend folgend die „.doc"-Datensätze 1–4, diese jedoch sortiert nach dem Speicherdatum bzw. dem Speichertag, wobei hier der Datensatz Nr. 2 der älteste ist. Unter den am selben Tag gespeicherten Datensätzen (Nr. 3–5, alle am 01.11.2002 gespeichert) wird derjenige vorgezogen, der von der Speicherzeit der älteste ist. In entsprechender Weise werden die „.pdf"- und die „.jpg"-Datensätze gespeichert.

In nächsten Schritt, dessen Endergebnis in Schaubild e gezeigt ist, wird nun überprüft, welche Datensätze identisch miteinander sind. Bei einer Übereinstimmung der Datensatzart, des Datensatznamens und der Datensatzgröße kann mit hinreichender Genauigkeit von identischen Datensätzen oder bzw. Dateien ausgegangen werden. Ausgehend vom in Schritt bzw. Schaubild d gezeigten Datensatzanfall ist der „.doc"-Datensatz Nr. 1 offensichtlich nur einmal vorhanden, denn es sind zwar die Datensätze Nr. 2–5 von der Datensatzart und vom Datensatznamen her identisch, jedoch ist der Datensatz Nr. 1 deutlich größer als die Datensätze Nr. 2–5. Infolgedessen ist Datensatz Nr. 1 nur einmal vorhanden. Anders die Datensätze Nr. 2–4. Diese sind alle von der Datensatzart, dem Datensatznamen und der Datensatzgröße her identisch. Um nun die nachfolgend noch beschriebenen Löschung diverser „überzähliger" Datensätze zu ermöglichen, ist es erforderlich, einen originären Datensatz zu bestimmen, also quasi den Originaldatensatz zu definieren, welcher ursprünglich erstellt wurde und der anschließend auf andere Speichermedien bzw. an andere Netzwerkteilnehmer verteilt wurde. Im gezeigten Beispiel wird davon ausgegangen, dass derjenige Datensatz ein originärer Datensatz ist, der das älteste Speicherdatum hat. Dies ist im gezeigten Beispiel der Datensatz Nr. 3, der als Speicherdatum „31.10.2002" zeigt, während die Datensätze Nr. 4, 1, 5 als Speicherdatum jeweils den „01.11.2002" zeigen. Datensatz Nr. 3 ist also ein originärer Datensatz, die Datensätze Nr. 4, 1, 5 sind identische Kopien davon.

In gleicher Weise wird mit den „.pdf"-Datensätzen verfahren. Alle Datensätze Nr. 1–6 haben die gleiche Datenart, den gleichen Datensatznamen sowie die gleichen Datensatzgröße. Die älteste ist jedoch der Datensatz Nr. 5, der als Speicherdatum 11.08.2002 ausweist. Die anderen Datensätze Nr. 1–4 und 6 wurden jeweils am 12.08.2002 jedoch zu unterschiedlichen Zeiten gespeichert. Damit wird Datensatz Nr. 5 als originärer Datensatz, die anderen als überzählige „Kopiedatensätze" erkannt.

Gleiches erfolgt mit den „.jpg"-Datensätzen. Innerhalb der „.jpg"-Datensätzen sind die Datensätze 4, 2, 3, 1 von der Art, dem Namen sowie der Größe her gleich. Innerhalb dieser Datensätze ist von Identität auszugehen. Alle wurden am „31.03.2002" gespeichert, der älteste Datensatz ist jedoch Datensatz Nr. 4, der als Speicherzeitpunkt „08:45" ausweist, während die anderen Datensätze Nr. 2, 3 und 1 um „08:55" gespeichert wurden. Datensatz Nr. 4 wird also als originärer Datensatz definiert, die anderen als Kopiedatensätze. Der „.jpg"-Datensatz Nr. 5 ist zwar von der Art und vom Namen her gleich, er ist jedoch von der Datensatzgröße her deutlich kleiner. Mithin ist er also nicht identisch mit einem der anderen „.jpg"-Datensätze. Die originären Datensätze sind jeweils über den rechts gezeigten Pfeil markiert.

Im nächsten Schritt bzw. dem Schaubild f ist nun dargestellt, was mit den als identisch erkannten Datensätzen erfolgt. Diese werden auf dem jeweiligen Speichermedium gelöscht. An ihrer Stelle wird ein Datenlink eingeschrieben, wie im jeweiligen Feld „Name" im Schaubild f gezeigt ist. Dieser Datenlink, symbolisiert auch durch die jeweiligen Pfeile, weist auf den Speicherort des originären Datensatzes auf einem anderem Speichermedium. In gezeigten Beispiel weisen also die zu den „.doc"-Datensätzen 4, 1 und 5 eingeschriebenen Datenlinks auf den Speicherort des originären Datensatzes Nr. 3. Entsprechendes gilt betreffend die „.pdf"-Datensätze Nr. 1, 2, 6, 4, 5, die jeweils über den Datenlink auf den Speicherort des „.pdf"-Datensatzes Nr. 5 zeigen. Auch die Datensatznamen der „.jpg"-Datensätze Nr. 2, 3 und 1 wurden durch einen Datenlink auf den ältesten, originären „.jpg"-Datensatz Nr. 4 ersetzt und damit ein Link hergestellt. Die einzigen Datensätze, die ohne Link wie bisher verbleiben, sind zum einen die originären „.doc"-, „.pdf"- und „.jpg"-Datensätze, auf die die Datenlinks weisen, sowie der „.doc"-Datensatz Nr. 5 und der „.jpg"-Datensatz Nr. 5, die beide jeweils nur ein einziges Mal vorhanden sind, mithin also keine identischen Kopien irgend eines anderen Datensatzes darstellen. Die hierdurch erreichbare komplette Verlinkung ist durch die Pfeildarstellung im unteren, die Speichermedien zeigenden Schaubild dargestellt.

Wie dem Feld „Größe" zu entnehmen ist, nimmt aufgrund der Löschung bzw. der Ersetzung durch den jeweiligen Datenlink der hierfür benötigte Speicherplatz eklatant ab. Für den Datenlink werden in den gezeigten Beispielen nur etwa 0,7 K Speicher benötigt, während die ursprünglichen Dokumente wesentlich größer waren. Auf diese Weise kann der gesamte Speicherbedarf auf den eingebundenen Speichermedien deutlich reduziert werden, ohne Verlust irgendwelcher Informationen, da der Anwender bei Anklicken des Datenlinks z. B. über den Curser sofort auf den originären Datensatz, der auf einem anderen, vernetzten Speichermedium abgelegt ist, zugreifen kann.

Im Schritt g wird, wenn alle Speichermedien bearbeitet bzw. alle Datensätze analysiert und gegebenenfalls gelöscht wurden, das Verfahren beendet. Es kann zu gegebener Zeit erneut durchgeführt werden, um eine weitere Speicherplatzreduzierung vorzunehmen. Dies kann automatisiert werden, z. B. einmal pro Woche od. dgl.

Sollte ein originärer Datensatz vom Ersteller oder einer anderen Person, die insoweit zulässigerweise darauf Zugriff hat, geändert werden, so bestehen mehrere Möglichkeiten. Besteht die Änderung lediglich darin, dass der identische Datensatz lediglich auf dem Speichermedium woanders gespeichert wird, so werden die Datenlinks, die auf diesen Datensatz zeigen, automatisch angepasst. Wird der originäre Datensatz inhaltlich verändert, z. B. durch Löschen oder Ergänzen, so kann beispielsweise eine Kopie des originären Datensatzes auf dem „originären" Speichermedium erstellt werden, wobei der Speicherort der „originäre" Speicherort ist, sodass die darauf hinzeigenden Datenlinks nicht geändert werden müssen. Die Änderungen werden dann unter einem anderen Dateinamen gegebenenfalls auch automatisch abgespeichert. Daneben besteht die Möglichkeit, den originären Datensatz zu kopieren und gegebenenfalls anders zu benennen, und die Datenlinks entsprechend anzupassen. Ferner besteht die Möglichkeit, jeden originären Datensatz als solchen von seinem Datensatznamen her zu kennzeichnen, z. B. durch den Zusatz „(Original)", od. dgl.


Anspruch[de]
  1. Verfahren zur Reduzierung des Speicherplatzbedarfs in einem Netzwerk umfassend mehrere Datenverarbeitungseinrichtungen mit jeweils wenigstens einem Speichermedium, welche Datenverarbeitungseinrichtungen zur Übertragung von Datensätzen miteinander kommunizieren, dadurch gekennzeichnet,

    – dass die Datensätze vorbestimmter Speichermedien innerhalb des Netzwerks zur Ermittlung im Wesentlichen identischer Datensätze, die auf verschiedenen Speichermedien vorhanden sind, analysiert werden,

    – dass unter ermittelten gleichen Datensätzen ein Datensatz als originärer Datensatz bestimmt wird,

    – und dass die übrigen Datensätze gelöscht und im jeweiligen Speichermedium ein Datenlink zum Speicherort des originären Datensatzes abgelegt wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass in der Analyse mehrere der folgenden datensatzspezifischen Informationen erfasst und ausgewertet werden:

    die Art der Datensätze,

    der Speichername der Datensätze,

    die Größe der Datensätze,

    die Speicherzeitpunkte der Datensätze,

    den Datensatzersteller betreffende Speicherdaten der Datensätze,

    die Speicherorte.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Datensätze zunächst nach ihrer Art und ihrem Speichernamen sortiert werden, dass gleichartige und gleichnamige Datensätze nach ihrer Größe sortiert werden, und dass gleichgroße Datensätze nach ihrem Speicherdatum sortiert werden.
  4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass Datensätze dann als identisch erkannt werden, wenn die Datensatzart, der Datensatzname und die Datensatzgröße identisch sind.
  5. Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass bei Ermittlung zweier von der Datensatzart und vom Datensatznamen her gleichen, jedoch unterschiedlich großen Datensätze, von denen einer insbesondere ein originärer Datensatzes ist, dem Benutzer der Datenverarbeitungseinrichtung, auf deren Speichermedium ein solcher Datensatz abgelegt ist, eine die mögliche und vom Benutzer zu veranlassende Löschung und Hinterlegung eines Datenlinks anzeigende Information gegeben wird.
  6. Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass bei Ermittlung zweier von der Datensatzart und vom Datensatznamen her gleichen, jedoch unterschiedlich großen Datensätze, von denen einer insbesondere ein originärer Datensatzes ist, die einzelnen Daten beider Datensätze miteinander verglichen werden, und bei einer hinreichenden Übereinstimmung, insbesondere einer Übereinstimmung von wenigstens 99,95% beide als identisch behandelt werden.
  7. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass innerhalb identischer Datensätze derjenige als originärer Datensatz bestimmt wird, der das älteste Speicherdatum aufweist.
  8. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass ein originärer Datensatz mit einem Sicherheitshinweis oder einer Sicherheitsfunktion gekoppelt wird.
  9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Sicherheitsfunktion eine Schreibschutzfunktion ist, die ein Überschreiben verhindert.
  10. Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass der Sicherheitshinweis ein sich bei einem Zugriffsversuch auf den originären Datensatz öffnendes, am Monitor angezeigtes Hinweisfenster ist.
  11. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass ein originärer Datensatz als ein solcher in seinem Datensatznamen gekennzeichnet wird.
  12. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass bei einer Änderung des Speicherorts eines originären Datensatzes die auf ihn weisenden Datenlinks automatisch angepasst werden.
  13. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass ein Datensatzersteller diesen als originären Datensatz kennzeichnen kann, wobei im Rahmen der Analyse dieser Datensatz als originärer Datensatz betrachtet wird.
  14. Netzwerk umfassend mehrere Datenverarbeitungseinrichtungen (2, 2') mit jeweils wenigstens einem Speichermedium (4), welche Datenverarbeitungseinrichtungen (2, 2') zur Übertragung von Datensätzen miteinander kommunizieren, umfassend wenigstens eine Datenverarbeitungseinrichtung (2, 2') ausgebildet zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 13.
Es folgt ein Blatt Zeichnungen






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com