Nmedia - Fotolia

Monitoring-Lösungen für das Data Warehouse

Die steigende Datenmengen im Data Warehouse zwingen Unternehmen, ihre Daten zu analysieren und nicht benötigte Informationen entsprechend zu archivieren.

Vor langer Zeit haben die Menschen bemerkt, dass sie ihre Online-Systeme überwachen müssen. Wenn die Performance nur noch schwach war, half die Überwachung dabei, den Engpass zu identifizieren und das Problem zu lösen. Wenn es also um ihre hochleistungsfähigen Umgebungen für Transaktionen ging, war es nicht schwierig, Systemadministratoren von der Notwendigkeit des Monitorings zu überzeugen.

Die Welt des Data Warehousing aber ist eine ganz andere. High Performance ist hier kein Thema – es reicht, wenn die Geschwindigkeit akzeptabel ist. Trotzdem gibt es auch in der Welt der analytischen Verarbeitung in Data Warehouses einiges zu überwachen. Am wichtigsten ist, dass sich Analytiker ihrer „schlafenden“ Daten bewusst sind. Dabei handelt es sich um Daten, die aktuell nicht benutzt werden. In den frühen Tagen von Data Warehouses ist der Bestand daran sehr gering, doch mit der Zeit kann er deutlich anwachsen.

Schlafende Daten in einem Data Warehouse sind so etwas wie Cholesterin im Blutkreislauf des menschlichen Körpers: Bei zu viel Cholesterin muss das Herz stärker pumpen, um das Blut im Fluss zu halten. Zugleich kosten schlafende Daten Geld in Form von verschwendetem Storage-Platz und Prozessor-Zyklen für ihre Bewegung durch das System. Insgesamt sind schlafende Daten nicht gut für den Zustand einer Data-Warehouse-Umgebung.

Wie groß kann dieses Problem werden? Vor kurzem wurde bei einem sehr großen Data Warehouse ein Monitor installiert, und er zeigte, dass nur auf 0,5 Prozent der darin enthaltenen Daten wirklich zugegriffen wurde. Anders ausgedrückt: 99,5 Prozent der Daten wurden gar nicht gebraucht – und der Kunde war gerade dabei, mehr Storage anzuschaffen. Aber auch in weniger extremen Fällen haben schlafende Daten einen negativen Einfluss auf Performance und Kosten von Data Warehouses.

Wie kann eine Organisation vorgehen, um festzustellen, welche Daten in ihrem Data Warehouse aktiv sind und welche nicht? Die Antwort liegt in einer Monitoring-Lösung. Die darf nicht mit der Überwachung von Transaktionsverarbeitung verwechselt werden. In beiden Fällen geht es um Monitoring, doch sie unterscheiden sich so sehr wie Äpfel und Birnen.

Das Monitoring für das Data Warehouse hält fest, welche Anfragen dem System gestellt werden, und kann auf dieser Grundlage bestimmen, welche Daten angesehen werden. Es muss ein vollständiges Bild des Zugriffs auf Daten liefern. Die Analyse erfolgt dabei nach folgenden Aspekten:

  • Welche Tabellen werden aufgerufen?
  • Welche Zeilen in einer Tabelle werden aufgerufen?
  • Welche Spalten in einer Zeile werden aufgerufen?

Es reicht also nicht aus, nur zu überwachen, auf welche Tabellen zugegriffen wird.

Wenn die Zugriffsmuster überwacht werden und Muster und Häufigkeit der Zugriffe festgestellt wurden, kann der nächste Schritt erfolgen: die genutzten Daten werden von allen in den Tabellen enthaltenen abgezogen – alles, was nicht genutzt wird, wird als schlafende Daten betrachtet. Auf diese Weise lässt sich mit einem Data-Warehouse-Monitor feststellen, welche Daten wirklich genutzt werden und welche nicht. Und zur Erinnerung: Dieses Thema und der richtige Umgang damit sind der wichtigste Einzelaspekt für das Langzeit-Management eines Data Warehouses.

Damit stellt sich eine Frage: Wie geht man bei der Überwachung der Aktivität eines Data Warehouse am besten vor? Einfach zu sagen, dass Anbieter von Datenbank-Management-Systemen (DBMS) solche Monitoring-Lösungen im Angebot haben, wäre zu leicht. Denn das hat einen großen Haken: Laut einem DBMS-Anbieter sollte sein Monitor in Zeiträumen mit Spitzenlasten bei der Verarbeitung abgeschaltet werden. Oft können Sie Ihre Überwachung also nicht nutzen, wenn Sie sie am dringendsten bräuchten. Das ist in etwa so, als würden Sie Ihren Kindern ein Weihnachtsgeschenk geben, das sie aber im Dezember nicht öffnen dürfen.

Wer sein Date Warehouse also ernsthaft im Auge behalten möchte, wählt eine Lösung von einem Drittanbieter. Diese überwachen die Daten, die durch die Umgebung fließen, und verbrauchen dabei nur ein Minimum an Rechenressourcen. Sie lassen sich auch in Spitzenzeiten nutzen und beeinträchtigen nicht die Performance. Wenn Sie damit die schlafenden Daten identifiziert haben, können Sie sie auf andere Storage-Medien verschieben – etwa auf Nearline Storage oder Archiv-Storage. Wenn das Data Warehouse von solchen schlafenden Daten entlastet wird, kann seine Performance deutlich steigen.

Natürlich können die schlafenden Daten auch wieder ins Data Warehouse zurückgeholt werden, wenn der Bedarf entsteht – sie auf alternativen Storage-Formen unterzubringen, bedeutet nicht, dass sie dauerhaft nutzlos oder nicht einsetzbar wären. Stattdessen kann man ihre Einstufung und physische Aufbewahrung verändern, wenn wahrscheinlicher wird, dass auf sie zugegriffen werden muss.

Neulich fragte mich ein Kunde danach, wie er sein Data Warehouse schneller machen könne. Ich sagte ihm, er müsse ein Monitoring dafür einführen. Er schaute mich an, als hätte ich gesagt, er solle zum Mond fliegen – er hatte einfach noch nie darüber nachgedacht. Ich aber sehe die Sache so: Sich um die Performance eines Data Warehouses ohne Monitor zu bemühen, ist das Gleiche, wie zu versuchen, ohne ärztliche Beratung gesünder zu werden. Wahrscheinlich ist beides nicht unmöglich. Aber wenn man alle Faktoren berücksichtigt, möchte man das lieber jemand anderes versuchen lassen.

Über den Autor:

Bill Inmon gilt als einer der Väter des Data Warehouses. Er hat mehr als 40 Jahre Erfahrung mit Management-Technologien für Datenbanken und der Konzeption von Data Warehouses und mehr als 40 Bücher und 1000 Artikel über diese Themen geschrieben. Seine Bücher wurden in neun Sprachen übersetzt. Inmon ist bekannt für seine Seminare über den Aufbau von Data Warehouses und als Keynote-Redner für viele große Computer-Verbände.

Erfahren Sie mehr über Business-Software

- GOOGLE-ANZEIGEN

ComputerWeekly.de

Close