Vasyl - stock.adobe.com

Mit Data Vault zu mehr Agilität im Data Warehouse

Da Unternehmen ihre IT im Zuge der Digitalisierung reformieren müssen, stehen traditionelle Data Warehouses unter Druck. Das Data-Vault-Konzept soll hierbei entlasten.

Bewährte Ansätze (zum Beispiel Kimball oder Inmon) versagen angesichts der heutigen Anforderungen von Big Data und Analytics, denn sie werden schnell unübersichtlich und unwirtschaftlich. Es fallen nicht nur lange Test- sowie Umsetzungszyklen an, sondern auch eine große Anzahl von Abhängigkeiten beziehungsweise Auswirkungen.

Aus diesem Grund ist das Konzept Data Vault entstanden. Es ermöglicht die Anpassung von Architektur und Methodik eines Data Warehouse an sich ändernde Bedingungen. Die Time-to-Market sinkt, denn Entwicklungen lassen sich in vertretbarer Zeit und mit überschaubaren Ressourcen umsetzen. Die Modellierungstechnik stellt eine Lösung für viele Probleme im Data-Warehouses-Bereich dar.

Agilität durch Data Vault

Das Konzept zeichnet sich durch eine große Anpassungsfähigkeit bei Veränderungen, die Möglichkeit, Datenladeprozesse parallel ablaufen zu lassen, sowie eine bitemporale, umfassende Datenhistorisierung, aus. Unternehmen kommt dabei zugute, dass Data Vault vor allem ressourcenarme und flexible Erweiterungen ermöglicht.

Data Vault 2.0 beinhaltet die Methode (Implementierung), die Architektur und das Modell. Es bezieht den ganzen Entwicklungsprozess und die Architektur ein.

Data Vault ist aufgebaut aus drei Layer (Schichten):

  • Im Staging Layer werden die Rohdaten aus Quellsystemen (zum Beispiel ERP oder CRM) gesammelt.
  • Data Warehouse Layer umfasst als Data-Vault-Modell:
    • Speicherung der Rohdaten im Raw Data Vault;
    • Harmonisierte und transformierte Informationen auf der Grundlage von Business Rules im Business Data Vault (optional);
    • Speicherung von Laufzeitdaten im Metrics Vault (optional);
    • Speicherung von Informationen, die direkt aus operativen Systemen in das Data Warehouse übertragen werden, im Operational Vault (optional).
  • Im Information Mart Layer schließlich werden die Daten nach Modellierungsmethoden wie dem Sternschema modelliert. Aus ihr speisen sich später die Daten für Analytics- und Reporting-Szenarios.

Hubs, Links und Satelliten

Anders als bei den traditionellen Konzepten (dritte Normalform 3NF) ordnet Data Vault die zum Objekt gehörenden Daten bei der Modellierung drei Gattungen zu, die klar voneinander getrennt abgelegt werden:

  • Hubs beschreiben das Kerngeschäft, zum Beispiel Verkauf, Kunde, Produkt (Core Business Concept). Im Zentrum der Hub-Tabelle steht die Vertrags- beziehungsweise Kundennummer (Business Key). Der Hub setzt sich aus dem Business Key, einer Reihe von ID-/Hash-Schlüsseln (im Data Warehouse erzeugt), dem Zeitstempel (Ladedatum) und der Datensatzquelle zusammen. Er beinhaltet keinerlei deskriptive Daten.
  • Durch Links werden Beziehungen zwischen Business Keys erzeugt. Jeder Eintrag in einem Link modelliert n-m Beziehungen einer willkürlichen Nummer von Hubs. Das garantiert die Flexibilität des Data Vaults, wenn sich die Business Logik der Quellsysteme ändert, zum Beispiel bei der Anpassung der Kordialität von Beziehungen. Auch Links umfassen keine beschreibenden Daten, sondern die Sequenz-IDs der Hubs, auf die sie sich beziehen, einer im Data Warehouse generierten Sequenz-ID, Ladedatum und Datensatzquelle.
  • Die beschreibenden Informationen beziehungsweise der Kontext für Business Keys werden durch Satelliten abgebildet. Das gilt sowohl für Business Keys in Hubs als auch in Links. Sie speichern die gesamte Datenhistorie. Um einen einzelnen Business Key beziehungsweise eine einzelne Beziehung zu beschreiben, lassen sich mehrere Satelliten einsetzen. Ein Satellit kann jedoch nur einen Schlüssel (Hub oder Link) beschreiben.

Die Vorteile des Konzepts

Im Fokus von Data Vault steht die schnelle Bereitstellung integrierter Daten für Auswertungen und Reports. Unternehmen profitieren von dem Konzept in mehreren Aspekten:

  • Organisatorische Vorteile: Da Data Vault die Entwicklungszeit drastisch senkt, wird die Umsetzung von Anforderungen der Fachanwender erleichtert. Das Konzept erhöht den Return of Investment und ermöglicht die Skalierbarkeit des Data Warehouse. Daten werden bis zum Quellsystem nachverfolgbar. Am größten sind die Vorteile für Unternehmen, die sich mehr Agilität bei der Anpassung ihrer Business-Intelligence-Anwendungen wünschen, eine kurze Ladezeit bei großen Datenmengen benötigen oder ein vorgelagertes Core Data Warehouse innerhalb einer bestehenden Silo-Architektur erstellen wollen.
  • Technische Vorteile: Sowohl Batch-Verarbeitung als auch Near-Realtime-Loads werden von Data Vault unterstützt. Sogar unstrukturierte beziehungsweise NoSQL-Datenquellen können integriert werden. Da Business Rules (anders als im klassischen Data Warehouse) im Business Data Vault und in der Information Mart Layer eingesetzt werden, sind sie nahe am Fachanwender implementiert. Sie werden spät abgebildet und das Data Warehouse genauso mit Informationen bestückt, wie sie im Quellsystem vorliegen. Anders als von der „Source of Truth“ ist deshalb hier von der „Source of Facts“ die Rede. Die Agilität im Entwicklungszyklus erlaubt einen iterativen Data-Warehouse-Ausbau, so dass bedarfsgerechte Erweiterungen des Datenmodells für alle Themen möglich sind. Ein weiterer Vorteil ist, dass mit Data Vault Informationen aus Altbeständen zu einem definierten Stichtag darstellbar sind („Zeitreisen“). Der direkte Vergleich von Berichtsständen ist möglich. Dadurch, dass die Ladeprozesse unverändert, vollständig und historisiert stattfinden, erfüllen sie überdies Vorschriften bei Compliance und Audits.

Neues Konzept schnell umgesetzt

Um Data Vault umzusetzen, muss die Data-Warehouse-Architektur nicht neu aufgesetzt werden. Die Implementierung neuer Funktionen ist durch die Methode direkt möglich, wobei das Konzept bereits parallel angewendet werden kann, so dass bestehende Bestandteile nicht verloren gehen.

Stefan Mueller, it-novum GmbH

„Um Data Vault umzusetzen, muss die Data-Warehouse-Architektur nicht neu aufgesetzt werden.“

Stefan Müller, it-novum GmbH

Eine nützliche Hilfestellung bieten Frameworks. Das Ziehen einer Ebene zwischen Entwickler und Data Warehouse minimiert die Komplexität, wenn es um die Implementierung geht. So unterstützt das Pentaho Data Vault Framework Organisationen beim Entwickeln, Bereitstellen und Betreiben von Data Vaults. Damit lassen sich neue Datenquellen einfach integrieren, denn es müssen keine ETL-Strecken entwickelt werden, da die ETL-Jobs vollständig parametrisiert sind. Mit dem Framework sind auch komplizierte Use Cases möglich, zum Beispiel der Umgang mit fehlenden Datensätze oder multiaktiven Satelliten.

Die Konfiguration ist über die grafische Oberfläche möglich. Ohne Veränderung des Modells können Satelliten an beliebiger Stelle einbaut werden. Ein Konfigurations-Cockpit sorgt dafür, dass Steuerung und Integration neuer Datenquellen einfach möglich sind.

Für das Zusammenfügen historisierter Informationen und ihre Einspeisung in Data Marts für Auswertungen stehen eigene Tools zur Verfügung. Denn nur so ist ein Zugriff auf die Daten im jeweiligen Bedarfsfall möglich. Beispielsweise lassen sich mit Unterstützung des PIT Merge Join Step Informationen aus mehreren Satelliten chronologisch richtig integrieren, ohne den Rückgriff auf unflexible Point-In-Time-Tabellen.

Ist Data Vault etwas für Sie?

Data Vault eignet sich für Organisationen:

  • mit hohen Ansprüchen an kurze Ladezeiten bei großen Datenmengen,
  • die sich Agilität für die Entwicklung ihrer BI-Anwendungen wünschen, und
  • die ein vorgelagertes Core Data Warehouse innerhalb einer bestehenden Silo-Architektur aufbauen.

Das Konzept stellt ein mächtiges Werkzeug dar, mit dem sich durchgehende und abgestimmte Datenmodelle für Data Warehouses erstellen lassen. Bei Veränderungen kann schnell reagiert werden, so dass sich Data Vault für die Herstellung von Agilität eignet, um Data Warehouses für zukünftige Herausforderungen fit zu machen.

Über den Autor:
Stefan Müller ist Director Big Data Analytics bei der it-novum GmbH.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Fortsetzung des Inhalts unten

Erfahren Sie mehr über Big Data

ComputerWeekly.de
Close