JRB - stock.adobe.com

Meinung

Moderne BI: Warum man auf Datenvirtualisierung setzen sollte

Unternehmen generieren Big Data aus einer stetig wachsenden Anzahl Datenquellen. Data Scientists sehen sich mit der Herausforderung konfrontiert, hieraus Einsichten zu gewinnen.

von

Otto Neuer, Denodo

Zuletzt aktualisiert:13 Nov. 2020

Viele Organisationen verlassen sich trotz des exponentiellen Datenwachstums auf veraltete Konzepte und Systeme, die zeit- und ressourcenraubend sind und Data Scientists bei Ihrer eigentlichen Kernaufgabe – dem Heben des Informationsschatzes – nicht ausreichend unterstützen. Um mit dieser Entwicklung Schritt halten zu können, sollten Unternehmen auf moderne und agile Wege zur Datenintegration umsteigen.

Data Scientists sehen sich mit unbekannten Herausforderungen konfrontiert: In immer mehr Bereichen eines Unternehmens werden stetig anwachsende Mengen an Daten und aus zunehmend heterogenen Quellen erzeugt. All diese Daten stammen aus vielen unterschiedlichen Kontexten, wie zum Beispiel Kundenkommunikation, Marktentwicklung, Sensordaten oder Finanztransaktionen. Moderne Business-Intelligence-Lösungen (BI) sind heute in der Lage, große Mengen heterogener Daten zu bändigen.

Voraussetzung für die effektive Arbeit von Data Scientists ist jedoch, dass diese flexibel auf hochaktuelle und gleichzeitig konsistente Unternehmensdaten zugreifen können, um diese zu analysieren und valide Erkenntnisse für das Business zu generieren.

Sicherlich ist auch der Siegeszug der Cloud einer der maßgeblichen Treiber für die BI-Modernisierung. Hybride IT-Umgebungen, bestehend aus On-Premises- und Cloud-Netzwerken aber auch Multi-Cloud-Architekturen sind mittlerweile etabliert – dennoch verfügen viele Unternehmen noch nicht über die Möglichkeit zu deren nahtlosen Integration.

Diese Vielfalt an Datenquellen stellt Data Scientists vor Herausforderungen, da sie nicht über einen zentralen Zugriffspunkt verfügen, wodurch ihnen der Echtzeit-Zugriff über die Gesamtheit der Unternehmensdatensätze oftmals verwehrt bleibt.

Die Zentralisierung von Daten und Analyseprozessen ist aber nach wie vor unumgänglich, wenn es um nachhaltige Workload Balancings oder die Umsetzung von Data-Governance-Richtlinien geht. Moderne Architekturen setzen hierzu jedoch nicht mehr auf eine physische Datenreplikation, sondern schaffen mit einer logischen (virtuellen) Schicht einen zentralen Zugriffspunkt für sämtliche Datenkonsumenten innerhalb des BI-Systems.

Heterogene Datenquellen effektiv nutzbar machen

Neben der schieren Menge an Informationen stellen auch die Art der Daten und die Umgebung, aus der sie bezogen werden, Organisationen gleichermaßen vor Chancen wie Herausforderungen. Von Data Scientists richtig analysiert, erhalten Unternehmen umfassende Einblicke – beispielsweise in Marktentwicklungen, sich verändernden Kundenanforderungen oder interne Geschäftsprozesse.

Doch stoßen herkömmliche Konzepte zur Datenintegration zunehmend an ihre Grenzen: Traditionelle Architekturen auf Basis von Extract, Tranform und Load (ETL) sind oftmals schlichtweg nicht in der Lage, Daten aus heterogenen Umgebungen konsistent, aktuell und redundanzfrei bereitzustellen. Im Gegenteil: Sie werden zum Flaschenhals in einem modernen Set aus BI-Tools und schränken deren Potentiale unnötig ein.

Insbesondere physische Data Warehouses stoßen in Anbetracht der Komplexität von Datenbeständen an ihre Grenzen: Ihr Einsatz ist aufgrund von zeit- und ressourcenfressenden Prozessen auch wirtschaftlich gesehen kaum attraktiv. Alternativen, die auf die Fähigkeiten von Connector oder Data Adapter aufbauen, weisen ebenfalls Schwächen auf: Punkt-zu-Punkt-Verbindungen zwischen einer Quelle und ihren Zielen führen zu einer noch höheren Komplexität, was deren Management und Pflege aufwendig und anfällig für Fehler macht.

Die Lösung: Eine zeitgemäße Form der Datenintegration basierend auf Datenvirtualisierung, die eine Konnektivität mit den unterschiedlichen Datenquellen sicher und agil ermöglicht. Datenvirtualisierung agiert als logische Datenschicht, die alle über verschiedene Systeme verteilten Unternehmensdaten integriert, einheitliche Daten für zentralisierte Sicherheit und Governance verwaltet und diese den Datenkonsumenten in Echtzeit zur Verfügung stellt. Einmal implementiert, können Unternehmen schnell neue Datenquellen anbinden und diese sämtlichen Datenkonsumenten der BI bereitstellen.

Datenvirtualisierung für gewinnbringende Echtzeitanalysen

In der Realität sehen wir heute häufig, dass die Infrastrukturen vieler Unternehmen aus einem Mix aus Alt- und Neusystemen sowohl aus On-Premises und Cloud bestehen. Die Schwierigkeit besteht dann darin, dass den Datenkonsumenten kein zentraler Echtzeit-Zugriffspunkt für sämtliche Informationen zur Verfügung gestellt wird.

Dies kann nicht nur zu erheblichen Sicherheits- und Compliance-Risiken führen, sondern ist zudem auch noch in höchstem Maße ineffizient: Data Scientist verbringen in der Realität bis zu 80 Prozent ihrer Arbeitszeit damit, die relevanten Daten ausfindig zu machen, zu sammeln und für den eigentlichen Analyseprozess vorzubereiten. Obwohl Letzterer der eigentliche, gewinnstiftende Prozess ist, stehen den Data Scientists hierfür lediglich 20 Prozent ihrer Arbeitszeit zur Verfügung.

Um Daten aus heterogenen Quellen analysieren zu können, replizieren Data Scientists diese klassischerweise oftmals in ein hierfür vorgesehenes Repository beziehungsweise Data Lake. Diese physische Datenreplikation ist zeitintensiv, erzeugt redundante Daten in Silos und birgt noch weitere Nachteile: Zum einen kommt es zu erhöhten Latenzen und einem Verlust des Kontextes, in dem die eigentlichen Daten stehen. Zum anderen besteht das Risiko der Daten- und Analyseinkonsistenz – sprich: Aufgrund des langwierigen Kopiervorgangs nach festgelegten Intervallen sind die replizierten Daten nicht mehr synchron mit den Originalen.

„Eine Grundvoraussetzung für BI und die effektive Arbeit der Data Scientists ist eine vollständige und konsistente Sicht auf alle Unternehmensdaten in Echtzeit.“

Otto Neuer, Denodo

Datenvirtualisierung schafft an dieser Stelle Abhilfe. Da hierbei keine Duplizierung der Daten notwendig ist, verbleiben die Originaldaten an ihrem ursprünglichen Speicherort und der zugrunde liegende Kontext bleibt erhalten. Über einen sogenannten Access Layer – einer logischen, virtuellen Schicht, die als Intermediär fungiert – können Datenkonsumenten auf die relevanten Daten aus den verschiedenen Quellen unmittelbar zugreifen – auch in hybriden oder Multi-Cloud-Umgebungen. Die Datenquellen werden so von den Anwendungen und Hintergrundprozessen entkoppelt und bleiben synchron mit den Originaldaten. Diese Vorgehensweise verbessert den gesamten Workflow der Data Scientists – von der Datenaufbereitung bis hin zur Analyse und Verwertung der Ergebnisse.

Fazit

Business Intelligence ist eine integrierte Disziplin aus Prozessen, Technologien und Menschen. Greifen alle Komponenten nahtlos ineinander, leistet BI einen zentralen Beitrag zum Erfolg einer Organisation. Jedoch können gerade veraltete Konzepte zur Datenintegration zum Flaschenhals werden und ein vollumfängliches Ausschöpfen der BI-Potentiale verhindern: Eine Grundvoraussetzung für BI und die effektive Arbeit der Data Scientists ist eine vollständige und konsistente Sicht auf alle Unternehmensdaten in Echtzeit – egal in welchem Format die Daten vorliegen und an welchem Orten oder in welcher Cloud sich diese befinden.

Die Lösung besteht in einer logischen Form der Datenintegration mit Datenvirtualisierung, anhand derer sämtliche Datenquellen flexibel integriert und den Datenkonsumenten der BI effektiv zur Verfügung gestellt werden können.

Über den Autor:
Otto Neuer ist Regional VP Sales bei Denodo.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Moderne BI: Warum man auf Datenvirtualisierung setzen sollte

Unternehmen generieren Big Data aus einer stetig wachsenden Anzahl Datenquellen. Data Scientists sehen sich mit der Herausforderung konfrontiert, hieraus Einsichten zu gewinnen.

Heterogene Datenquellen effektiv nutzbar machen

Datenvirtualisierung für gewinnbringende Echtzeitanalysen

Fazit

Erfahren Sie mehr über Datenverwaltung

Business Intelligence (BI)

Data Lake

Data Fabric (Data-Fabric-Architektur)

Datenpipeline