kentoh - Fotolia

Meinung

Fundierte Entscheidungen durch integriertes Datenmanagement

Zuverlässige Daten und ihre Bereitstellung sind das A und O für datenbasierte Entscheidungen. Dabei helfen integrierte Plattformen und Technologien wie KI und Machine Learning.

von

Michael Herrmann, SAS DACH

Zuletzt aktualisiert:29 Apr. 2020

In Diskussionen rund um Trendtechnologien wie künstliche Intelligenz (KI), Machine Learning und Internet of Things (IoT) wird oft eine zentrale Disziplin unterbewertet: das Datenmanagement. Und das, obwohl die Aufbereitung von Daten bis zu 80 Prozent der Arbeitszeit von Datenanalysten und Data Scientists in Anspruch nimmt.

Dieses Missverhältnis ist dadurch bedingt, dass es heute mehr Daten als je zuvor gibt. Diese liegen jedoch längst nicht immer in ausreichender Konsistenz, Aktualität, Qualität und Vollständigkeit vor, damit sie für Geschäftsprozesse genutzt werden können.

Im Zweifelsfall wartet die Fachabteilung darauf, adäquate Daten von der IT zu bekommen, um drängende Fragen beantworten und Entscheidungen treffen zu können. Dadurch verlieren Unternehmen wertvolle Zeit und haben einen Nachteil gegenüber Wettbewerbern, die schon einen Schritt weiter sind in Sachen Digitalisierung.

Stolpersteine: Datenqualität und Silobildung

Wenn man sich heutige Herausforderungen im Zusammenhang mit Datenmanagement anschaut, muss man auch die historische Entwicklung berücksichtigen. Für Datenmanagement war bisher traditionell die IT zuständig, und es fand vornehmlich in Enterprise Data Warehouses statt. Mit der Digitalisierung haben sich jedoch auch die Aufgaben für bestehende Datenumgebungen grundlegend geändert.

Während die IT versucht hat, neue Datenquellen und -typen in die vorhandenen Strukturen zu zwängen, wurden Business-Anwender und Entscheider immer frustrierter. Sie nahmen schließlich die Aufgabe der Datenerhebung und -aufbereitung selbst in die Hand, um schnell Antworten auf ihre Geschäftsfragen zu bekommen – Ursprung heute noch vielerorts vorhandener dezentraler Datensilos. Analytische Lösungen wurden eher taktisch als strategisch eingesetzt, so dass potenzielle Synergien ungenutzt blieben. Die IT hatte kaum eine Chance, diese Systeme zu kontrollieren und zu steuern – es entstand eine sogenannte Schatten-IT.

Die aus der historischen Situation resultierende mangelnde Qualität der (oder unvollständige Sicht auf) Daten hat weitreichende Folgen für Digitalisierungsinitiativen. Wenn Führungskräfte und Verantwortliche im Unternehmen den Daten nicht trauen (können), bieten diese auch keine Unterstützung bei Entscheidungsprozessen.

Auf eine integrierte Sicht kommt es an

Fragmentierte Zuständigkeiten für Datenaufbereitung und Datenqualität machen es immens schwierig, agil auf Änderungen im Markt und auf Kundenseite zu reagieren. Ein großer Teil der Corporate Intelligence versteckt sich in Excel-Listen, Code-Schnipseln und einzelnen Sandbox-Umgebungen. Die IT muss sehr viel Zeit und Mühe aufwenden, um diese Fragmente zu operationalisieren. Integration – von Daten, Systemen, Mitarbeitern – auf einer zentralen Plattform ist daher eine Königsdisziplin für Unternehmen.

Doch wie lässt sich sicherstellen, dass Daten verfügbar und analysebereit sind – wann und wo immer sie im Unternehmen gebraucht werden? Für die Datenaufbereitung gibt es – je nach Ausgangssituation im Hinblick auf Unternehmensanforderungen, Geschäftszweck, Bedürfnisse der Anwender – verschiedene Ansätze.

Self-Service, ETL oder Machine Learning?

Das ansteigende Datenvolumen und immer mehr externe Datenquellen, die es einzubinden gilt, führen notwendigerweise zur Consumerization of IT, einer Beschäftigung mit Daten in nicht-technologischen Abteilungen. Voraussetzung dafür: die zeitnahe Bereitstellung dieser Daten für Mitarbeiter ohne IT-Kenntnisse. Business-Analysten brauchen Self-Service-Tools, mit denen sie selbstständig Daten aufbereiten können, um die IT zu entlasten, die sich dadurch wieder auf ihre Kernaufgaben konzentrieren kann.

Self-Service-Tools für die Datenaufbereitung bieten sich vor allem dann an, wenn ein Unternehmen eine begrenzte Anzahl von Power-Usern oder Datenexperten hat. Ein Hauptvorteil ist die Time to Value: Schnelle Ergebnisse und eine kurze Lernkurve sind typisch. Ideal ist eine solche Lösung, die mit geringen Kosten und wenig Aufwand verbunden ist, für einmalige Abfragen. Es bleibt allerdings ein Restrisiko, dass noch mehr Silos entstehen und die Data Governance leidet.

Traditionelle Technologien für Datenmanagement wie ETL und Datenqualität sind ebenfalls nützlich für eine solide Datenversorgung. Entsprechende Lösungen sind in der Lage, sowohl einfache als auch komplexe Anforderungen zu bedienen, und sie bieten einen strukturierten Ansatz für das Datenmanagement. Anwender sind versierte Spezialisten wie beispielsweise ETL-Entwickler und Data Engineers.

Die Time to Value und die Lernkurve sind länger als bei Self-Service-Tools. Aber dafür steigt die Kontrolle über Upstream-Prozesse im Datenmanagement und die Produktivität der Mitarbeiter. Zudem ist der Integrationsfaktor größer, indem eine Single Version of the Truth über Datensilos und Anwendergruppen hinweg entsteht.

Für die schnelle und zuverlässige Bereitstellung von Daten spielen vor allem fünf Bereiche eine Rolle:

Datenorchestrierung: Daten- und API-Integration sowie Datenbewegung müssen zusammenwachsen, um DataOps-Methoden zu unterstützen. Dies erfordert eine Kombination unterschiedlicher Technologien, die einen zentralen Datenfluss sicherstellen. Nur so lassen sich datenbezogene Tätigkeiten orchestrieren – und das über verschiedene Standorte hinweg, On-Premises oder in der Cloud.

Data Discovery: Ein übergreifendes Verzeichnis für Suchen, Bereitstellung, Sicherung und Interpretation von Daten und anderen Objekten wird immer wichtiger. Advanced Analytics ermöglicht die Automatisierung profaner Datenmanagementaufgaben und macht Ressourcen frei, um tatsächlich Mehrwert aus den Daten zu schöpfen.

Datenaufbereitung: Künstliche Intelligenz (KI) schafft die Basis für fortschrittliche Datentransformation und ermöglicht die automatische Bereinigung und Zusammenführung von Daten. Auf diese Weise werden auch Anwender ohne technische Vorkenntnisse in die Lage versetzt, Daten zu nutzen.

Model Management: Es geht nicht mehr lediglich um das separate Management einzelner Modelle, sondern um die zentrale Steuerung aller Modelle in einer einzigen Applikation. Gerade angesichts der Tatsache, dass viele analytische Modelle niemals in Produktion kommen oder schnell obsolet werden (Model Decay), ist es umso wichtiger, dass Unternehmen schnell und einfach neue Modelle registrieren, sie anpassen, verfolgen, bewerten, veröffentlichen, regulieren und dokumentieren können.

Data Governance: Aktuelle Gesetze zum Datenschutz erfordern Data-Governance-Programme, die Data Privacy by Default vorsehen. Treiben Unternehmen Standards und Programme nicht proaktiv voran, laufen sie nicht nur Gefahr, den rechtlichen Vorgaben zu widersprechen. Sie könnten auch das Vertrauen ihrer Kunden verlieren. Mit dem Einsatz von Advanced Analytics und künstlicher Intelligenz in der Entscheidungsfindung sind sie daher noch mehr gefordert, Transparenz in die Algorithmen zu bringen.

Automatisierte Daten-Pipelines sind eine weitere Option, um Daten kontrolliert und zuverlässig an die Anwender zu bringen. Methoden dafür sind unter anderem Streaming, Virtualisierung oder Machine Learning. Anwender und Time to Value sind ähnlich wie bei herkömmlichen Datenmanagementtechnologien. Pluspunkte sind die Möglichkeit, Upstream-Prozesse für Datenmanagement zu automatisieren, sowie die Produktivitätssteigerung für Datenmanagementexperten und Datenkonsumenten. In einem automatisierten Prozess lassen sich Streaming-Daten überwachen, Ausreißer ausmachen, die womöglich auf eine Anomalie hinweisen, oder die beste Aktion über Machine-Learning-Algorithmen bestimmen.

Die Wahl eines Datenmanagementansatzes muss keine Entweder-oder-Entscheidung sein. In vielen Fällen bietet sich eine Kombination an. Zum Beispiel traditionelles ETL für die Orchestrierung komplexer Prozesse bei maximaler Kontrolle und Self Service auf der letzten Meile mit Tools, die vor allem in der Lage sind, Ad-hoc-Anfragen zu beantworten. Faktoren, die grundsätzlich eine Rolle bei der Beurteilung von Pro und Kontra einer Technologie spielen, sind neben Kosten, Performance und Inhouse-Skills: Governance, Risk und Compliance, menschliche Beteiligung versus Automatisierung, einmalige Abfragen versus Routineabfragen sowie die Datenverfügbarkeit.

Dreiklang: Datenqualität – Analytics – Entscheidung

Die zunehmende Digitalisierung von Geschäftsprozessen stellt Unternehmen vor die Aufgabe, so vielen Anwendern wie möglich zuverlässige und vollständige Daten für Analysen und – basierend auf den daraus entstehenden Erkenntnissen – fundierte Entscheidungen zur Verfügung zu stellen. Eine valide und umfassende Sicht auf die Datenlage ist die Grundvoraussetzung, um sich folgende Vorteile zu verschaffen: höhere operative Effizienz, kürzere Entscheidungsprozesse und aussagekräftige Analyseergebnisse – und damit insgesamt verbesserte datengetriebene Entscheidungsfindung, um sich an veränderte Marktbedingungen anzupassen.

„Die zunehmende Digitalisierung von Geschäftsprozessen stellt Unternehmen vor die Aufgabe, so vielen Anwendern wie möglich zuverlässige und vollständige Daten für Analysen und fundierte Entscheidungen zur Verfügung zu stellen.“

Michael Herrmann, SAS

Erforderlich ist als Basis für all die Optionen im Datenmanagement: eine integrierte Plattform, die den gesamten Analytics Lifecycle abdeckt, inklusive Datenqualität, Datenintegration, Datenföderation, Streaming Analytics, Datenaufbereitung und Data Governance. Zudem ist eine Ausgewogenheit zwischen Offenheit und Kontrolle wichtig: Datenfluss muss in multiplen Computing Frameworks und Umgebungen stattfinden können, ohne dass die zentrale Steuerung dadurch leidet.

Über den Autor:
Michael Herrmann ist Senior Solutions Architect Data Management bei SAS DACH.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Nächste Schritte

Kostenloses E-Handbook: Ethik im Datenmanagement umsetzen.

Wie DataOps Datenschutz und Datenmanagement vereint.

Automatisiertes Datenmanagement wichtig für die IT-Zukunft.

Fundierte Entscheidungen durch integriertes Datenmanagement

Zuverlässige Daten und ihre Bereitstellung sind das A und O für datenbasierte Entscheidungen. Dabei helfen integrierte Plattformen und Technologien wie KI und Machine Learning.

Stolpersteine: Datenqualität und Silobildung

Auf eine integrierte Sicht kommt es an

Self-Service, ETL oder Machine Learning?

Für die schnelle und zuverlässige Bereitstellung von Daten spielen vor allem fünf Bereiche eine Rolle:

Dreiklang: Datenqualität – Analytics – Entscheidung

Nächste Schritte

Erfahren Sie mehr über Data Governance

Data Profiling (Datenarchäologie, Datenprofilerstellung)

AWS Glue

Data Fabric (Data-Fabric-Architektur)

Datenaufbereitung (Data Preparation)