blackzheep - stock.adobe.com

Das sind die Hauptmerkmale einer Data-Catalog-Software

Datenkataloge dienen als Datenportale für Self-Service Business-Analytics-Nutzer. Data-Catalog-Software sollte über zehn zentrale Features verfügen.

Mitarbeiter, die auf Business Analytics Tools im Self-Service angewiesen sind, um datengesteuerte Geschäftsentscheidungen zu treffen, benötigen den Zugriff auf sehr viele Daten. Sie dürfen jedoch nicht einfach nur Rohdaten aus einem Data Lake oder den anderen Big-Data-Speichern abrufen. Ihre Daten müssen zuvor aufbereitet werden, damit sichergestellt ist, dass diese auch korrekt und für die jeweilige Aufgabenstellung sinnvoll sind. Genau hierzu ist eine Data-Catalog- beziehungsweise Datenkatalog-Software gedacht.

Ein Datenkatalog ist ein Metadaten-Management-Tool, das so benutzerfreundlich angelegt ist, dass es praktisch von jedem Fachanwender genutzt werden kann. Datenkataloge werden angelegt, damit Benutzer über ein Portal Daten auffinden können, die von Data Stewards oder anderen Datenprofis zusammengestellt wurden. Sie katalogisieren die Daten mit Begriffen, die die Geschäftsanwender verstehen und sie liefern Kontext, damit diese in Analyseanwendungen eingesetzt werden können.

Diese Art von Metadaten-Management ist äußerst gefragt, da viele Unternehmen sich schwertun, alle erfassten Daten zu katalogisieren und die Datenschutzbestimmungen, wie die Datenschutz-Grundverordnung der Europäischen Union, einzuhalten.

Die Analystenfirma Gartner empfiehlt die Verwendung von Datenkatalog-Software, um die Bestände an verfügbaren Datenbeständen zu kuratieren und Informationsketten abzubilden. Diese Werkzeuge sind nach Ansicht der Analysten ein wesentlicher Bestandteil der Strategien für das Daten-Management im Unternehmen.

Wie Data-Catalog-Software funktioniert

Sharon Graves, Enterprise Data Evangelist und Tableau-Server-Administratorin bei GoDaddy, implementierte im Jahr 2015 die Datenkatalog-Software von Alation. Ziel war es, den Zeitaufwand zu reduzieren, der bei Analysten anfiel, um die richtigen Daten zu finden. Außerdem musste gewährleistet sein, dass alle Datenzugänge zuvor von Daten-Managern überprüft wurden.

„Es bestand das Problem, dass Benutzer nicht wussten, welche Datenquelle sie verwenden oder wo sie die Daten finden. Wir mussten die Benutzer darauf hinweisen“, sagt die Administratorin. „Wir wollten, dass unsere Analysten ihre Zeit mit Analysen verbringen, und wir wollten die Endbenutzer dabei unterstützen, einfache Diagramme und Kreuztabellen zu erstellen.“

Data-Catalog-Softwarefunktionen
Abbildung 1: Data-Catalog-Softwarefunktionen

Der Datenkatalog erhält seine Metadaten aus verschiedenen Quellen, unter anderem Hadoop, Amazon RedShift, Apache Hive, Tableau Server und Teradata. Er sammelt sie in einem Portal, in dem die Nutzer nach relevanten Daten suchen. Er sortiert die Daten basierend auf einer Reihe von Kriterien, beispielsweise, ob der Daten-Manager die Daten für die Verwendung in bestimmten Anwendungen frei gegeben hat, oder auch anhand der Popularität der Daten. Letztere ergibt sich aus der Nutzung durch die Datenexperten und stellt sicher, dass die wichtigsten Daten zuerst angezeigt werden. Datenteams können sich einheitlich strukturierte oder ganze Datensatzpakete erstellen, mit denen die Daten dann von mehreren Usern gemeinsam genutzt werden können.

Traditionelle Metadaten-Management-Funktionen bilden laut Gartner den Kern der Datenkatalog-Software, einschließlich Geschäftsglossare, Data Lineage und Impact-Analysen, zusammen mit modernen Funktionen wie selbstgenerierender Themenextraktion, Taxonomiegenerierung, Semantic Discovery, Machine-Learning-Musterzuordnung und Knowledge Graphing. Alles in allem ermöglichen Datenkataloge es Unternehmen, den größten Nutzen aus den Daten in Data Lakes zu ziehen, indem sie das Auffinden und Anwenden in der Geschäftsanalyse erleichtern.

Neben Alation bieten weitere Unternehmen Datenkatalog-Software entweder als Teil ihrer Metadaten-Management-Tools oder als eigenständiges Produkt an. Hierzu gehören Attivio, Cambridge Semantics, Collibra, Informatica, Microsoft, Oracle, SAP und Waterline Data.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!

Nächste Schritte

Daten-Manager müssen sich auf EU-DSGVO/GDPR vorbereiten.

Big Data im Automobil benötigt optimales Daten-Management.

E-Guide: Datenanalyse und Daten-Management demokratisieren.

Erfahren Sie mehr über Business Intelligence

ComputerWeekly.de
Close