Der Aufbau eines Datenkatalogs ist für viele IT- und Datenmanagement-Teams ein wichtiges Projekt. Es wird oft in Verbindung mit Programmen zu Data Governance und Metadatenmanagement verbunden.

Unternehmen sollten jedoch ein Datenkatalogprojekt nicht in Angriff nehmen, ohne die Meinung der Geschäftsanwender einzuholen. Außerdem sollten sie eine Reihe weiterer Schritte planen, die Teil des Prozesses sein müssen.

Diese Schritte werden im Folgenden näher erläutert. Bevor wir uns jedoch mit der Erstellung eines Datenkatalogs befassen, definieren wir zunächst, was ein Datenkatalog ist. Außerdem skizzieren wir die wichtigsten Funktionen, die Kataloge bieten und diskutieren, warum sie zu einer Kernkomponente moderner Datenmanagementumgebungen geworden sind.

Kurz gesagt ist ein Datenkatalog eine Referenzanwendung, die es Geschäftsanwendern, Datenwissenschaftlern , Business-Intelligence-Analysten, Datenmanagern und anderen Mitarbeitern ermöglicht, Datensätze zu erkunden, ihren Inhalt zu verstehen und mit anderen zusammenzuarbeiten sowie Wissen über Datenbestände auszutauschen. Im Idealfall hilft ein Datenkatalog dabei, relevante Daten für die Nutzung in operativen und analytischen Anwendungen selbständig zu finden und darauf zuzugreifen.

Was ist ein Datenkatalog?

Mechanismen zur Durchsetzung von Data-Governance-Richtlinien sowie Datensicherheits- und Datenschutzkontrollen können ebenfalls in Datenkataloge eingebettet werden, um sicherzustellen, dass die Daten geschützt sind und ordnungsgemäß verwendet werden.

Datenkataloge unterstützen dabei, dieses Problem zu beseitigen, indem sie eine einheitliche Ansicht der Datenbestände mit integrierten Such- und Data-Discovery-Funktionen bieten. Darüber hinaus können sie bestimmte Aspekte des Datenmanagementprozesses automatisieren. Kommerzielle Datenkatalog-Tools verschiedener Anbieter nutzen beispielsweise künstliche Intelligenz (KI) und Machine-Learning -Technologien, um Datenprofile zu erstellen, die Datenqualität zu prüfen, Datensätze zu kuratieren und andere Aufgaben zu erledigen.

Ohne einen Datenkatalog bleiben nützliche Daten oft vor den Endbenutzern verborgen. Da Unternehmen immer mehr Daten sammeln, sind diese in der Regel in verschiedenen Datenspeichern verstreut. Wenn Business- und Analytics-Anwender relevante Daten nicht finden können, sind geschäftliche Operationen und Analyseinitiativen weniger effektiv. Das ist ein großes Problem, da Unternehmen zunehmend datengesteuerte Geschäftsentscheidungen treffen wollen und müssen.

Obwohl die Begriffe Datenkatalog, Geschäftsglossar und Datenwörterbuch (Data Dictionary) manchmal synonym verwendet werden, sind sie nicht dasselbe. Ein Geschäftsglossar definiert die in einem Unternehmen verwendeten Geschäftsbegriffe und stellt eine maßgebliche Quelle für deren Verständnis dar. Ein Datenwörterbuch hingegen liefert technische Informationen über Daten.

Ein guter Datenkatalog orientiert sich an der geschäftlichen Nutzung der Daten – und nicht nur an der technischen Implementierung der Systeme. Ein Fachbereichsmodell oder Subject Area Model (SAM) definiert die verschiedenen Fachgebiete für die Daten eines Unternehmens und die darin enthaltenen Geschäftskonzepte. Es zeigt dann den Geschäftsanwendern, wo sich die Daten befinden, ohne dass sie durch Anwendungen, Dateien oder Datenbanken eingeschränkt werden. Das SAM dient damit als Grundlage für Ihre Datenarchitektur, und sowohl der Datenkatalog als auch das Geschäftsglossar sollten auf ihm basieren.

Ein robustes Geschäftsglossar für das gesamte Unternehmen ist ein wesentlicher Bestandteil eines effektiven Datenmanagement und des Managements von Metadaten: Es kann Inhalte für die Verwendung im Datenkatalog liefern. Die Verantwortlichen für die Geschäftsdaten müssen an der Erstellung des Glossars beteiligt sein, da sie die Daten ihres Fachbereichs und die damit verbundenen Business-Metadaten am besten kennen.

Das Datenwörterbuch sollte Beschreibungen und Zuordnungen aller Datentabellen oder -dateien und aller zugehörigen Metadaten enthalten. Es bildet dann die Grundlage für die Aufnahme der Metadaten in den Datenkatalog. Auch hier sind die Verantwortlichen für die Geschäftsdaten von entscheidender Bedeutung, da sie Leitlinien für die im Datenkatalog zu verwendenden Business-Metadaten bereitstellen – nach Quelle, Konzept und Themenbereich.

6. Suchen Sie Metadaten aus Datenbanken und anderen Datenquellen

Datenkataloge verwenden Metadaten, um Datentabellen und -dateien für Benutzer zu identifizieren. Ein Katalog durchsucht die Datenbanken des Unternehmens und andere Datenbestände und lädt die zugehörigen Metadaten in sein Inventar der Datenbestände. Bevor ein Unternehmen mit dem Aufbau eines Datenkatalogs beginnt, müssen die Quellen für die Metadaten identifiziert und erfasst werden. Dies ist ein wichtiger Schritt und erfordert – wie die beiden vorangegangenen Punkte – ein solides Datenmanagementprogramm. In diesem Fall sind Datenmanager erforderlich, die einen Einblick in die zu verwendenden Datenquellen geben.