JRB - stock.adobe.com

Plattformen für die Datenintegration erweitern ETL-Software

Datenintegrationssoftware wandelt Rohdaten in aussagekräftige Informationen um. Die Plattformen verwalten und vereinfachen die Datenverarbeitung.

von

Rick Sherman, Athena IT Solutions

Zuletzt aktualisiert:09 Juli 2019

Der Datenberg wächst ständig an. Unternehmen kommunizieren stärker als je zuvor mit ihren Kunden, Interessenten, Partnern, Lieferanten und anderen Gruppen. Schon allein das produziert eine Menge an Daten. Hinzu kommen Daten aus vielen anderen Quellen wie Social Media, dem Internet der Dinge (Internet of Things, IoT) oder Produktionsanlagen.

Die meisten Unternehmen haben kein Problem damit, fremd- und selbstgenerierte Daten zu sammeln. Eine effektive Verwaltung ist allerdings eine andere Geschichte. In vielen Fällen enthalten Datensilos inkonsistente Daten, die die Produktivität der Business-Anwender beeinträchtigen. Für die Fähigkeit, fundierte Entscheidungen zu treffen, ist dies ein großes Manko.

Mit Datenintegration lässt sich dieses Problem lösen. Im Gegensatz zu früher, als die Datenintegration im Wesentlichen die Nutzung eines Enterprise Data Warehouse bedeutete, beinhaltet sie heute oft eine logische Data-Warehouse-Umgebung. Diese umfasst das traditionelle Enterprise Data Warehouse (EDW) zusammen mit Data Lakes, analytischen Sandboxen und Data Science Hubs. Dabei geht es nicht nur darum, strukturierte Daten zu extrahieren und in relationale Datenbanken zu laden, sondern auch mit einer breiten Vielzahl von Datenstrukturen und Datenbanken zu arbeiten.

Bei der Datenintegration werden Daten – oft aus mehreren Quellen – in aussagekräftige Informationen für Führungskräfte, Datenanalysten, Data Scientists und andere umgewandelt. Da es immer wichtiger wird, die wachsenden Datenmengen und -varianten gemeinsam zu nutzen, ist die Entscheidung für kommerzielle Datenintegrationsplattformen eine Möglichkeit, den Prozess zu verwalten und zu vereinfachen.

Was sind Datenintegrationsplattformen?

Datenintegrationssoftware waren anfangs vor allem Tools zum Extrahieren, Transformieren und Laden (ETL) von Daten. Die Werkzeuge wurden entwickelt, um Daten automatisch aus Quellsystemen zu beziehen, sie in ein einheitliches Format zu konvertieren und sie dann in ein EDW oder eine andere Zieldatenbank zu laden. Die erste Generation der ETL-Tools waren einfache, aber teure Codegeneratoren mit eingeschränkter Funktionalität. Viele Unternehmen, die diese Tools evaluiert haben, fanden es effektiver, ihren eigenen benutzerdefinierten Integrationscode zu entwickeln.

Mehr Funktionalität bot die ETL-Software der zweiten Generation. Sie war allerdings primär Batch-orientiert und nicht sehr leistungsfähig. Basierend auf den Erfahrungen mit diesen beiden Typen von Tools sind viele IT-Manager zur Überzeugung gelangt, dass ETL-Software nicht die Kosten oder den Lernaufwand wert ist, da sie ihre Leistungsanforderungen nicht erfüllt.

Doch die Zeit bleibt nicht stehen: Im Laufe der Jahre haben sich ETL-Tools in mehreren Schlüsselbereichen weiterentwickelt – darunter in der Entwicklung, in der operativen Verarbeitung und in den Integrationsfunktionen. Um sie zu einer rentableren Entwicklungsplattform zu machen, haben ETL-Anbieter die Unterstützung für Codemanagement, Versionskontrolle, Debugging und Dokumentationsgenerierung hinzugefügt.

Bei der operativen Verarbeitung verfügen die Tools nun über integrierte Funktionen wie Fehlerbehandlung, Wiederherstellung und Neustart, Laufzeitstatistik und Scheduling. Datenintegrationswerkzeuge können auch einen Mix aus strukturierten, halbstrukturierten und unstrukturierten Daten sammeln, transformieren und laden.

Im Zuge der zunehmenden Erfahrung und Raffinesse in der Datenintegration integrierten die Anbieter eine Reihe von Best Practices als vorgefertigte Transformationen in die ETL-Tools. Diese Transformationen beinhalten Mechanismen zum Ändern der Datenerfassung, langsam sich ändernde Dimensionen, Hierarchiemanagement, Datenkonnektivität, Datenzusammenführung, Referenzsuche und referenzielle Integritätsprüfungen. Zudem hat sich die Leistung der Datenintegration durch die Verwendung von mehr Speicher, Parallelität und verschiedenen Datenübertragungsarchitekturen erhöht.

Darüber hinaus entstand eine neue Variante von ETL-Tools mit der Bezeichnung Extract, Load and Transform (ELT). Diese Tools machen einen separaten Applikationsserver für ETL überflüssig und können je nach Kapazität und Konfiguration entweder auf den Datenquellen oder auf den Zielsystemen eingesetzt werden. Mit dem ELT-Ansatz können Anwender Rohdaten so speichern, wie sie sind, und diese dann ganz oder teilweise für bestimmte Business-Intelligence- und Analyse-Applikationen transformieren.

ETL-Tools entwickeln sich zu Datenintegrationsplattformen

Datenintegration fokussiert sich auf zentrale ETL-Funktionen für das Laden von EDWs, für Data Marts und für BI Data Stores wie OLAP-Cubes und spaltenorientierte Datenbanken. Die Anforderungen an die Datenintegration haben sich jedoch um die folgenden Aufgaben erweitert:

Big-Data-Integration
B2B-Integration
Cloud-Integration
Application und Business Process Management (APM und BPM)
Datenmigration
Datenkonsolidierung
Datenqualität und -bereinigung
Stammdatenverwaltung

Dabei entstanden die folgenden Integrationskategorien, die auf spezifische Anwendungen und Technologien ausgerichtet sind:

Enterprise Application Integration (EAI): Diese Unterkategorie – die oft einfach als Anwendungsintegration bezeichnet wird und die Interoperabilität zwischen verschiedenen Anwendungen unterstützt – wird durch Web- oder Datendienste ermöglicht. Diese werden unter Verwendung einer serviceorientierten Architektur (SOA) und Industriestandards wie dem Electronic Data Interchange (EDI) erstellt. Ein Enterprise Service Bus (ESB) ist ein gängiger architektonischer Ansatz zur Implementierung von EAI-Funktionen.

Big-Data-Integration: Diese Technologie konzentriert sich auf das Laden von Daten in NoSQL-Datenbanken und Hadoop, Spark und andere Big-Data-Plattformen. Jede Kategorie der NoSQL-Datenbanken – wide column, key value, graph und document – verfügt über unterschiedliche Integrationsschnittstellen und Anwendungsfälle, die von den Integrationswerkzeugen berücksichtigt werden müssen. Mit der Hadoop-Datenintegration können Prozesse typischerweise mit verschiedenen Hadoop-Verteilungskomponenten wie Spark, MapReduce, Hadoop Distributed File System (HDFS), HBase, Hive, Pig und Sqoop verbunden werden. Processing Engines wie Spark werden zunehmend ebenfalls neben Hadoop eingesetzt, und haben entsprechenden Integrationsbedarf.

Enterprise Messaging System (EMS): Diese Technologie konzentriert sich ausschließlich auf die Bereitstellung von Messaging zwischen verschiedenen Anwendungen unter Verwendung strukturierter Formate wie XML und JSON. EMS-Tools bieten einen leichten Integrationsservice, der Echtzeit-Datenaktualisierungen aus verschiedenen Datenquellen effektiv bereitstellen kann.

Enterprise Information Integration (EII): EII – ursprünglich als Data Federation bekannt – bietet eine virtuelle Ansicht der unterschiedlichen Datenquellen, hat aber nur begrenzte Integrationsmöglichkeiten. Die aktuelle Generation, die als Datenvirtualisierungssoftware bezeichnet wird, bietet sowohl Datenabstraktions- als auch Daten-Service-Layer für eine Vielzahl von Quellen, einschließlich strukturierter, halbstrukturierter und unstrukturierter Daten.

Cloud-basierte Integration: Die Cloud-basierte Integration – auch als Integration Platform as a Service (iPaaS) bezeichnet – entstand, um Echtzeit-Interoperabilität zwischen Cloud-basierten Anwendungen und Datenbanken zu gewährleisten. Diese Tools werden als Cloud-Service bereitgestellt und bieten EAI- und EMS-Funktionen.

Die Anbieter stellten schließlich die verschiedenen Teile zusammen und bieten mittlerweile vollwertige Datenintegrations-Suiten an. Diese stellen hybride Funktionen wie ETL, Anwendungsintegration, Cloud-basierte Integration, Echtzeitintegration und Datenvirtualisierung sowie Datenbereinigungs- und Datenprofilierungs-Tools bereit.

Die Suiten können Datenintegrationsprozesse im traditionellen Batch-Modus oder in Echtzeit oder nahezu in Echtzeit durch den Einsatz von Webservices unterstützen. Sie können auch sowohl lokale als auch Cloud-Daten verarbeiten und weniger strukturierte Informationen – Systemprotokolle, Texte und andere Formen von großen Daten zum Beispiel – sowie strukturierte Transaktionsdaten.

Mythen über Datenintegrations-Tools vertreiben

Bei richtiger Nutzung verbessern Datenintegrationsplattformen die Produktivität der Nutzer und die Integrationsflexibilität. Auch die Skalierbarkeit und Erweiterbarkeit gegenüber benutzerdefinierter manueller Programmierung nimmt erheblich zu. IT-Mitarbeiter, die SQL-Skripte schreiben, oder Geschäftsleute, die Tabellenkalkulationen verwenden, codieren jedoch immer noch häufig manuell. Es gibt mehrere Gründe, warum IT-Gruppen glauben, dass sie manuell Code schreiben sollten, anstatt eine Datenintegrationsplattform zu verwenden. Diese Überzeugungen basieren jedoch in der Regel auf den folgenden Fehleinschätzungen:

Integrationswerkzeuge sind zu teuer: Von den ETL-Anfängen ist die Auffassung verblieben, dass teure Tools die einzige vernünftige Wahl sind. Heute sind aber viele Datenintegrationsplattformen verfügbar, die für kostensensible Budgets konzipiert sind.

Es werden hoch qualifizierte Ressourcen benötigt: Eine weitere falsche Vorstellung ist, dass ein Unternehmen, das kommerzielle Software verwenden möchte, Datenintegrationsentwickler benötigt, die mit den älteren ETL-Tools vertraut sind und umfangreiche Fähigkeiten erfordern. Doch die neueren Tools sind einfach zu bedienen und brauchen keine speziellen Entwickler.

Die Kodierung ist kostenlos: IT-Mitarbeiter, die SQL-Code generieren, kennen SQL und können Code schnell darin erstellen. Zudem fallen keine Lizenz- oder Abonnementkosten an. Was jedoch als einfaches SQL-Skript beginnt, kann schnell zu zahlreichen Skripten oder gespeicherten Prozeduren führen und so ein Sammelsurium von undokumentierten Integrationsprozessen schaffen. Änderungen an diesem Code dauern länger, da er immer komplexer wird und immer mehr Ressourcen verbraucht.

Der Markt für Datenintegrationsplattformen

Es gibt eine Vielzahl von Datenintegrationsplattformen – IBM, Informatica, Talend, Oracle, SAP, SAS und Information Builders sind die Marktführer. Einige der traditionellen Tools zur Anwendungsintegration haben ihre Möglichkeiten erweitert, so dass sie sich mit den Tools zur Datenintegration überschneiden. Darüber hinaus bieten die Anbieter nun eine weitere Kategorie von Datenintegrationswerkzeugen an – die sogenannten Data Preparation Tools. Diese richten sich vornehmlich an Datenanalysten und Datenwissenschaftler.

Alle diese Anbieter verkaufen Datenintegrationsprodukte, die On-Premises eingesetzt werden. Sie integrieren aber auch Daten, die sich vor Ort oder in der Cloud befinden. Darüber hinaus bieten sowohl Talend als auch die Pentaho-Plattform von Hitachi Vantara Open-Source-Versionen ihrer Produkte an sowie kostenpflichtige Unternehmensversionen. Microsoft nimmt eine Sonderstellung ein, da es sein Datenintegrationsprodukt mit seinen Datenbanken bündelt und nicht separat verkauft.

Fazit

Datenintegration ist nach wie vor in erster Linie eine IT-zentrierte Tätigkeit, die auf dem notwendigen Daten-, Datenbank- und Technologie-Know-how basiert. Typischerweise verwalten IT-Teams, die für BI- und Data-Warehouse-Systeme verantwortlich sind, auch die Datenintegration sowie die Datenqualität, das Stammdatenmanagement und andere Datenverwaltungsprogramme.

Diese Gruppen sollten über die Fähigkeiten und Erfahrungen verfügen, um die Integrationsplattformen erfolgreich zu nutzen. Einige führende Unternehmen mit mehreren Anwendungsfällen für Integration und separaten IT-Gruppen, die sich mit diesen Anwendungen befassen, haben Integrationskompetenzzentren eingerichtet. Diese Zentren verwalten ihre Datenintegrationsplattformen aus einer unternehmensweiten Perspektive, um Datensilos zu vermeiden.

Datenintegration mit Tools versus manuelle Programmierung

Tool-basierte Datenintegrationsentwicklung bietet folgende Vorteile:

wiederverwendbare Prozesse auf der Grundlage von branchenspezifischen Best Practices;
umfassende Datenqualitätsprozesse;
Workflow, Fehlerbehandlung sowie Neustart- und Wiederherstellungsfunktionalität;
Selbstdokumentation von Prozessen und des gesamten Workflows;
die Möglichkeit der Datenverwaltung; und
Impact-Analyse und Where-used- (Lineage-) Funktionen.

Nächste Schritte

Schritt für Schritt zu automatisierter Datenintegration.

Zehn Punkte für eine automatisierte Datenintegration.

Kostenloses E-Handbook: Enterprise-Software für die Datenintegration.

Plattformen für die Datenintegration erweitern ETL-Software

Datenintegrationssoftware wandelt Rohdaten in aussagekräftige Informationen um. Die Plattformen verwalten und vereinfachen die Datenverarbeitung.

Was sind Datenintegrationsplattformen?

ETL-Tools entwickeln sich zu Datenintegrationsplattformen

Mythen über Datenintegrations-Tools vertreiben

Der Markt für Datenintegrationsplattformen

Fazit

Datenintegration mit Tools versus manuelle Programmierung

Nächste Schritte

Erfahren Sie mehr über Datenanalyse

AWS Glue

Datentransformation und Datenanalyse mit Data Build Tool

SAP Datasphere: Datenmanagement und -analyse in SAP-Systemen

Datenarchitektur