SAP Data Services: Optimierung der Datenqualität sorgt für mehr Prozesseffizienz

SAP Data Services sind ein ETL-Tool, das die Datenqualität mithilfe effizienter Funktionen zur Extraktion und Integration nachhaltig verbessert.

Mit SAP Data Services können Unternehmen eine solide Grundlage für qualitativ hochwertige Geschäftsdaten aufbauen. Der folgende Auszug aus dem SAP-Press-Buch “Enterprise Information Management mit SAP” bietet eine Einführung in die SAP Data Services und deren Integrationsmöglichkeiten mit SAP- und Nicht-SAP-Systemen. Der Leser erhält ebenso Tipps für die Bereinigung und Validierung von SAP-Daten.

Der Auszug von Ginger Gatling, Corrie Brague, Ryan Champlin, Helmut Stefani, Niels Weigel, George Bryce, Srikant Dharwad, Andreas Engel, Will Gardella, Simer Grewal, Ina Felsheim, Stéphane Haelterman, Eric Hamer, Rob Jackson, Mike Keilen, Markus Kuppe, Terry McFadden, Louann Seguin, Akshay Sinha, Eric Stridinger und Anthony Waite wird mit freundlicher Genehmigung von SAP Press abgedruckt. Das Kapitel kann als PDF-Datei hierheruntergeladen werden.

SAP-Lösungen für das Enterprise Information Management (EIM)

SAP-Software für das Enterprise Information Management (EIM) umfasst sämtliche Möglichkeiten zur Verwaltung großer Mengen an Daten und Informationen, von der Erfassung über die aktive Nutzung bis hin zum Löschen und Zerstören. Im nachfolgenden Kapitel werden die SAP-Produkte und -Lösungen für das EIM vorgestellt. Das bestehende EIM-Portfolio wird von SAP laufend ausgebaut, da der Softwarekonzern in diesem Bereich weiterhin Investitionen tätigt.

In Kapitel 1 dieses Buches wurde das Gesamtportfolio der EIM-Software von SAP kurz dargestellt, wobei die einzelnen Lösungen unten in Abbildung 4.1 aufgelistet sind. Dort werden auch die EIM-Anwendungen vorgestellt, auf die im Verlauf dieses Kapitels näher eingegangen wird.

Abbildung 4.1

In der Grafik 4.1 sind die Lösungen von SAP für das EIM schematisch dargestellt. Im oberen Teil der Abbildung werden die SAP-Applikationen aufgelistet, die von Daten und Informationen abhängig sind, die in den EIM-Lösungen verwaltet werden. Im unteren Teil werden die verschiedenen transaktionalen, operativen und analytischen Datenquellen angezeigt, aus denen die strukturierten und unstrukturierten Daten stammen, die in die EIM-Lösungen fließen und dort aufbereitet und verwaltet werden.

Den Mittelteil der Grafik bilden schließlich Lösungen für das Enterprise Information Management, die SAP derzeit in seinem Softwareportfolio hat. Sie werden unter dem Oberbegriff „Information Governance“ in einem Kasten zusammengefasst. Information Governance ist kein Softwareprodukt, sondern es handelt sich um Methoden und Verfahren zur Verwaltung, Steuerung und aktiven Kontrolle geschäftlicher Informationen, die durch den Einsatz von speziellen IT-Lösungen unterstützt werden. Mehr dazu erfahren Sie in Kapitel drei dieses Buches.

Folgende Softwareprodukte sind Bestandteil der SAP-Lösungen für EIM:

  • SAP Data Services
    Im Folgenden als Data Services bezeichnet. Dieses Produkt kombiniert die eigenständigen Softwarelösungen SAP Data Integrator und SAP Data Quality Management und kombiniert deren Funktionen in einer einzigen Anwendung. Gleichwohl können die Einzellösungen bei Bedarf auch unabhängig voneinander implementiert werden. Die meisten SAP-Kunden benötigen jedoch beide Produkte, sodass in diesem Buch ausschließlich von „Data Services“ die Rede ist. Im Folgenden wird der SAP Data Integrator als die Fähigkeit zur Datenintegration mit Data Services bezeichnet. SAP Data Quality Management wird als Funktion zur Verbesserung der Datenqualität beschrieben, die über die Data Services bereitgestellt wird. Die dritte Kernfunktion der Data Services ist das Text Data Processing, das heißt die Extraktion relevanter Inhalte aus unstrukturierten Daten (E-Mails, Blogs, Postings, Pressemeldungen, etc.) und deren Transformation in strukturierte Daten für Analysen. Zusammenfassend können die Data Services somit als Werkzeug für Datenintegration, Datenqualitätsverbesserung und Text Data Processing bezeichnet werden.
  • SAP Information Steward
    Wird im Folgenden Information Steward genannt.
  • SAP NetWeaver Master Data Management
    Wird im Folgenden SAP NetWeaver MDM genannt.
  • SAP Master Data Governance
    Wird im Folgenden SAP MDG genannt.
  • SAP NetWeaver Information Lifecycle Management
    Wird im Folgenden SAP NetWeaver ILM genannt.
  • Extended Enterprise Content Management (ECM) by OpenText
    In Extended ECM by OpenText sind eine Reihe von Technologien und Anwendungen gebündelt, die sich auch in die EIM-Lösungen von SAP einbinden lassen. Dazu zählen:
  • SAP Archiving by OpenText
  • SAP Document Access by OpenText (beinhaltet als Komponente auch SAP Archiving by OpenText)
  • SAP Extended Enterprise Content Management by OpenText (im Folgenden als SAP Extended ECM bezeichnet). Diese Lösung beinhaltet als Komponenten sowohl SAP Document Access by OpenText als auch SAP Archiving by OpenText.
  • SAP Invoice Management by OpenText
  • SAP Document Presentment by OpenText

Da viele OpenText-Produkte in SAP’s EIM-Lösungen eingebunden sind, wird dieses Buch sich auf die Anwendung SAP Extended ECM und deren Komponenten fokussieren: SAP Document Access by OpenText und SAP Archiving by OpenText.

  • SAP Sybase Replication Server (im Folgenden Replication Server)
    Replication Server unterstützt das Enterprise Datenmanagement. Mit dem Replication Server können Datenbanken und Transaktionen unabhängig von der jeweiligen Quell- oder Zieldatenbank repliziert und synchronisiert werden, egal ob es sich um den SAP Sybase Adaptive Server Enterprise (ASE), eine Oracle-Datenbank, den Microsoft SQL Server oder die IBM DB2 Universal Database (UDB) handelt.
  • SAP Sybase Power Builder (im Folgenden Power Builder)
    Power Builder ist eine Entwicklungsumgebung und ein Modellierung-Tool, mit dem Unternehmen ihre Business-Intelligence (BI)- und Business-Information-Architekturen auf der Grundlage eines modellbasierten Ansatzes optimieren können. Enterprise Architekten verwenden das Tool, um damit die vielen Einzelbausteine in einer IT-Landschaft wie Systeme, Anwendungen, Geschäftsprozesse und Anforderungen unter einem Dach zusammenzuführen.

Zusätzlich zu den hier aufgelisteten Softwareprodukten gibt es mit SAP Data Migration noch eine Applikation für die Übernahme von Daten, die auf den Data Services aufbaut. Da es sich hierbei um keine eigenständige IT-Lösung handelt, wird sie in der Abbildung 4.1 nicht eigens aufgeführt.

In diesem Kapitel werden EIM-Produkte von SAP kurz vorgestellt. Dazu zählen etwa die Data Services, der Information Steward, SAP MDG sowie weitere Lösungen, die auf der EIM Software von SAP aufbauen wie zum Beispiel SAP Data Migration und die Methoden und Verfahren bei der Herstellung einer Information Governance unterstützen.

Hinweis: Das vorliegende Buch ist nicht auf Lösungen von Sybase fokussiert. Weiterführende Informationen zum Replication Server und PowerBuilder gibt es auf der SAP-Website.

In Kapitel eins wurden im Zusammenhand mit EIM auch die Begriffe On-Boarding, Active Use sowie Off-Boarding erwähnt. Die folgende Aufzählung zeigt auf, welche EIM-Lösungen von SAP für die einzelnen Bereiche geeignet sind.

  • On-Boarding
    Mit On-Boarding ist die Erzeugung, der Import oder die Migration von Daten und Informationen gemeint. Für diese Prozesse eignen sich die Data Services, der Information Steward, SAP NetWeaver ILM, SAP NetWeaver MDM sowie SAP MDG und SAP Data Migration. Das On-Boarding von Inhalten aus Dokumenten erfolgt mit SAP Extended ECM.
  • Active Use
    Die aktive Nutzung von Informationen wird durch die Data Services, den Information Steward, SAP NetWeaver MDM, SAP MDG, SAP Document Access by OpenText und SAP Extended ECM unterstützt.
  • Off-Boarding
    Mit Off-Boarding werden Prozesse wie die Archivierung, das Löschen oder der Austausch von Daten beschrieben. Geeignete Lösungen für diese Prozesse sind die Data Services, SAP Document Access by OpenText, SAP Extended ECM und SAP NetWeaver ILM.

4.1 SAP Data Services als Grundlage für den Aufbau einer Data Foundation

Die Data Services sind im Hinblick auf Daten, die aus einem oder mehreren Quellsystemen stammen, das bevorzugte Werkzeug zur Extraktion, Transformation und das Laden (ETL) in eines oder mehrere Zielsysteme. Bei Data Services handelt es sich um eine Lösung, mit der vertrauenswürdige Daten integriert, transformiert, optimiert und unternehmensweit für kritische Geschäftsabläufe bereitgestellt werden können – in SAP-Systemen und in Nicht-SAP-Systemen.

Die Data-Services-Anwendung kann dabei in nahezu allen Geschäftsszenarien eingesetzt werden, in denen Daten zu verschieben, anzureichern, zu transformieren oder zu bereinigen sind. In diesem Zusammenhang fungiert die Lösung als technische Grundlage beziehungsweise als technisches Werkzeug, um in Unternehmen eine kohärente EIM-Strategie zu gewährleisten. Die folgenden Abschnitte geben einen Überblick über die Einsatzmöglichkeiten von Data Services und das Potenzial, das diese Anwendung bietet.

4.1.1 Grundlagen von SAP Data Services

Die Data Services können eingesetzt werden bei der Daten- und Systemmigration, der Synchronisierung von Daten, der Bereinigung von Applikationsdaten sowie beim Extrahieren, Transformieren und Laden (ETL) zur Datenbeschaffung in einem Data Warehouse oder einem Data Mart. Darüber hinaus lassen sich mit dem Werkzeug Abfrage-, Analyse- und Reportingprozesse ausführen sowie Daten über ein Dashboard bereitstellen.

Die drei wichtigsten Funktionen von Data Services sind die Datenbereinigung und -validierung sowie das Text Data Processing. Den Kernprozess von Data Services bildet die Data Services Engine (siehe Abbildung 4.2 zur Data-Services-Architektur und den typischen Anwendungsfeldern). Wie zuvor bereits erwähnt, sind in den Data Services zwei Produkte zusammengefasst: der Data Integrator, mit dem die ETL-Prozesse ausgeführt werden, und das Data Quality Management zur Datenvalidierung und Datenbereinigung. Die dritte Kernfunktion von Data Services bildet das Text Data Processing.

Abbildung 4.2

In Abbildung 4.2 sind auf der linken Seite der Grafik diejenigen Datenquellen aufgeführt, die von den Data Services unterstützt werden. Das Werkzeug kann auf Datensätze aus den unterschiedlichsten Applikationen (SAP- und Non-SAP) und Dateiquellen zugreifen sowie nahezu jede Art von Daten, ob strukturiert, semistrukturiert oder unstrukturiert, aus diesen Quellen verarbeiten. Um die Prozesse der Datentransformation und -bereinigung in Echtzeit auszuführen, werden die Data Services entweder im Batchmodus aufgerufen, zum Beispiel bei ETL-Prozessen zur Bereitstellung von Daten für das Reporting in einem Data Warehouse, oder direkt über Client-Anwendungen wie SAP ERP, SAP Customer Relationship Management (SAP CRM) sowie eigene Applikationen gestartet.

Die Data Services und die SAP BusinessObjects-Plattform für Business Intelligence (BI) teilen sich eine gemeinsame Technologieschicht. Dadurch profitieren die Endanwender von einem erweiterten Benutzermanagement, Passwort- und Sicherheitsrichtlinien sowie externen Verfahren zur Authentifizierung wie Active Directory, Lightweight Directory Access Protocol (LDAP), SAP NetWeaver Identity Management und einer granularen Zugriffskontrolle.

Abbildung 4.2 zeigt ebenfalls wie die Data Services auf viele unterschiedliche Systeme und Applikationen zugreifen und viele verschiedenen Daten verarbeiten sowie im Rahmen des Data-Profiling-Prozesses deren Beschaffenheit analysieren können. Im Folgenden werden die Verbindungsoptionen und die Data-Profiling-Funktionen näher beschrieben.

Konnektivitätsoptionen für SAP Data Services

Die Data Services bieten viele Optionen zur Einbindung strukturierter wie auch unstrukturierter Daten aus SAP-Software, Datenbanken, Anwendungen von Drittanbietern sowie von „reinen Daten“, die zum Beispiel aus Excel-Dateien oder Mainframes stammen. Weitere Details dazu werden in Kapitel sieben dieses Buches erörtert.

Data Profiling mit SAP Data Services

Aufgabe des Data Profiling ist es, anhand von Analysen die Gesamtqualität der Daten zu bestimmen und Anomalien in den Daten aufzufinden. Als vorrangiges Instrument für Data-Profiling-Prozesse fungiert zwar der Information Steward, doch der technische Prozess des Data Profiling kann direkt in den Data Services ausgeführt werden. 

Über die reine Anzeigefunktion hinaus bietet das Werkzeug auch die Möglichkeit zur Analyse von Daten. In den Data Services lassen sich Verarbeitungsaufgaben (Jobs) durch das Verständnis für folgende Arten von Informationen besser und effizienter aufbauen und erledigen:

  • Häufigkeitsverteilung
  • Unterschiedliche Werte (Distinct Values)
  • Nullwerte beziehungsweise ungültige Werte
  • Minimal-/Maximalwerte
  • Datenmuster (zum Beispiel: Xxx Xxxx99, 99-Xxx)
  • Vergleich von Werten zwischen einzelnen Datensätzen
  • Drill-down auf spezielle Datensätze

Dabei ermöglichen die Profiling-Funktionen der Data Services den schnellen Zugriff auf Quelldaten zur Identifizierung von Problemen und Anomalien wie zum Beispiel:

  • 21 Prozent der Mitarbeiter wurde zu ihrer ID-Nummer, die im Human-Resources-Quellsystem hinterlegt ist, kein Land zugeordnet.
  • Es gibt vier Eintragungen im Feld Geschlechter: 60 Prozent sind männlich und 30 Prozent weiblich. Bei zehn Prozent ist „unbekannt“ eingegeben oder ein Fragezeichen.
  • Für alle neuen Mitarbeiter, die mehr als einen Monat beschäftigt sind, gibt es Vergünstigungen. Doch bei 35 Prozent der Beschäftigten, die bereits seit drei Monaten im Unternehmen arbeiten, gibt es noch keine entsprechende Eintragung in den Personalstammdaten.

Darüber hinaus lassen sich Häufigkeiten und Auffälligkeiten, etwa Wertunterschiede oder Nullwerte in Datenfeldern wie zum Beispiel Postleitzahl, Produktcode oder Bestellnummer, schnell entdecken, was für bessere Einsichten in die Daten sorgt.

4.1.2 Integration von SAP Data Services mit SAP-Anwendungen

Die Data Services können als Werkzeug für die Datenintegration und -qualität auch nahtlos mit den einzelnen SAP-Anwendungen verknüpft werden – mit SAP CRM, SAP ERP, SAP NetWeaver MDM, SAP MDG, SAP Business Warehouse (SAP BW) und der In-Memory-Plattform SAP HANA. In diesem Fall werden die Data Services als zusätzlicher Service zu den einzelnen Applikationen genutzt, der immer dann aufgerufen wird wenn daraus eine spezielle Funktion benötigt wird. Das Werkzeug kann ebenfalls eingesetzt werden, um Daten in diese Anwendungen zu laden. Hierzu einige Beispiele:

SAP Data Services für SAP Data Quality Management mit SAP ERP, SAP CRM und SAP NetWeaver MDM

Abbildung 4.3 zeigt wie die Data Services im Allgemeinen zusammen mit der SAP Business Suite genutzt werden. Ein gemeinsamer Verwendungszweck der Data Services und der SAP Business Suite ist die tiefe Integration dieser Anwendungen mit den Business Address Services (BAS) von SAP, die in den ABAP-Stack des SAP NetWeaver Application Server eingebettet sind.

Die Business Address Services (BAS) stellen alle wesentlichen Funktionen für die Verwaltung von Adressen in SAP-Anwendungen zur Verfügung. Für Standardfunktionen wie zum Beispiel das Anlegen, Ändern, Anzeigen und Suchen von Adressen wird von den BAS eine flexible Dialogeinbindung bereitgestellt. Die Komponente ist wiederverwendbar, das heißt sie kann in allen Anwendungen der SAP Business Suite eingesetzt werden. 

Besonders häufig werden die BAS in Verbindung mit SAP ERP (dort als Bestandteil des SAP ERP Central Component 6.0) und SAP CRM genutzt. Aufgrund der tiefgehenden Integration zwischen den Data Services und den BAS können bei der Aktualisierung einer Adresse die Datenqualitätsfunktionen der Data Services zur Adresskorrektur oder für den Dublettencheck genutzt werden.

Abbildung 4.3 zeigt die Integration zwischen den Data Services und den Business Address Services (BAS).

Zu beachten ist, dass Abbildung 4.3 zeigt wie die Data Services für die Migration von Daten aus unterschiedlichen Quellsystemen in die SAP Business Suite genutzt wird. Die Data Services fungieren dabei als robuste Datenmigrationslösung, die die erforderlichen Funktionen für das Mapping und die Validierung von Quelldaten gegen ein SAP-Zielsystem zur Verfügung stellt. Mit den Data Services kann jedes beliebige Anwendungsobjekt, ob Material, Kundenauftrag oder Cost Center migriert werden. Bei jedem einzelnen Objekt werden die Daten bereinigt, validiert und mit der im jeweiligen SAP-Zielsystem benötigten Konfiguration abgeglichen. Und erst danach wird das jeweilige Anwendungsobjekt in die Zielapplikation geladen. Durch den Einsatz der Self-Service-Funktionen von SAP BusinessObjects Web Intelligence können die Anwender ein Datenmigrationsprojekt jederzeit überwachen und steuern sowie Korrekturen vornehmen.

Darüber hinaus lassen die Data Services sich auch mit weiteren SAP-Anwendungen wie SAP NetWeaver MDM and SAP MDG integrieren. In SAP NetWeaver MDM werden die Data Services für das Laden von Daten und die Bereinigung von Namen und Adressen sowie zur Deduplizierung und die automatische Datenkonsolidierung und -validierung eingesetzt. Die Data Services unterstützen darüber hinaus in SAP MDG die Bereinigung, den Abgleich und die Konsolidierung von Daten in Echtzeit, wobei diese Funktionen wiederverwendbar sind und sowohl in SAP NetWeaver MDM als auch in SAP MDG genutzt werden können. In Abbildung 4.4 wird die Data- Services-Integration mit SAP MDG dargestellt.

Abbildung 4.4

Im nächsten Schritte wird dargelegt, wie die Data Services in Verbindung mit SAP HANA, SAP BW und der SAP BusinessObjects BI genutzt werden.

Data Services für SAP HANA, SAP BW und die SAP BusinessObjects BI-Plattform

Eine der wesentlichen Stärken der Data Services liegt in der einfachen Integration mit Data Warehouses und analytischen Datenbanken. Das gilt insbesondere für die Anwendungen SAP BW, die gesamte SAP BusinessObjects-BI-Plattform wie auch für die In-Memory-Plattform SAP HANA. 

Genau genommen beinhaltet die HANA-Anwendung bereits von Haus aus die Data-Integration-Funktionen aus den Data Services. Darüber hinaus arbeitet SAP laufend daran, die Schnittstellen zwischen den Data Services und SAP HANA zu verbessern. Mehr dazu erfahren Sie in den Kapiteln drei und sieben. Die Integration der Data Services mit SAP BW und SAP HANA wird in Abbildung 4.5 dargestellt.

Abbildung 4.5

Mithilfe der Data Services können darüber hinaus auch Daten in das SAP BW geladen werden. SAP-Kunden, die bereits Business Warehouse einsetzen, profitieren von einer verbesserten Datenqualität, wenn diese über die Data Services in die BW-Anwendung geladen werden. Sie benötigen nur ein einziges Werkzeug zur Definition aller Regeln für die Extraktion, Validierung und Bereinigung von Daten (SAP und Nicht-SAP), die in ein SAP BW geladen werden sollen. 

Das ist ein wichtiger Aspekt. Da Unternehmen heute mit hohen Anforderungen an die Qualität ihrer Businessdaten konfrontiert sind, wollen sie die ETL-Jobs zur Optimierung der Datenqualität nicht jedes Mal neu implementieren, sondern in verschiedenen Anwendungsszenarien wieder verwenden. Mit den Data Services erhalten auch Kunden, die kein SAP BW einsetzen, nativen Zugriff auf die SAP Business Suite inklusive der Delta-Änderungen, und zwar ohne vorher über die BW-Applikation gehen zu müssen.

Zusätzlich zur Integration mit Datenbanken und Data Warehouses unterstützen die Data Services auch die native Zusammenarbeit mit der SAP BusinessObjects BI. In dieser Verbindung werden Data Services zur Datenprovisionierung bei Reports, Dashboards, Ad-Hoc- und OLAP-Analysen (Online Analytical Processing) sowie zur Datenexploration eingesetzt. 

Data Services ermöglichen dabei den Zugriff auf die unterschiedlichsten Daten, ob strukturiert oder unstrukturiert, aus praktisch allen Datenquellen und deren Integration. Die gesammelten Informationen können in einem Data Warehouse oder Data Mart so aufgebaut werden, dass sich durch Analysen historische Trends erkennen lassen, die wiederum zu einer verbesserten Entscheidungsfindung beitragen.

Die Data Services sorgen zudem für ein besseres Verständnis des Kontexts, in dem die Informationen stehen, zum Beispiel durch ihre Herkunft (Data Lineage), was wiederum zu zuverlässigeren Entscheidungen führt. Die Integration mit der SAP BusinessObjects BI-Plattform wird als Standardfunktionalität „out-of-the-box“ bereitgestellt.

4.1.3 Integration der SAP Data Services mit Nicht-SAP-Anwendungen

Die Data Services waren von jeher für die Integration in Nicht-SAP-Anwendungen ausgelegt, die Einbindung in die SAP-Applikationen kam erst später hinzu. Es handelte sich ursprünglich auch um ein reines ETL-Werkzeug zur Übertragung von Daten aus einem Quellsystem in ein Zielsystem. 

Inzwischen haben sich die Data Services zu einer umfassenden Lösung für den Aufbau einer Data Foundation (unternehmensweit einheitliches Datenmodell) entwickelt, die neben ETL-Prozessen auch Funktionen für die Datenqualität und das Text-Data-Processing beinhaltet. Die Data Services sind zudem tief in die SAP-Anwendungen integriert, besitzen aber nach wie vor die Fähigkeit mit jeder anderen Applikation verknüpft werden zu können.

Die Data Services sind für die Anforderung des Datenaustauschs zwischen verschiedenen Nicht-SAP-Systemen bestens gerüstet. Wie bereits in Abbildung 4.2 dargestellt, kann das Werkzeug auch mit Microsoft-Excel-Arbeitsblättern, Oracle-Lösungen oder Mainframes verknüpft werden. 

Und in Abbildung 4.3 wird zudem die Referenz zu Themen wie Datenmigration und -synchronisation sowie den Ladeprozessen aufgezeigt. Wenn in diesem Buch von Datenmigration die Rede ist, dann bezieht sich dies in erster Linie auf die Übertragung von Daten in ein SAP-Zielsystem. 

Bei der Migration in die SAP-Applikationen werden die kanonischen Datenformate, Feldanforderungen und so weiter vom SAP-Zielsystem bereitgestellt. Jedoch können Data Services genauso für die einfache Migration von Daten in eine neue, eigenentwickelte Anwendung oder eine Nischen-Applikation verwendet werden; in diesem Fall muss die Zielstruktur jedoch vorab definiert sein.

Abbildung 4.3 zeigt auch wie externe Systeme und die Eingaben von Benutzern mit den Data-Quality-Funktionen der Data Services verknüpft sind – ein gängiges Verfahren bei der Data-Services-Integration mit Nicht-SAP-Systemen. Im Folgenden wird dies konkret am Beispiel des Software Development Kit (SDK) für SAP Data Quality Management aufgezeigt. SAP hat viele Softwarepartner, die auf Basis des SDK eigene Data-Quality-Softwarelösungen entwickeln und dabei Funktionen des SAP Data Quality Management nutzen. Das SAP Data Quality Management SDK stellt den Entwicklern dabei eine einfache Methode zur Verfügung, mit der sie die bewährten Funktionen zur Datenbereinigung und -validierung aus dem SAP Data Quality Management direkt in ihre eigenen Anwendungen integrieren können.

Die Integration von Nicht-SAP-Anwendungen mit den Data Services beinhaltet auch Prozesse wie das Laden der Daten von Drittanbietern in SAP HANA und SAP BW sowie die Extraktion von Daten in andere Data Marts, Data Warehouses (zum Beispiel SAP Sybase IQ) oder Applikationen. Die nativen Funktionen der Data Services für den Umgang mit Daten sowohl aus SAP- wie auch aus Nicht-SAP-Systemen sorgen für eine hohe Flexibilität, denn das Werkzeug kann so problemlos in SAP- und Nicht-SAP-Lösungen eingebettet werden. Zudem kann es über die gesamte SAP-Lösungsfamilie hinweg genau in den Applikationen eingesetzt werden, in denen die Datenbereinigung, -validierung und -integration einen kritikalen Aspekt bildet.

4.1.4 Datenbereinigung und -validierung mit SAP Data Services

Das SAP Data Quality Management ist eine Kernfunktion in den Data Services und umfasst sämtliche Aspekte zur Verbesserung der Datenqualität von der Bereinigung über die Standardisierung, Korrektur und Validierung bis hin zur Anreicherung und dem Abgleich von Daten. In Abbildung 4.6 wird anhand eines Beispiels aus der Praxis der gesamte Datenqualitätsprozess dargestellt.

Abbildung 4.6

Adressdaten werden schon bei der Eingabe in die einzelnen Bestandteile aufgegliedert und wie folgt standardisiert:

Vorname: Bob

Nachname: oldstead

Addresse 1: 175 Riivington Ave

Addresse 2: Suite 2

Stadt: Manhatten

Bundesstaat: new yourk

Postleitzahl: 10002

Falsche Eingaben werden automatisch korrigiert; zum Beispiel wird beim Nachnamen „oldstead“ der Anfangsbuchstabe automatisch großgeschrieben, also „Oldstead“. Ebenso werden der Straßenname, die Stadt und der Bundesstaat editiert. Nach diesem Arbeitsschritt sieht der Datensatz wie folgt aus:

Vorname: Bob

Nachname: Oldstead

Addresse 1: 175 Rivington Ave

Addresse 2: Suite 2

Stadt: Manhatten

Bundesstaat: New York

Postleitzahl: 10002

Danach suchen die SAP Data Service in der Zielapplikation nach einem passenden Datensatz. Es wird folgende Übereinstimmung gefunden:

Name: Robert E. Oldstead

Stadt, Bundesstaat: Manhattan, New York

Postleitzahl: 10002

E-Mail: robo@tcabuilders.com

Telefon: 847 442-5555

Die beiden Datensätze werden im dann im nächsten Schritt konsolidiert:

Vorname: Robert

Nachname: Oldstead

Addresse 1: 175 Rivington Ave

Addresse 2: Suite 2

Stadt: Manhatten

Bundesstaat: New York

Postleitzahl: 10002

Telefon: (847) 442-5555

E-Mail: robo@tcabuilders.com

Schließlich wird der konsolidierte Datensatz noch komplettiert, indem er mit einer normierten Postleitzahl und geografischen Koordinaten angereichert wird:

Vorname: Robert

Nachname: Oldstead

Addresse 1: 175 Rivington Ave

Addresse 2: Suite 2

Stadt: Manhatten

Bundesstaat: New York

Postleitzahl: 10002-2517

Längengrad: 40.7325525

Breitengrad: -74.004970

Telefon: (847) 442-5555

E-Mail: robo@tcabuilders.com

In diesem Beispiel haben wir gezeigt wie mit den Data Services ein Kundenstammsatz bereinigt wird. Der Datenqualitätsprozess kann auch bei vielen anderen Datenarten, wie etwa bei Stammdatensätzen zu Geschäftspartnern, Produkterzeugnissen oder Services, zur Analyse, Standardisierung und Bereinigung angewendet werden.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Erfahren Sie mehr über Business-Software

- GOOGLE-ANZEIGEN

ComputerWeekly.de

Close