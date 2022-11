Im Zuge der Digitalisierung automatisieren Unternehmen auch Elemente ihrer Data Warehouses. Sie nutzen vor allem künstliche Intelligenz (KI) und maschinelles Lernen, um Daten schneller aufzubereiten und die Analysen zu beschleunigen. Augmented Analytics spielt dabei ebenso eine Rolle wie traditionelle ETL-Tools (Extract, Transform, Load). Insgesamt tragen die vielfältigen intelligenten Datenmanagement-Tools dazu bei, Daten besser zugänglich und nutzbar zu machen.

Der Einfluss von Augmented Analytics

Augmented Analytics ist der aktuelle Stand der Technik in Sachen Datenanalyse. Augmented Analytics erweitert und automatisiert die Analysemöglichkeiten von Business-Intelligence-Lösungen durch die Nutzung von Methoden und Algorithmen der KI, des maschinellen Lernens und der Sprachverarbeitung (Natural Language Processing, NLP). Beispielsweise kann ein Nutzer per Natural Language Processing in seiner Muttersprache mit der Analysesoftware interagieren. Anstatt SQL-Abfragen einzugeben, können Mitarbeiter einfach übliche deutsche oder englische Sprache verwenden.

Ein weiteres Unterscheidungsmerkmal von Augmented-Analytics-Plattformen ist, dass sie über die Analytik hinausgehen und sie um Datenaufbereitung und sogar einige Data-Warehouse-Funktionen erweitern. Laut Mark Beyer, Research Vice President und Analyst bei Gartner, besteht die Aufgabe von Augmented Analytics darin, Muster der Datennutzung zu erkennen. Diese geben Aufschluss darüber, wer auf welche Daten zugreift, wie oft, in welchen Kombinationen und wie schnell oder langsam sich die Nutzung insgesamt entwickelt.

„Augmented Analytics kann nur aus Mustern und früheren Aktivitäten lernen. Sie können die Datenanalyse auf der Ebene der Erstellung von Inhaltsprofilen nach einzelnen Assets ergänzen und daraus schließen, dass es sich bei ähnlichen Daten in verschiedenen Datensätzen um dieselben Daten handeln könnte“, sagt Beyer. „Jedes Inferenzmodell müsste trainiert werden, um langfristige Muster zu erkennen. Das würde sowohl Zeit als auch viele Anwendungsfälle erfordern, die mit denselben Daten interagieren, um zu zeigen, wie variabel die Muster sind und welche bedingten Szenarien die verschiedenen Variationen antreiben.“

Der Anbieter von Augmented-Analytics-Plattformen, Qlik, bietet eine Reihe von Datenmanagement-Tools, die in einer Lösung verpackt sind. Qlik Replicate, ein universelles Datenreplikations- und Ingestions-Tool, lässt sich mit Qlik Compose, einem Data-Lake- und Automatisierungs-Tool, verknüpfen, um Batch- und Echtzeit-Datenfeeds aus Quellsystemen in Data Warehouses und Lakes zu ermöglichen und zu automatisieren.

Der Qlik Enterprise Manager verwaltet die Datenreplikation und Pipeline-Automatisierung im gesamten Unternehmen zentral und bietet einen einzigen Kontrollpunkt für die Planung, Ausführung und Überwachung von Replikations- und Compose-Aufgaben.

Die resultierenden Datenstrukturen und Metadaten werden mit Qlik Catalog geteilt, so dass Anwender Daten direkt aus Catalog in die Augmented-Analytics-Plattform Qlik Sense – oder ähnliche Plattformen wie Power BI und Tableau – einspeisen können.

„Qlik ermöglicht die Batch-Ausführung und kontinuierliche Migration von Daten über viele Datenquellen und -ziele hinweg – und zwar sowohl On-Premises als auch in der Cloud“, sagt Anand Rao, Product Marketing Director bei Qlik. „Das Programm unterstützt Anwendungsfälle, die von Cloud-Migrationen bis zur Plattform-Modernisierung reichen, und arbeitet eng mit allen wichtigen Cloud-Anbietern zusammen.“

Der Hersteller der Augmented-Analytics-Plattform Sisense bietet eine vollständige Suite von Datenmanagementfunktionen, einschließlich Datenaufnahme, manuelle Datenvorbereitung und KI-basierte Aufbereitung, Modellierung, Governance und Katalogisierung. Jede dieser Funktionen kann gegen Best-of-Breed-Services ausgetauscht werden, die auf möglicherweise auf einen bestimmten Bereich spezialisiert sind.

„Das Besondere an Sisense ist, dass wir die Software als echte Microservices-Lösung konzipiert haben, sodass jeder Workflow ergänzt oder komplett ausgetauscht werden kann“, sagt Ryan Segar, Senior Vice President of Field Engineering bei Sisense.

Für ETL können Kunden zum Beispiel Stitch, Fivetran, CData oder Matillion verwenden. Für Data Warehouses oder Data Lakes können sie Redshift, Snowflake, SingleStore, Databricks oder BigQuery einsetzen. Für Governance und Katalogisierung lassen sich Collibra, Alation, BigID, Alteryx, Trifacta und andere nutzen.

Abbildung 1: Was ein Data Warehouse von einem Data Mart unterscheidet.

„Machine-Learning-basierte Datenaufbereitung ist mit Abstand der größte Trend, den wir in diesem Bereich sehen“, so Segar. „Die Zeit, die Menschen mit dem Durchkämmen von Tabellen verbringen, um so einfache Aufgaben wie Deduplizierungen durchzuführen, ist lang – und dieser Prozess kann gut automatisiert werden.“