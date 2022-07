Stitch Data Loader soll Anwender dabei unterstützen, dass sie Daten, die in Unternehmen aus verschiedenen Quellen vorliegen, verarbeiten und analysieren können. Stitch Data Loader von Talend hat vor allem eine Aufgabe: Wer in der AWS-Cloud ein Cloud Data Warehouse betreibt, kann mit dem Dienst Daten aus verschiedenen Quellen in das Data Warehouse übertragen. Die vollständig verwaltete Datenpipeline vereinfacht Analyseprojekte deutlich.

Die Einrichtung ist in wenigen Minuten abgeschlossen. Dabei lassen sich mehrere Quellen gleichzeitig über einen Assistenten einbinden.

Schnelle Einrichtung umfangreicher Datenquellen Das Einrichten der Datenpipeline in Stitch erfolgt ohne Programmierung, es ist kein Code notwendig. Neben der großen Menge an verschiedenen Datenquellen arbeitet Talend daran, dass Stitch mehr Ziele unterstützt, zu denen der Dienst die Daten replizieren kann. Im Assistenten sind die aktuell verfügbaren Quellen zu finden, die Anbindung erfolgt komplett im Webbrowser. Im Fokus steht die einfache Verwendung von Daten. Anwender und Administratoren sollen sich nicht damit beschäftigen, Daten in die Cloud zu laden, sondern sich auf die Analyse dieser Daten konzentrieren. Stitch Data Loader kann zum Beispiel Daten zu Amazon Redshift, S3 oder Snowflake übertragen. Weitere Ziele sind Delta Lake on Databricks, Google BigQuery, Microsoft Azure Synapse Analytics, Microsoft SQL Server, MySQL, Panopoly oder PostgreSQL.

Stitch erspart Pflege von ETL-Pipelines Die Verwendung von Stitch erspart das Erstellen eigener ETL-Pipelines, die regelmäßig gepflegt werden müssen. Alle Abläufe sind automatisiert, sodass nach der Einrichtung die Daten automatisch an Amazon Redshift oder S3 geschickt werden. Sobald die Replikation eingerichtet ist, kann der Dienst neue Daten automatisch in die Cloud übertragen. Die Daten sind dadurch direkt im Data Warehouse verfügbar. Ein großer Vorteil von Stitch Data Loader ist die Anbindung von fast 150 Datenquellen, von denen mehrere Instanzen genutzt werden können. Die Entwickler bauen den Support regelmäßig aus, sodass sich immer mehr Quellen anbinden lassen. Microsoft Teams und Zoom lassen sich ebenfalls mit Stitch verbinden.

Stitch Data Loader in der Praxis Der Dienst lässt sich komplett über den AWS Marketplace einrichten. Nach dem Abschluss eines Abonnements oder dem Start des Testzeitraums, erfolgt das Hinzufügen einer neuen Integration. Hier sind die verschiedenen Datenquellen zu sehen, die sich an Stitch anbinden lassen. Wer sich selbst die Anbindung nicht zutraut, erhält über den Support Unterstützung bei der Einrichtung. Abbildung 1: Die Anbindung von Datenquellen erfolgt über einen Assistenten. Der Support steht per E-Mail oder Chat zur Verfügung. Der Nachteil der einfachen Anbindung von Datenquellen ist allerdings, dass bei Problemen nicht einfach eine Lösung gefunden werden kann, da es keine verschiedenen Optionen gibt und keine transparenten Möglichkeiten zu untersuchen, woran eine Verbindung scheitert. Allerdings gibt es hierfür den Support, der bei Problemen unterstützen kann. Hinzu kommt, dass Talend Bugs in dem Dienst schnell beseitigt und gleichzeitig die Datenquellen und -ziele regelmäßig erweitert. Nachdem die Datenquelle ausgewählt wurde, erfolgt die Konfiguration der eigentlichen Verbindung. Hier sind Name oder IP-Adresse sowie der Port der Verbindung notwendig. Für jede Datenquelle lassen sich spezifische Optionen definieren, wie die Bezeichnung der Datenbank oder sichere Verbindungen wie SSL und SSH. Die Einstellungen sind während der Einrichtung verfügbar. Abbildung 2: Anbinden von Datenbanken an Stitch am Beispiel von Microsoft SQL Server. Sobald Datenquelle und Datenziel im Assistenten definiert sind, beginnt der Dienst mit der Integration der Daten. Die erste Übertragung dauert länger, da der Service zunächst alle Daten auslesen und in das Ziel importieren muss. Nach der ersten Übertragung arbeitet Stitch Data Loader mit einem inkrementellen Replikat der Daten. Dadurch können Analysten direkt auf aktuelle Daten aus verschiedenen Quellen zurückgreifen. Die Replikation erfolgt auf Basis eines Zeitplans.