Data Gravity (Datengravitation)
Was ist Data Gravity (Datengravitation)?
Data Gravity oder Datengravitation ist die Fähigkeit eines Datenbestands, Anwendungen, Dienste und andere Daten anzuziehen. Die Gravitationskraft kann in diesem Zusammenhang als eine Metapher verstanden werden, die beschreibt, wie Software, Dienste und Geschäftslogik von Daten in Abhängigkeit von ihrer Masse – also Menge, Wert und wirtschaftlicher Relevanz – angezogen werden. Sie ist kein physikalisches Gesetz, sondern ein Modell für Datenarchitektur und Plattform-Strategien. Je größer die Datenmenge, desto mehr Anwendungen, Dienste und andere Daten werden davon angezogen (oder damit eingebunden) und in das Repository gezogen. Data Lakes und Data Warehouses sind zwei Paradebeispiele für Datengravitation. Auch Cloud-Plattformen spielen eine zentrale Rolle, da dort entstehende Kosten für den Datentransfer (zum Beispiel Egress Fees) sowie Plattformabhängigkeiten den Effekt zusätzlich verstärken.
Datengravitation hat sowohl Vor- als auch Nachteile. Der Vorteil besteht darin, dass Datensätze mit hoher Gravitation mehr Daten anziehen und moderne Analysen den größten Nutzen haben, wenn eine Fülle von Daten verfügbar ist – daher der Begriff Big Data. Darüber hinaus sind sehr große Datensätze in der Regel für ein breiteres Spektrum von Anwendungen nützlich. Allerdings kann die Pflege umso schwieriger und kostspieliger sein, je größer die Datenmenge ist. Hinzu kommt die Gefahr von Vendor Lock-in, da es teuer und technisch anspruchsvoll sein kann, große Datenmengen aus einer bestehenden Plattform oder Cloud-Umgebung zu migrieren.
Warum ist Datengravitation wichtig?
Datengravitation ist aus mehreren Gründen wichtig. Eine bewusste und gut geplante Steigerung der Gravitation von Datensätzen kann deren Nutzen und Wert erheblich steigern. Dies kann auch den Nebeneffekt haben, dass die Genauigkeit und Anwendbarkeit der Analysen, die aus den Daten gewonnen werden können, erhöht wird.
Es ist auch wichtig, die Gravitation wachsender Datenmengen zu überwachen, um negative Auswirkungen einzudämmen und sicherzustellen, dass die Daten nicht zu unhandlich werden, um gepflegt werden zu können.
In der Praxis wirkt sich das Verschieben von Daten über größere Entfernungen und mit höherer Frequenz auf die Arbeitslastleistung aus. Daher ist es sinnvoll, Daten zu sammeln und die zugehörigen Anwendungen und Dienste in der Nähe zu platzieren. Dies ist ein Grund, warum Anwendungen des Internets der Dinge (Internet of Things, IoT) so nah wie möglich an dem Ort gehostet werden müssen, an dem die von ihnen verwendeten Daten generiert und gespeichert werden. Die Erhöhung der Datengravitation ist also eine Frage der Konfiguration und Speicherung, um den Nutzen und die Zugänglichkeit zu optimieren.
Hyperkonvergenz wird häufig verwendet, um das Konzept der Datengravitation zu veranschaulichen. In einer hyperkonvergenten Infrastruktur (HCI) sind Rechen-, Netzwerk- und Virtualisierungsressourcen eng mit der Datenspeicherung in einer handelsüblichen Hardwarebox integriert. Je größer die Datenmenge und je mehr andere Daten damit verbunden sind, desto größer ist der Wert der Daten für die Analyse.
Entwickler und Manager von Cloud-Anwendungen und IoT-Systemen mit hohem Datenvolumen gehören zu den IT-Fachleuten, die sich der Datengravitation bewusst sind und Datenquellen mit Konfigurationen aktiv pflegen, die diese optimieren. Für hohe Anziehungskraft optimierte Datenquellen schaffen einen Ausgleich zwischen größtmöglichem Nutzen und den sinkenden Erträgen, die mit aufwändiger Instandhaltung verbunden sind.
Auswirkungen der Datengravitation
Datengravitation kann sowohl vorteilhafte als auch nachteilige Auswirkungen haben. Wenn sie nicht sorgfältig überwacht und geplant wird, kann sie sich leicht nachteilig auswirken. Die beiden größten Probleme sind in der Regel erhöhte Latenz und verminderte Portabilität.
Sehr große Datensätze müssen in der Regel in der Nähe der Anwendungen liegen, die sie verwenden, insbesondere bei lokalen Bereitstellungen und Szenarien mit komplexen Workflows. Wenn Anwendungen weiter von den Rechenzentren entfernt sind, in denen die benötigten Daten gehostet werden, erhöht sich die Latenz und die Leistung leidet.
Aus diesem Grund sind Cloud-Anbieter oft die richtige Wahl für das Hosting von Datensätzen, die wahrscheinlich eine hohe Gravitation erreichen. In Data Lakes gehostete Daten lassen sich beispielsweise leichter skalieren, wenn sie wachsen, wodurch die Komplikationen reduziert werden, die bei schnellem Wachstum auftreten können. Cloud-Daten können im Allgemeinen effektiv verwaltet werden, um Durchsatz und Arbeitslast auszugleichen, was jedoch teuer werden kann.
Je größer ein Datensatz wird, desto schwieriger kann es sein, ihn zu verschieben, wenn dies erforderlich wird. Die Gebühren für die Auslagerung von Cloud-Speicher sind oft hoch, und je mehr Daten ein Unternehmen speichert, desto teurer ist es, sie zu verschieben, bis zu einem Punkt, an dem es unwirtschaftlich sein kann, sie zwischen Plattformen zu verschieben. Bei der Auswahl einer Host-Umgebung für die Daten muss daher die Datengravitation berücksichtigt werden. Es ist ratsam, Migrationspläne zu erstellen, auch wenn in naher Zukunft keine Migration zu erwarten ist, und diese Pläne sollten die letztendliche Größe des Datensatzes und nicht sein aktuelles Volumen widerspiegeln.
Ein weiteres Problem sind die Abhängigkeiten von Anwendungen, die auf den Datensatz zugreifen und deren Zugriff im Falle einer Migration geändert werden müsste. Je mehr Anwendungen vorhanden sind, desto mehr Anpassungen des Zugriffs sind erforderlich.
Künstliche Intelligenz (KI) und IoT-Anwendungen stellen ebenfalls Herausforderungen für die Datengravitation dar. Forrester weist darauf hin, dass neue Quellen und Anwendungen – darunter maschinelles Lernen, KI, Edge-Geräte oder IoT – das Risiko bergen, ihre eigene Datengravitation zu erzeugen, insbesondere wenn Unternehmen keine Pläne für das Datenwachstum haben.
Das Wachstum der Daten am Edge (Netzwerkrand) stellt eine Herausforderung für die Lokalisierung von Diensten und Anwendungen dar, es sei denn, Unternehmen können Daten vor Ort oder möglicherweise während der Übertragung herausfiltern oder analysieren. Die Zentralisierung dieser Daten ist wahrscheinlich kostspielig und verschwenderisch, wenn ein Großteil davon nicht benötigt wird.
Wie man Datengravitation verwaltet
Die Verwaltung von Big-Data-Gravitation ist oft eine Herausforderung, kann aber die Mühe wert sein. Ein Beispiel dafür ist die Sorgfalt, Anwendungen und Datensätze in der Nähe zu halten und gemeinsam vor Ort zu speichern. Cloud-Datenbereitstellungen sind oft sinnvoll, da die meisten Cloud-Dienste leicht skalierbar sind und ihre Leistung fein abgestimmt werden kann.
Es können weitere Maßnahmen ergriffen werden, um die Datengravitation gut zu verwalten. Klar definierte Standards und Richtlinien für das Datenmanagement sind ein positiver Schritt, um die ordnungsgemäße Verwendung der betreffenden Datensätze sicherzustellen und den Zugriff darauf effektiv zu regeln. Ein gutes Datenmanagement erhöht auch die Datenintegrität, was besonders wichtig ist, wenn die Daten für Analysen verwendet werden.
Eine strenge Datenverwaltung verbessert ebenfalls das Management der Datengravitation und gewährleistet eine sinnvolle Rechenschaftspflicht und Verantwortung für die Daten.
Eine gut geplante und durchgeführte Datenintegration ist ebenfalls ein Vorteil für das Datengravitationsmanagement. Wenn unterschiedliche Datensätze effektiv in eine einzige Datenquelle integriert werden können, werden sowohl der Zugriff als auch die Wartung vereinfacht und potenzielle Fehler reduziert. Die Infrastruktur, die Data Lakes unterstützt, bietet oft Möglichkeiten für eine solche Integration.
Die Geschichte der Datengravitation
Der IT-Experte Dave McCrory prägte den Begriff Datengravitation erstmals im Jahr 2010 als Analogie für die physikalische Eigenschaft, dass Objekte mit größerer Masse Objekte mit geringerer Masse auf natürliche Weise anziehen.
Laut McCrory verlagert sich die Datengravitation in die Cloud. Da immer mehr interne und externe Geschäftsdaten in die Cloud verlagert oder dort generiert werden, basieren auch Datenanalyse-Tools zunehmend auf der Cloud. In seiner Erklärung des Begriffs unterscheidet er zwischen natürlich auftretender Datengravitation und ähnlichen Veränderungen, die durch externe Kräfte wie Gesetzgebung, Drosselung und manipulative Preisgestaltung hervorgerufen werden und die McCrory als künstliche Datengravitation bezeichnet.
Im Jahr 2020 veröffentlichte McCrory den Data Gravity Index, einen Bericht, der die Intensität der Datengravitation für die Forbes Global 2000-Unternehmen in 53 Metropolen und 23 Branchen misst, quantifiziert und prognostiziert. Der Bericht enthält eine zum Patent angemeldete Formel für die Datengravitation und eine Methodik, die auf Tausenden von Attributen der Präsenz von Global 2000-Unternehmen an jedem Standort basiert, sowie Variablen für jeden Standort, darunter die folgenden:
- Bruttoinlandsprodukt (BIP).
- Bevölkerung.
- Anzahl der Beschäftigten.
- Technografische Daten.
- IT-Ausgaben.
- Durchschnittliche Bandbreite und Latenz.
- Datenflüsse (Data Workflows).
Das Wichtigste auf einen Blick: Data Gravity (Datengravitation)
Datengravitation beschreibt das Phänomen, dass große Datenmengen Anwendungen, Dienste und weitere Daten anziehen. Sie steigert den Nutzen für Analysen und Geschäftsprozesse, bringt jedoch auch Nachteile wie höhere Latenzen, steigende Verwaltungskosten, erschwerte Migrationen und Vendor Lock-in mit sich. Um die Vorteile auszuschöpfen und Risiken zu minimieren, ist es entscheidend, Daten möglichst nah an den Anwendungen zu halten, eine klare Datenstrategie zu verfolgen und geeignete Cloud- und Infrastrukturentscheidungen zu treffen.