Definition

Die sechs Vs von Big Data

Die sechs Vs von Big Data (Velocity, Volume, Value, Variety, Veracity und Variability) sind die wichtigsten Eigenschaften von Big Data. Deren Kenntnis ermöglicht es Data Scientists, mehr Wert aus ihren Daten zu ziehen.

Zu Beginn des 21. Jahrhunderts wurde bei Big Data nur von drei Vs gesprochen: Volume (Datenvolumen), Velocity (Geschwindigkeit) und Variety (Datenvielfalt). Im Laufe der Zeit wurden drei weitere Vs – Value (Wert), Veracity (Wahrhaftigkeit) und Variability (Variabilität) – hinzugefügt, um Data Scientists zu helfen, die wichtigen Eigenschaften von Big Data effektiver zu beschreiben und zu kommunizieren.

Was ist Big Data?

Big Data ist eine Kombination aus unstrukturierten, halbstrukturierten oder strukturierten Daten, die von Organisationen gesammelt werden. Diese Daten lassen sich auswerten, um Erkenntnisse zu gewinnen und in Projekten für Machine Learning, Predictive Modeling und andere Advanced-Analytics-Anwendungen zu verwenden.

Big Data kann verwendet werden, um Abläufe zu verbessern, einen besseren Kundenservice zu bieten und personalisierte Marketingkampagnen zu erstellen. Big Data kann Unternehmen beispielsweise wertvolle Erkenntnisse über ihre Kunden liefern, die sich dann zur Verfeinerung von Marketingtechniken verwenden lassen, um die Kundenbindung und die Konversionsraten zu erhöhen.

Big Data lässt sich von Organisationen beispielsweise in der Medizin oder im Energiebereich einsetzen. Medizinische Bereiche können Big Data nutzen, um Krankheitsrisikofaktoren zu identifizieren, oder sie können von Ärzten genutzt werden, um die Diagnose von Krankheiten bei Patienten zu unterstützen. Die Energiebranche kann Big Data nutzen, um Stromnetze zu überwachen, Risikomanagement zu betreiben oder Marktdaten in Echtzeit zu analysieren.

Unternehmen, die Big Data einsetzen, haben einen potenziellen Wettbewerbsvorteil gegenüber jenen, die dies nicht tun, da sie schnellere und fundiertere Geschäftsentscheidungen treffen – soweit es die Daten ermöglichen.

Volume (Datenvolumen)

Volume, das erste der sechs Vs bezieht sich auf die Menge der vorhandenen Daten. Das Datenvolumen ist die Basis von Big Data, da es sich um die anfängliche Größe und Menge der gesammelten Daten handelt. Wenn das Datenvolumen groß genug ist, kann es als Big Data betrachtet werden. Was als Big Data gilt, ist jedoch relativ und ändert sich je nach der verfügbaren Rechenleistung auf dem Markt.

Velocity (Geschwindigkeit)

Das nächste V ist Velocity. Dies bezieht sich darauf, wie schnell Daten generiert werden und wie schnell sich diese Daten bewegen. Dies ist ein wichtiger Aspekt für Unternehmen, die schnelle Datenströme benötigen, damit die Daten zum richtigen Zeitpunkt verfügbar sind, um die bestmöglichen Geschäftsentscheidungen zu treffen.

Ein Unternehmen, das Big Data nutzt, wird einen großen und kontinuierlichen Datenfluss haben, der erzeugt und an sein Ziel gesendet wird. Die Daten können aus Quellen wie Maschinen, Netzwerken, Smartphones oder sozialen Medien fließen. Diese Daten müssen schnell verarbeitet und analysiert werden, manchmal sogar in annähernd Echtzeit.

Ein Beispiel: Im Gesundheitswesen gibt es heute viele medizinische Geräte, die Patienten überwachen und Daten sammeln. Von medizinischen Geräten im Krankenhaus bis hin zu tragbaren Geräten müssen die gesammelten Daten schnell an ihren Bestimmungsort gesendet und analysiert werden.

In einigen Fällen kann es jedoch besser sein, einen begrenzten Satz an gesammelten Daten zu haben, als mehr Daten zu sammeln, die eine Organisation nicht verarbeiten kann – da dies zu einer langsameren Datengeschwindigkeit führt.

Die sechs Vs von Big Data
Abbildung 1: Big Data ist eine Sammlung von Daten aus verschiedenen Quellen.

Variety (Vielfalt)

Das nächste V ist Variety. Dies bezieht sich auf die Vielfalt der Datentypen. Eine Organisation kann Daten aus verschiedenen Datenquellen beziehen, die von unterschiedlichem Wert sind. Die Daten können aus Quellen innerhalb und außerhalb eines Unternehmens stammen. Die Herausforderung bei der Vielfalt betrifft die Standardisierung und Verteilung aller gesammelten Daten.

Die gesammelten Daten können unstrukturierter, halbstrukturierter oder strukturierter Natur sein. Unstrukturierte Daten sind Daten, die unorganisiert sind und in verschiedenen Dateien oder Formaten vorliegen. Typischerweise sind unstrukturierte Daten nicht für eine herkömmliche relationale Datenbank geeignet, da sie nicht in herkömmliche Datenmodelle passen. Semistrukturierte Daten sind Daten, die nicht in einem spezialisierten Repository organisiert sind, aber über zugehörige Informationen, wie zum Beispiel Metadaten, verfügen. Dadurch sind sie leichter zu verarbeiten als unstrukturierte Daten. Strukturierte Daten hingegen sind Daten, die in einem formatierten Repository organisiert wurden. Dies bedeutet, dass die Daten für eine effektive Datenverarbeitung und -analyse besser adressierbar sind.

Veracity (Wahrhaftigkeit)

Veracity ist das vierte V von Big Data. Es bezieht sich auf die Qualität und Genauigkeit der Daten. Gesammelte Daten können fehlende Teile aufweisen, ungenau sein oder keine echten, wertvollen Erkenntnisse liefern. Veracity (Wahrhaftigkeit) bezieht sich insgesamt auf den Grad des Vertrauens in die gesammelten Daten.

Daten können manchmal unübersichtlich und schwierig zu verwenden sein. Eine große Menge an Daten kann mehr Verwirrung stiften als Erkenntnisse bringen, wenn sie unvollständig sind. Ein Beispiel aus dem medizinischen Bereich: Wenn Daten darüber, welche Medikamente ein Patient einnimmt, unvollständig sind, kann das Leben des Patienten gefährdet sein.

Sowohl Wert als auch Wahrhaftigkeit helfen dabei, die Qualität und die aus Daten gewonnenen Erkenntnisse zu definieren.

Value (Wert)

Das fünfte V steht für Value. Es bezieht sich auf den Wert, den Big Data bietet, und steht in direktem Zusammenhang mit dem, was Unternehmen mit den gesammelten Daten machen können. In der Lage zu sein, einen Wert aus Big Data zu ziehen, ist eine Voraussetzung, da der Wert von Big Data in Abhängigkeit von den Erkenntnissen, die aus ihnen gewonnen werden können, erheblich steigt.

Unternehmen können dieselben Big Data Tools verwenden, um die Daten zu sammeln und zu analysieren, aber die Art und Weise, wie sie aus diesen Daten einen Wert ableiten, sollte einzigartig für sie sein.

Variability (Variabilität)

Das letzte V bezieht sich auf Variability. Variabilität bedeutet, dass manche Datensätze weniger konsistent als herkömmliche Transaktionsdaten sind und möglicherweise mehrere Bedeutungen haben oder von einer Datenquelle zur anderen unterschiedlich formatiert sind. Das sind Faktoren, die die Verarbeitung und Analyse der Daten erschweren.

Diese Definition wurde zuletzt im Mai 2021 aktualisiert

Erfahren Sie mehr über Datenverwaltung

ComputerWeekly.de
Close