Big Data-Definitionen
-
A
Apache Hive
Apache Hive ist ein Open Source Data-Warehouse-System zur Abfrage und Analyse großer Datenmengen, welche in Hadoop-Dateien gespeichert sind.
-
B
Bestärkendes Lernen (Reinforcement Learning)
Bestärkendes Lernen (Reinforcement Learning) ist eine Methode des maschinellen Lernens, bei der ein Agent selbstständig eine Strategie durch Belohnungen erlernt.
-
Big Data
Big Data ist eine Kombination aus strukturierten, semistrukturierten und unstrukturierten Daten, die von Firmen gesammelt und mit Unterstützung von Technologie ausgewertet werden.
-
Big Data Analytics
Big Data Analytics ist der Prozess der Analyse großer Datenmengen, um Informationen, wie versteckte Muster, Korrelationen, Markttrends und Kundenpräferenzen, aufzudecken.
-
Big Data as a Service (BDaaS)
Unter Big Data as a Service versteht man die Bereitstellung von Anwendungen durch Cloud-Anbieter, die bei der Verarbeitung, Verwaltung und Analyse von Big Data unterstützen.
-
Big-Data-Management
Big-Data-Management dient dazu, das Wachstum strukturierter und unstrukturierter Daten zu kontrollieren, gezielt aufzubereiten und zu analysieren.
-
Business Intelligence (BI)
Business Intelligence (BI) ist ein technologiegestützter Prozess zur Datenanalyse, der Führungskräften, Managern und Endanwendern hilft, Geschäftsentscheidungen zu treffen.
-
C
Chief Data Officer (CDO)
Ein Chief Data Officer (CDO) kümmert sich in Unternehmen in der Regel um die Bereiche Data Governance und Big Data. Damit kann auch die Einhaltung der Compliance verbunden seín.
-
D
Dark Data
Der Begriff Dark Data bezeichnet Datensätze, die ein Unternehmen sammelt und speichert, ohne einen festen Plan für deren Weiterverwendung oder Monetarisierung zu haben.
-
Data Fabric (Data-Fabric-Architektur)
Ein Data Fabric kombiniert Architektur und Softwarelösungen zur einheitlichen Sammlung von Datenbeständen, Datenbanken und Datenbankarchitekturen innerhalb eines Unternehmens.
-
Data Lake
Ein Data Lake ist ein Speicherort, an dem große Mengen an Rohdaten gespeichert werden, bis sie zum Beispiel für Business-Intelligence- und Analyseanwendungen benötigt werden.
-
Data Lakehouse
Ein Data Lakehouse ist eine Datenmanagementarchitektur, welche die Merkmale und Funktionen eines herkömmlichen Data Warehouse und eines Data Lake kombiniert.
-
Data Mart
Data Marts ermöglichen es Unternehmensanwendern, Informationen für einzelne Abteilungen oder Themen abzurufen, wodurch sie schneller auf Marktsituationen reagieren können.
-
Data Mining
Data Mining ist eine Technik, um in Daten bestimmte geschäftlich verwertbare Muster zu finden. Dabei kommen verschiedene Techniken zum Einsatz.
-
Databricks
Databricks ist ein Softwareunternehmen und eine Plattform für die Verarbeitung großer Datenmengen, die von den Schöpfern von Apache Spark gegründet wurde.
-
Daten
Daten sind digitale Informationen, die so formatiert sind, dass sie von Rechensystemen verarbeitet, gespeichert, kopiert oder übertragen werden können.
-
Datenarchitektur
Eine Datenarchitektur dokumentiert die Daten einer Organisation, bildet Datenflüsse durch die IT-Systeme ab und enthält einen Plan für das passende Datenmanagement.
-
Datenaufbereitung (Data Preparation)
Bevor Anwender Daten analysieren können, müssen diese gesammelt, zusammengeführt, strukturiert und organisiert werden. Diese Prozess wird Datenaufbereitung genannt.
-
Datenbank
In Datenbanken werden in der Regel Zusammenstellungen von Datensätzen oder Dateien gespeichert, die Informationen aus verschiedenen Bereichen enthalten.
-
Datenbereinigung
Als Datenbereinigung wird die Analyse von Daten bezeichnet, um fehlerhafte Datensätze zu identifizieren und die Daten entsprechend zu ändern, aktualisieren oder entfernen.
-
Datenexploration
Datenexploration ist der erste Schritt der Datenanalyse, der den Einsatz von Anwendungen zur Datenvisualisierung und statistische Techniken umfasst.
-
Datenkompetenz
Datenkompetenz ist die Fähigkeit, aus Daten aussagekräftige Informationen abzuleiten. Datenkompetenz erfordert ein gewisses Maß an mathematischen und statistischen Kenntnissen.
-
Datenpflege (Datenkuratierung)
Datenpflege umfasst das Erstellen, Organisieren und Pflegen von Datensätzen, so dass der Wert der Daten erhalten bleibt und die Daten für die Wiederverwendung verfügbar sind.
-
Datenpipeline
Eine Datenpipeline umfasst eine Reihe von Verarbeitungsschritten, die Daten von einem Quell- an ein Zielsystem verschieben und sie für geplante Geschäftszwecke transformieren.
-
Datenqualität
Daten von schlechter Qualität werden oft als Grund für ungenaue Analysen und schlecht durchdachte Geschäftsstrategien angesehen. Daher ist hohe Datenqualität so kritisch.
-
Datentransformation
Datentransformation, eine Komponente der Datenaufbereitung, ändert das Format, die Struktur oder die Werte von Daten, um sie für die geschäftliche Nutzung zu optimieren.
-
Datenvalidierung
Unter Datenvalidierung versteht man die Überprüfung von Integrität, Genauigkeit und Datenstruktur von Daten, bevor sie für einen bestimmten Geschäftsprozess eingesetzt werden.
-
Datenvorverarbeitung (Data Preprocessing)
Bei der Datenvorverarbeitung werden verschiedene Schritte durchlaufen, um Rohdaten oder unstrukturierte Daten für die Datenverarbeitung aufzubereiten.
-
Deskriptive Analyse (beschreibende Analyse)
Die beschreibende Analyse ist eine Form der Datenanalyse, bei der Daten aus der Vergangenheit untersucht werden, um einen Bericht über das Geschehen zu erstellen.
-
E
Edge Analytics
Edge Analytics ist eine Methode der Datenanalyse, die automatisierte Algorithmen verwendet, um Daten von Sensoren und anderen Geräten am Ort der Erfassung zu verarbeiten.
-
Ensemble Modeling (Ensemblemodellierung)
Beim Ensemble Modeling werden zwei oder mehr verwandte, aber unterschiedliche Analysemodelle ausgeführt und die Ergebnisse zu einem einzigen Ergebnis zusammengefasst.
-
Enterprise Data Hub
Ein Enterprise Data Hub ist ein Managementmodell für Big Data, das ein Hadoop-Ökosystem als zentrales Data Repository nutzt. Es wird vor allem von Cloudera verwendet.
-
G
Geschäftsanalyse (Business Analytics, BA)
Business Analytics (Geschäftsanalyse), umfasst eine Reihe von Disziplinen und Technologien zur Lösung von Geschäftsproblemen mit Datenanalysen und statistischen Modellen.
-
Google BigQuery
BigQuery ist ein Cloud-Service von Google für die Datenanalyse sehr großer Datenmengen. Google BigQuery verwendet hierfür eine SQL-ähnliche Syntax.
-
Google Cloud Dataflow
Google Cloud Dataflow ist ein Cloud-basierter Datenverarbeitungsdienst, mit dem sich automatisch Arbeitsschritte für Datenanalysen erstellen lassen.
-
Google Cloud Dataproc
Google Cloud Dataproc ist ein Service für die Verarbeitung großer Datensätze. Er ist Teil der Public Cloud von Google und richtet sich an Data Scientists und Datenanalysten.
-
H
Hadoop as a Service
Hadoop as a Service ist eine Cloud-basierte Dienstleistung, die Big-Data-Analysen ermöglicht. Hier werden große Mengen unstrukturierter Daten verarbeitet und gespeichert.
-
Halbstrukturierte Daten (Semistrukturierte Daten)
Semistrukturierte Daten sind Informationen, die keiner allgemeinen Struktur unterliegen, sondern einen Teil der Strukturinformation, zum Beispiel als Metadaten, mit sich tragen.
-
I
IBM (International Business Machines)
IBM ist ein großes international agierendes Unternehmen, dass bereits Anfang des 20. Jahrhunderts gegründet wurde und sich sehr früh auf IT-Lösungen spezialisierte.
-
IoT Analytics (Internet of Things Analytics)
Diese Definition erklärt, was IoT-Analytik ist und wie Datenintegration und Big-Data-Analyse entscheidend sind, um den Nutzen aus den anfallenden riesigen Datenmengen zu ziehen.
-
K
Künstliches neuronales Netz (KNN)
In der IT ist ein künstliches neuronales Netz (Artificial Neural Network) ein System aus Hard- und Software, das der Funktionsweise von Neuronen im Gehirn nachgebildet ist.
-
M
MapReduce
MapReduce ist eine Komponente des Software-Frameworks Apache Hadoop, mit dem sich große Datenmengen auf Clustern mit Standardhardware verarbeiten lassen.
-
Microsoft Azure HDInsight
Microsoft Azure HDInsight ist ein Cloud-Dienst für Big-Data-Analysen, der bei der Verarbeitung großer Mengen von Streaming- oder historischen Daten unterstützt.
-
Microsoft SQL Server
Microsoft SQL Server ist ein relationales Datenbankmanagementsystem (RDBMS), das eine Vielzahl von Transaktionsverarbeitungs- und Analyseanwendungen unterstützt.
-
MPP-Datenbank (Massive Parallel Processing Database)
Eine MPP-Datenbank ist eine Datenbank, die für die parallele Verarbeitung vieler Operationen optimiert ist, die von vielen Verarbeitungseinheiten gleichzeitig ausgeführt werden.
-
N
Nvidia
Nvidia ist ein Hardwarehersteller aus den USA. Ursprünglich hauptsächlich im Gaming-Bereich tätig, vertreibt der Anbieter inzwischen zahlreiche spezial-GPUs für Rechenzentren.
-
P
Predictive Analytics (prädiktive Analyse)
Predictive Analytics (prädiktive Analyse) ist eine Form der erweiterten Analyse, bei der aktuelle und historische Daten zur Vorhersage von Aktivitäten und Trends genutzt werden.
-
R
R (Programmiersprache)
Die Programmiersprache R ist eine Open-Source-Skriptsprache, welche für statistische Berechnungen, Predictive Analytics und Datenvisualisierungen verwendet wird.
-
Robotic Process Automation (RPA)
Robotic Process Automation (RPA) ist eine Technologie, die nachahmt, wie Menschen mit Software interagieren, um hochvolumige, wiederholbare Aufgaben auszuführen.
-
S
SAP BusinessObjects Business Intelligence
SAP BusinessObjects BI (auch BO oder BOBI) ist eine BI-Software-Suite mit der sich Geschäftsdaten visualisieren, sortieren und analysieren lassen.
-
SAP Data Hub
Mit SAP Data Hub können Unternehmen eine Datenpipeline aus verschiedenen Quellen aufbauen, die dann in neuen datengesteuerten Anwendungen genutzt werden können.
-
Strukturierte Daten
Strukturierte Daten sind Daten, die in einem formatierten Repository, zum Beispiel einer Datenbank, organisiert sind, so dass sie sich leicht verarbeiten und analysieren lassen.
-
U
Unstrukturierte Daten
Unstrukturierte Daten sind Informationen in verschiedenen Formen, die nicht herkömmlichen Datenmodellen entsprechen und nicht in relationalen Datenbanken gespeichert werden können.
-
Unüberwachtes Lernen (Unsupervised Learning)
Beim unüberwachten Lernen kann ein KI-System unsortierte Informationen nach Ähnlichkeiten und Unterschieden gruppieren, obwohl es keine vorgegebenen Kategorien gibt.
-
Überwachtes Lernen (Supervised Learning)
Überwachtes Lernen ist ein Ansatz zur Entwicklung künstlicher Intelligenz, bei dem ein Algorithmus auf Daten trainiert wird, die für eine bestimmte Ausgabe markiert wurden.
-
V
Die sechs Vs von Big Data
Die wichtigsten Eigenschaften von Big Data werden üblicherweise mit den sechs Vs beschrieben: Velocity, Volume, Value, Variety, Veracity und Variability.