Datenverwaltung-Definitionen
-
A
Amazon Athena
Amazon Athena ist ein interaktiver Abfrageservice, der die Analyse von in Amazon S3 gespeicherten Daten mit SQL ermöglicht. Athena ein Serverless-Dienst.
-
Amazon Elastic MapReduce (Amazon EMR)
Amazon Elastic MapReduce (EMR) ist ein Amazon Web Service (AWS) für Datenverarbeitung und Analyse. Amazon EMR basiert auf dem Hadoop-Framework.
-
Amazon Kinesis
Amazon Kinesis ist ein verwalteter Apache-Kafka-Dienst von AWS. Das Tool besteht aus drei kombinierbaren Services: Data Streams, Data Analytics und Firehose.
-
Amazon Redshift
Amazon Redshift ist ein vollständig verwalteter Data-Warehouse-Service. Amazon Redshift ist vor allem für analytische Workloads in der Cloud gedacht.
-
Apache Flink
Apache Flink ist eine verteilte Data-Processing-Plattform für den Einsatz in Big-Data-Umgebungen, insbesondere die Analyse von in Hadoop-Clustern gespeicherten Daten.
-
Apache Hadoop
Apache Hadoop ist ein Open-Source-Framework für das Verwalten von Datenverarbeitung und -speicherung für Big-Data-Anwendungen in skalierbaren Clustern von Servern.
-
Apache Hadoop YARN (Yet Another Resource Negotiator)
Apache Hadoop YARN (Yet Another Resource Negotiator) ist eine Cluster-Management-Technologie, die mit der zweiten Version von Hadoop eingeführt wurde.
-
Apache HBase
Apache HBase ist eine Key-Value-Datenbank, die entwickelt wurde, um oberhalb des Hadoop Distributed File Systems (HDFS) als Teil von Hadoop zu laufen.
-
Apache Hive
Apache Hive ist ein Open Source Data-Warehouse-System zur Abfrage und Analyse großer Datenmengen, welche in Hadoop-Dateien gespeichert sind.
-
Apache Spark
Apache Spark ist ein Open-Source-Framework für das parallele Berechnen von sowohl Batch- als auch Echtzeit-Analysen und Datenverarbeitungslasten auf geclusterten Computern.
-
B
Bestärkendes Lernen (Reinforcement Learning)
Bestärkendes Lernen (Reinforcement Learning) ist eine Methode des maschinellen Lernens, bei der ein Agent selbstständig eine Strategie durch Belohnungen erlernt.
-
Big Data as a Service (BDaaS)
Unter Big Data as a Service versteht man die Bereitstellung von Anwendungen durch Cloud-Anbieter, die bei der Verarbeitung, Verwaltung und Analyse von Big Data unterstützen.
-
Bildkompression (Image Compression)
Um im Internet Bilder optimal darzustellen, wird Bildkompression eingesetzt, um die Speichergröße zu reduzieren. Dabei wird die Qualität größtenteils aufrechterhalten.
-
Blockchain
Blockchain ist eine Technologie, die Daten auf verteilten Rechnern in einer Art Kette ablegt. Die Daten lassen sich nicht verändern und machen das Aufzeichnungsverfahren sicher.
-
Business Process Reengineering (BPR)
Der Begriff Business Process Reengineering wurde von Michael Hammer geprägt. Dabei werden Prozesse, die zur Erzielung eines Geschäftsergebnisses erforderlich sind, umgestaltet.
-
C
Configuration Management Database (CMDB)
Die Configuration Management Database enthält alle Informationen über die Hardware und Software in einem Unternehmen. So behalten IT-Teams den Überblick über ihre Infrastruktur.
-
Content Delivery
Beim Content Delivery geht es darum speziell angefragte Inhalte schnellstens bereitzustellen, damit Anwender keine langen Antwortzeiten einer Webseite abwarten müssen.
-
D
Data Currency (Datenwährung)
Mit Data Currency können Firmen ihren Daten einen Wert zuweisen. Dieser Wert kann monetär sein, kann aber auch bei der Priorisierung der Daten und Transaktionen helfen.
-
Data Driven Decision Management (DDDM)
Data Driven Decision Management ist Entscheidungsverfahren, bei dem Daten und Datenanalysen zurate gezogen werden, um geschäftliche Entscheidungen treffen zu können.
-
Data Fabric (Data-Fabric-Architektur)
Ein Data Fabric kombiniert Architektur und Softwarelösungen zur einheitlichen Sammlung von Datenbeständen, Datenbanken und Datenbankarchitekturen innerhalb eines Unternehmens.
-
Data Governance
Data Governance verwaltet die Verfügbarkeit, Nutzbarkeit, Integrität und Sicherheit der Unternehmensdaten, basierend auf internen Datenstandards und Richtlinien.
-
Data Gravity (Datengravitation)
Data Gravity, auch Datengravitation genannt, beschreibt den Prozess, wie große Datensammlungen Anwendungen, Services und andere Daten „anziehen“ und an sich binden.
-
Data in Motion (Data in Transit)
Data in Motion sind Daten, die sich auf dem Weg von einem Computersystem zu einem anderen befinden. Bei diesem Transport können die digitalen Informationen verschlüsselt werden.
-
Data in Use (Daten in Verwendung)
Data in Use ist einer von drei Datenstatus, der Daten beschreibt, die gerade verwendet werden. Das umfasst Updates, Verarbeiten, Löschung oder das Lesen von digitalen Informationen.
-
Data Lakehouse
Ein Data Lakehouse ist eine Datenmanagementarchitektur, welche die Merkmale und Funktionen eines herkömmlichen Data Warehouse und eines Data Lake kombiniert.
-
Data Management as a Service (DMaaS)
Data Management as a Service (DMaaS) ist ein bestimmter Cloud-Dienst, der Unternehmen eine zentrale Speicherung von Daten aus unterschiedlichen Datenquellen ermöglicht.
-
Data Mart
Data Marts ermöglichen es Unternehmensanwendern, Informationen für einzelne Abteilungen oder Themen abzurufen, wodurch sie schneller auf Marktsituationen reagieren können.
-
Data Profiling (Datenarchäologie, Datenprofilerstellung)
Data Profiling bezeichnet den Prozess der Untersuchung, Analyse, Überprüfung und Zusammenfassung von Datensätzen, um Einblicke in die Qualität der Daten zu gewinnen.
-
Data Retention Policy (Aufbewahrungsrichtlinie)
Mit einer Data Retention Policy definiert eine Firma, wie Daten verwaltet und aufbewahrt werden müssen. dazu gehören unter anderem Backup-Pläne, Speicherzeitraum und Löschprozesse.
-
Data Sampling (Datenauswahl)
Data Sampling ist ein statistisches Analyseverfahren, mit dem eine repräsentative Teilmenge von Daten ausgewählt, aufbereitet und analysiert wird.
-
Data Scientist (Datenwissenschaftler)
Ein Data Scientist oder Datenwissenschaftler sammelt, analysiert und interpretiert Daten und unterstützt damit die Entscheidungsfindung in einem Unternehmen.
-
Data Storytelling
Data Storytelling soll komplexe Daten und Analysen in einer Geschichte verständlich erzählen. Dies trägt dazu bei, eine geschäftliche Entscheidung oder Handlung zu beeinflussen.
-
Data Warehouse (Information Warehouse)
Ein Data Warehouse speichert die von verschiedenen Geschäftssystemen erfassten Daten, um sie in einer Datenbank zur weiteren Analyse bereitzustellen.
-
Data Warehouse as a Service (DWaaS)
Data Warehouse as a Service (DWaaS) ist ein Cloud-Service, bei dem der Anbieter die für ein Data Warehouse notwendigen Hard- und Softwareressourcen konfiguriert und verwaltet.
-
Data-Federation-Software
Die Data-Federation-Software ermöglicht es einem Unternehmen, Daten in einer virtuellen Datenbank zu sammeln und für Analysen zu verwenden.
-
Data-Governance-Richtlinie
Data-Governance-Richtlinien sind ein dokumentierter Satz von Policies, mit denen sichergestellt wird, dass die Datenbestände einer Organisation konsistent verwaltet werden.
-
Database as a Service (DBaaS)
Database as a Service ist ein Datenbankdienst, der in einer Cloud- oder Cloud-ähnlichen Infrastruktur bereitgestellt wird. Hardware am eigenen Standort wird dabei nicht benötigt.
-
Databricks
Databricks ist ein Softwareunternehmen und eine Plattform für die Verarbeitung großer Datenmengen, die von den Schöpfern von Apache Spark gegründet wurde.
-
Dateisystem (File System)
Ein Dateisystem ist ein logisches und physisches System für die Organisation von Dateien. Dabei werden die Daten in der Regel in einer Baumstruktur in einem Verzeichnis abgelegt.
-
Daten
Daten sind digitale Informationen, die so formatiert sind, dass sie von Rechensystemen verarbeitet, gespeichert, kopiert oder übertragen werden können.
-
Datenarchitekt (Data Architect)
Ein Datenarchitekt (Data Architect) ist als IT- und Datenspezialist für Design und Aufbau einer Datenarchitektur innerhalb eines Unternehmens verantwortlich.
-
Datenarchitektur
Eine Datenarchitektur dokumentiert die Daten einer Organisation, bildet Datenflüsse durch die IT-Systeme ab und enthält einen Plan für das passende Datenmanagement.
-
Datenarchivierung (Archivierung)
Bei der Datenarchivierung werden digitale Informationen langfristig auf günstigem Storage vorgehalten. Die Daten sind in meist inaktiv oder werden nur noch äußerst selten genutzt.
-
Datenaufbereitung (Data Preparation)
Bevor Anwender Daten analysieren können, müssen diese gesammelt, zusammengeführt, strukturiert und organisiert werden. Diese Prozess wird Datenaufbereitung genannt.
-
Datenbank
In Datenbanken werden in der Regel Zusammenstellungen von Datensätzen oder Dateien gespeichert, die Informationen aus verschiedenen Bereichen enthalten.
-
Datenbereinigung
Als Datenbereinigung wird die Analyse von Daten bezeichnet, um fehlerhafte Datensätze zu identifizieren und die Daten entsprechend zu ändern, aktualisieren oder entfernen.
-
Datenbindung
Bei Datenbindung werden zwei Datenquellen gekoppelt und synchronisiert. Eine Änderung in einem Datensatz wird automatisch im gebundenen Datensatz aktualisiert.
-
Datenerfassung (Data Collection)
Die Datenerfassung beschreibt, wie Unternehmen wichtige Daten sinnvoll sammeln, um diese dann zu analysieren und für Entscheidungsprozesse zu nutzen, um die Firma voranzutreiben.
-
Datenfeed
Ein Datenfeed ist ein fortlaufender Datenstrom, der den Benutzern aktuelle Informationen aus einer oder mehreren Quellen, zum Beispiel von einer Website, liefert.
-
Datenflussdiagramm (DFD)
Ein Datenflussdiagramm ist eine grafische Darstellung, die einen standardisierten Satz von Symbolen und Methoden verwendet, um die Abläufe einer Organisation zu beschreiben.
-
Dateningenieur (Data Engineer)
Die Hauptaufgabe eines Dateningenieurs ist, Daten für analytische oder betriebliche Zwecke vor- und aufzubereiten. Dateningenieure arbeiten oft als Teil eines Analyseteams.
-
Datenkatalog (Data Catalog)
Ein Datenkatalog ist eine Auflistung und Vorbereitung der Datenbestände einer Firma zu Analysezwecken. Das Tool wird in der Regel als Software von zahlreichen Herstellern angeboten.
-
Datenklassifizierung
Die Datenklassifizierung ist eine Art des Datenmanagements, bei der Daten nach vordefinierten Kategorien eingeteilt und gespeichert werden. Das erleichtert Verwaltung und Auffinden.
-
Datenkompetenz
Datenkompetenz ist die Fähigkeit, aus Daten aussagekräftige Informationen abzuleiten. Datenkompetenz erfordert ein gewisses Maß an mathematischen und statistischen Kenntnissen.
-
Datenmanagement
Datenmanagement umfasst den gesamten Prozess der Erfassung, Speicherung, Organisation und Pflege von Daten, die eine Organisation erstellt und gesammelt hat.
-
Datenmigration (Data Migration)
Datenmigration beschreibt den Prozess des Verschiebens digitaler Informationen von einem Speicherort an einen anderen. Das können Hardware-Systeme, VMs oder Cloud-Services sein.
-
Datenmodellierung
Datenmodellierung ist die schematische Darstellung von Datenflüssen in einem Diagramm. Datenmodelle dienen als Vorlage für den Entwurf einer neuen Datenbank oder Anwendung.
-
Datenpflege (Datenkuratierung)
Datenpflege umfasst das Erstellen, Organisieren und Pflegen von Datensätzen, so dass der Wert der Daten erhalten bleibt und die Daten für die Wiederverwendung verfügbar sind.
-
Datenpipeline
Eine Datenpipeline umfasst eine Reihe von Verarbeitungsschritten, die Daten von einem Quell- an ein Zielsystem verschieben und sie für geplante Geschäftszwecke transformieren.
-
Datenpunkt (Data Point)
Ein Datenpunkt – virtuell oder physisch – ist die kleinste Einheit für Informationen. Ein Datenpunkt kann aus einer Analyse, Messung oder Untersuchung heraus definiert werden.
-
Datenqualität
Daten von schlechter Qualität werden oft als Grund für ungenaue Analysen und schlecht durchdachte Geschäftsstrategien angesehen. Daher ist hohe Datenqualität so kritisch.
-
Datenresidenz (Data Residency)
Datenresidenz bezieht sich auf den geografischen Speicherort der Daten eines Unternehmens beziehungsweise den damit verbundenen regulatorischen Anforderungen.
-
Datenstruktur
Es gibt verschiedene Arten von Datenstrukturen, die dazu dienen, Daten für einen bestimmten Zweck anzuordnen. Sie erleichtern Benutzern den Zugriff auf die benötigten Daten.
-
Datentransformation
Datentransformation, eine Komponente der Datenaufbereitung, ändert das Format, die Struktur oder die Werte von Daten, um sie für die geschäftliche Nutzung zu optimieren.
-
Datenvalidierung
Unter Datenvalidierung versteht man die Überprüfung von Integrität, Genauigkeit und Datenstruktur von Daten, bevor sie für einen bestimmten Geschäftsprozess eingesetzt werden.
-
Datenvorverarbeitung (Data Preprocessing)
Bei der Datenvorverarbeitung werden verschiedene Schritte durchlaufen, um Rohdaten oder unstrukturierte Daten für die Datenverarbeitung aufzubereiten.
-
Datenwissenschaft (Data Science)
Datenwissenschaft wendet fortschrittliche Analysetechniken und wissenschaftliche Prinzipien an, um aus Daten wertvolle Informationen für den Geschäftsbetrieb zu gewinnen.
-
Dimension
Dimensionen kategorisieren und beschreiben Data-Warehouse-Fakten und -Messwerte, so dass sie aussagekräftige Antworten auf Geschäftsfragen liefern.
-
Dimensionstabelle
Eine Dimensionstabelle beschreibt über Attribute zentrale Kennwerte eines Data Warehouses. So lassen sich Antworten zu Geschäftsfragen finden.
-
Distributed Management Task Force (DMTF)
Die Distributed Management Task Force ist eine Initiative, die aus verschiedenen IT-Fachleuten besteht und Entwicklung, Vereinheitlichung und Implementierung von Standards forciert.
-
Distributed-Ledger-Technologie (DLT)
Distributed Ledger Technologie ist eine Aufzeichnungsmethode für Daten. DLT nutzt verteilte Ressourcen, um die Daten verschlüsselt und manipulationssicher aufzubewahren.
-
E
E-Commerce
E-Commerce beschreibt den elektronischen Handel über Webseiten und andere Online-Plattformen, wobei nicht nur Geschäfte zwischen Hersteller und Endanwender abgewickelt werden.
-
Echtzeitanalyse (Real-Time Analytics)
Echtzeitanalyse bedeutet, dass sämtliche verfügbaren Daten zu dem Zeitpunkt für Auswertungen genutzt werden können, zu dem sie benötigt werden.
-
Elastic Stack
Elastic Stack ist ein Open-Source-Tool, das Daten sammelt, in Echtzeit durchsucht, analysiert und visuell darstellt. Es eignet sich zum Beispiel für Sicherheits- und Geschäftsanalysen.
-
Electronic Data Interchange (EDI)
Electronic Data Interchange (EDI) bezeichnet die Übertragung von Daten von einem Computersystem zu einem anderen durch eine standardisierte Nachrichtenformatierung.
-
Enterprise Application Integration (EAI)
Enterprise Application Integration (EAI) ist die Aufgabe der Zusammenführung von Datenbanken und Workflows, die mit Geschäftsanwendungen verbunden sind.
-
Entität
Der Begriff Entität wird häufig verwendet, um Dinge zu beschreiben, für die es keine feste Bezeichnung gibt oder die sich nur schwer mit einem Wort klassifizieren lassen.
-
Entscheidungsunterstützungssystem (Decision Support System)
Ein Entscheidungsunterstützungssystem ist eine Computeranwendung, die zur Verbesserung der Entscheidungsfähigkeit eines Unternehmens eingesetzt wird.
-
Ethereum
Ethereum ist ein quelloffenes, verteiltes System, das das Anlegen, Verwalten und Ausführen von dezentralen Programmen und Smart Contracts in einer eigenen Blockchain ermöglicht.
-
Extract, Transform, Load (ETL)
Extract, Transform, Load (ETL) ist ein Prozess, bei dem Rohdaten aufbereitet und in eine Datenbank oder ein Data Warehouse geladen werden.
-
F
Feature Engineering
Beim Feature Engineering werden Rohdaten in Feature umgewandelt, die zur Erstellung eines Vorhersagemodells mit Unterstützung des maschinellen Lernens verwendet werden können.
-
File Allocation Table (FAT)
File Allocation Table (FAT) ist ein Dateisystem, dass für PCs entwickelt wurde und das Standard-File-System für MS-DOS und andere Microsoft-Betriebssysteme.
-
Flat File
Ein Flat File, oder flache Datei, ist ein alphanumerischer Datensatz in einer zweidimensionalen Datenbank. Das geläufigste Beispiel ist eine CSV-Datei.
-
Fog Computing
Fog Computing ist eine dezentrale Datenverarbeitungsplattform. Die Computerressourcen befinden sich zwischen Datenquelle und Public Cloud, und nicht wie bei Edge an der Datenquelle.
-
G
Geschäftsanalyse (Business Analytics, BA)
Business Analytics (Geschäftsanalyse), umfasst eine Reihe von Disziplinen und Technologien zur Lösung von Geschäftsproblemen mit Datenanalysen und statistischen Modellen.
-
Geschäftsprozessmodellierung
Geschäftsprozessmodellierung wird vor allem im Rahmen des Geschäftsprozessmanagements, der Softwareentwicklung und der Systementwicklung eingesetzt.
-
Geschäftsquartal
Ein Geschäftsquartal umfasst einen Dreimonatszeitraum, der Teil des Finanzjahres eines Unternehmens ist. Börsennotierte Firmen müssen ihre Geschäftszahlen pro Quartal offenlegen.
-
Ghost Imaging (Disk Imaging)
Ein Ghost Image ist eine Abbildung einer Festplatte oder Partition zu einem bestimmten Zeitpunkt und enthält sämtliche Inhalte wie das Betriebssystem und die Konfiguration.
-
Golden Record
Als Golden Record bezeichnet man eine Definition aller Datensätze in einem organisatorischen Ökosystem, der seinen Beteiligten als Referenz dienen soll.
-
Google Cloud Dataproc
Google Cloud Dataproc ist ein Service für die Verarbeitung großer Datensätze. Er ist Teil der Public Cloud von Google und richtet sich an Data Scientists und Datenanalysten.
-
Government to Government (G2G, Regierung-zu-Regierung)
Government to Government beschreibt die gemeinsame Nutzung elektronischer Daten und Systeme zwischen Regierungsbehörden und anderen öffentlichen Organisationen.
-
GraphQL
GraphQL ist eine Open-Source-Datenabfragesprache. Sie wurde 2012 von Facebook entwickelt, um die Endpunkte von REST zu vereinfachen. 2015 wurde GraphQL veröffentlicht.
-
H
Hadoop Data Lake
Ein Hadoop Data Lake ist eine Daten-Management-Plattform, die eine oder mehrere Hadoop-Cluster umfasst und für nicht-relationale Daten genutzt wird.
-
Hadoop Distributed File System (HDFS)
Das Hadoop Distributed File System ist das Basisdateisystem, das in Hadoop zum Einsatz kommt. Es ist Open Source und verwaltet Big-Data-Anwendungen innerhalb des File Systems.
-
Hadoop-Cluster
Ein Hadoop-Cluster ist ein Computer-Cluster, der für die Speicherung und Analyse von großen Mengen unstrukturierter Daten entwickelt wurde.
-
Halbstrukturierte Daten (Semistrukturierte Daten)
Semistrukturierte Daten sind Informationen, die keiner allgemeinen Struktur unterliegen, sondern einen Teil der Strukturinformation, zum Beispiel als Metadaten, mit sich tragen.
-
Hierarchisches Storage-Management (HSM)
Hierarchisches Storage-Management nutzt Daten- beziehungsweise Storage Tiering, um Daten entsprechend ihrem Wert und ihrer Zugriffshäufigkeit dem passenden Speicher zuzuweisen.
-
I
IBM (International Business Machines)
IBM ist ein großes international agierendes Unternehmen, dass bereits Anfang des 20. Jahrhunderts gegründet wurde und sich sehr früh auf IT-Lösungen spezialisierte.
-
Inline-Deduplizierung
Inline-Deduplizierung ist eine Methode zur Datenreduzierung, bei der redundante Daten nicht auf dem Zielspeicher abgelegt werden. Der Prozess erfolgt während des Datentransfers.
-
IT-Servicemanagement (ITSM)
IT-Servicemanagement (ITSM) ist ein strategischer Ansatz für die Entwicklung, Bereitstellung, Verwaltung und Verbesserung der Art und Weise, wie Unternehmen IT nutzen.