Datenverwaltung-Definitionen

Nach einer Definition suchen
  • A

    Amazon Elastic MapReduce (Amazon EMR)

    Amazon Elastic MapReduce (EMR) ist ein Amazon Web Service (AWS) für Datenverarbeitung und Analyse. Amazon EMR basiert auf dem Hadoop-Framework.

  • Amazon Kinesis

    Amazon Kinesis, eine Cloud-Plattform für Data Streaming der Amazon Web Services (AWS), verarbeitet bis zu mehrere Hundert Terabyte Daten in Echtzeit.

  • Amazon Redshift

    Amazon Redshift ist ein vollständig verwalteter Data-Warehouse-Service. Amazon Redshift ist vor allem für analytische Workloads in der Cloud gedacht.

  • Apache Falcon

    Apache Falcon ist ein Tool zur Überwachung von Data Pipelines in Hadoop-Clustern, um eine konsistente Leistung für komplexe Prozesse sicherzustellen.

  • Apache Flink

    Apache Flink ist eine verteilte Data-Processing-Plattform für den Einsatz in Big-Data-Umgebungen, insbesondere die Analyse von in Hadoop-Clustern gespeicherten Daten.

  • Apache Hadoop

    Das Framework Apache Hadoop ist ein Open-Source-Projekt für rechenintensive Prozesse mit großen Datenmengen. Das Hadoop-Projekt besteht aus mehreren Modulen.

  • Apache Hadoop YARN (Yet Another Resource Negotiator)

    Apache Hadoop YARN (Yet Another Resource Negotiator) ist eine Cluster-Management-Technologie, die mit der zweiten Version von Hadoop eingeführt wurde.

  • Apache HBase

    Apache HBase ist eine Key-Value-Datenbank, die entwickelt wurde, um oberhalb des Hadoop Distributed File Systems (HDFS) als Teil von Hadoop zu laufen.

  • Apache Hive

    Apache Hive ist ein Open-Source Data Warehouse-System für Abfragen und Analysen großer, in Hadoop-Dateien gespeicherter Datensets.

  • Apache Pig

    Apache Pig ist eine Open-Source-Technologie, die eine Möglichkeit für die parallele Programmierung von MapReduce-Jobs auf Hadoop-Clustern bietet.

  • Apache Spark

    Apache Spark ist ein Open-Source-Framework für Parallel Processing, das Anwendern umfangreiche Datenanalyse auf verteilten Cluster-Systemen erlaubt.

  • Apache Storm

    Apache Storm ist ein Open-Source-Berechnungssystem für die Datenverarbeitung mit Hadoop, das von der Apache Software Foundation entwickelt wird.

  • C

    Conformed Dimension

    Conformed Dimensions sind Dimensionen, die so organisiert sind, dass sie von unterschiedlichen Data Marts gemeinsam genutzt werden können.

  • D

    Data Governance

    Data Governance verwaltet die Verfügbarkeit, Nutzbarkeit, Integrität und Sicherheit der Unternehmensdaten, basierend auf internen Datenstandards und Richtlinien.

  • Data Sampling (Datenauswahl)

    Data Sampling ist ein statistisches Analyseverfahren, mit dem eine repräsentative Teilmenge von Daten ausgewählt, aufbereitet und analysiert wird.

  • Data Warehouse (Information Warehouse)

    Ein Data Warehouse speichert die von verschiedenen Geschäftssystemen erfassten Daten, um sie in einer Datenbank zur weiteren Analyse bereitzustellen.

  • Data Warehouse Appliance

    Eine Data Warehouse Appliance läuft auf einem vorkonfigurierten Server und bringt ein eigenes Betriebssystem sowie Datenbank-Management-System mit.

  • Data Warehouse as a Service (DWaaS)

    DWaaS ist ein Outsourcing-Modell, bei dem ein Service-Provider die für ein Data Warehouse benötigten Ressourcen konfiguriert, verwaltet und wartet.

  • Data-Federation-Software

    Die Data-Federation-Software ermöglicht es einem Unternehmen, Daten in einer virtuellen Datenbank zu sammeln und für Analysen zu verwenden.

  • Data-Governance-Richtlinie

    Data-Governance-Richtlinien sind ein dokumentierter Satz von Policies, mit denen sichergestellt wird, dass die Datenbestände einer Organisation konsistent verwaltet werden.

  • Datenmanagement

    Datenmanagement versetzt Unternehmen in die Lage, ihren Informationskreislauf so zu steuern, dass sie größtmöglichen Nutzen aus ihren Daten ziehen.

  • Datenmodellierung

    Bei Datenmodellierung handelt es sich um Formalisierung sowie Dokumentation von Prozessen und Ereignissen, die im Laufe der Konzeption und Entwicklung von Software auftreten.

  • Dimension

    Dimensionen kategorisieren und beschreiben Data-Warehouse-Fakten und -Messwerte, so dass sie aussagekräftige Antworten auf Geschäftsfragen liefern.

  • Dimensionstabelle

    Eine Dimensionstabelle beschreibt über Attribute zentrale Kennwerte eines Data Warehouses. So lassen sich Antworten zu Geschäftsfragen finden.

  • E

    Echtzeitanalyse (Real-Time Analytics)

    Echtzeitanalyse bedeutet, dass sämtliche verfügbaren Daten zu dem Zeitpunkt für Auswertungen genutzt werden können, zu dem sie benötigt werden.

  • Extract, Transform, Load (ETL)

    Extract, Transform, Load (ETL) ist ein Prozess, bei dem Rohdaten aufbereitet und in eine Datenbank oder ein Data Warehouse geladen werden.

  • H

    Apache Hadoop 2

    Apache Hadoop 2 ist die zweite Iteration des Open-Source-Frameworks. Hadoop 2 bietet mit YARN eine größere Unabhängigkeit von MapReduce-Anwendungen.

  • Hadoop Data Lake

    Ein Hadoop Data Lake ist eine Daten-Management-Plattform, die eine oder mehrere Hadoop-Cluster umfasst und für nicht-relationale Daten genutzt wird.

  • Hadoop Distributed File System (HDFS)

    Das Hadoop Distributed File System (HDFS) ist das primäre Speichersystem, das von Hadoop-Anwendungen auf verteilten Rechnerknoten eingesetzt wird.

  • Hadoop-Cluster

    Ein Hadoop-Cluster ist ein Computer-Cluster, der für die Speicherung und Analyse von großen Mengen unstrukturierter Daten entwickelt wurde.

  • M

    MapR

    MapR ist ein Software-Unternehmen, das zu den wichtigsten Beteiligten bei der Weiterentwicklung des Open-Source-Frameworks Apache Hadoop zählt.

  • MapReduce

    MapReduce ist eine Komponente des Software-Frameworks Apache Hadoop, mit dem sich große Datenmengen auf Clustern mit Standardhardware verarbeiten lassen.

  • Maschinendaten

    Maschinendaten sind digitale Informationen, die durch Computer, Mobilgeräte, eingebettete Systeme und andere vernetzte Geräte generiert werden.

  • Microsoft SQL Server Parallel Data Warehouse (SQL Server PDW)

    Microsoft SQL Server Parallel Data Warehouse (SQL Server PDW) ist eine vorkonfigurierte Data-Warehouse-Appliance, die SQL Server Software beinhaltet.

  • R

    Redis

    Redis ist eine In-Memory-Datenbank mit einer Schlüssel-Werte-Datenstruktur. Redis wird als Open Source angeboten und gehört zu den NoSQL-Datenbanken.

  • S

    SAP NetWeaver Business Intelligence

    SAP Business Information Warehouse oder SAP NetWeaver Business Intelligence (SAP BI), ist ein BI-Paket, das für SAP-ERP-Anwendungen optimiert wurde.

  • SQL on Hadoop

    SQL on Hadoop ist eine Klasse von analytischen Anwendungen, die etablierte SQL-Abfragen mit neuen Elementen des Apache-Hadoop-Frameworks kombiniert.

  • Sternschema

    Das Sternschema ist ein logisches Datenbankschema für Data-Warehouse-Anwendungen. Es besteht aus einer Faktentabelle und mehreren Dimensionstabellen.

  • U

    Unstrukturierte Daten

    Unstrukturierte Daten ist eine allgemeine Bezeichnung für Daten, die nicht in einer Datenbank oder in einer anderen Datenstruktur gespeichert sind.

ComputerWeekly.de

Close