Big Data-Definitionen

Nach einer Definition suchen
  • A

    Apache Hive

    Apache Hive ist ein Open Source Data-Warehouse-System zur Abfrage und Analyse großer Datenmengen, welche in Hadoop-Dateien gespeichert sind.

  • B

    Bestärkendes Lernen (Reinforcement Learning)

    Bestärkendes Lernen (Reinforcement Learning) ist eine Methode des maschinellen Lernens, bei der ein Agent selbstständig eine Strategie durch Belohnungen erlernt.

  • Big Data

    Big Data ist eine Kombination aus strukturierten, semistrukturierten und unstrukturierten Daten, die von Firmen gesammelt und mit Unterstützung von Technologie ausgewertet werden.

  • Big Data Analytics

    Big Data Analytics ist der Prozess der Analyse großer Datenmengen, um Informationen, wie versteckte Muster, Korrelationen, Markttrends und Kundenpräferenzen, aufzudecken.

  • Big Data as a Service (BDaaS)

    Unter Big Data as a Service versteht man die Bereitstellung von Anwendungen durch Cloud-Anbieter, die bei der Verarbeitung, Verwaltung und Analyse von Big Data unterstützen.

  • Big-Data-Management

    Big-Data-Management dient dazu, das Wachstum strukturierter und unstrukturierter Daten zu kontrollieren, gezielt aufzubereiten und zu analysieren.

  • Business Analytics (BA)

    Business Analytics (BA) ist die kontinuierliche, iterative Untersuchung vergangener Leistungen, um Erkenntnisse für die Unternehmensplanung zu gewinnen.

  • Business Intelligence (BI)

    Business Intelligence (BI) ist ein technologiegestützter Prozess zur Datenanalyse, der Führungskräften, Managern und Endanwendern hilft, Geschäftsentscheidungen zu treffen.

  • C

    Chief Data Officer (CDO)

    Ein Chief Data Officer (CDO) kümmert sich in Unternehmen in der Regel um die Bereiche Data Governance und Big Data. Damit kann auch die Einhaltung der Compliance verbunden seín.

  • D

    Dark Data

    Der Begriff Dark Data bezeichnet Datensätze, die ein Unternehmen sammelt und speichert, ohne einen festen Plan für deren Weiterverwendung oder Monetarisierung zu haben.

  • Data Lake

    Ein Data Lake ist ein Repository von Daten, die im Rohdatenformat darin gespeichert sind. Data Lakes kommen häufig zusammen mit Big-Data-Anwendungen zum Einsatz.

  • Data Lakehouse

    Ein Data Lakehouse ist eine Datenmanagementarchitektur, welche die Merkmale und Funktionen eines herkömmlichen Data Warehouse und eines Data Lake kombiniert.

  • Data Mart

    Data Marts ermöglichen es Unternehmensanwendern, Informationen für einzelne Abteilungen oder Themen abzurufen, wodurch sie schneller auf Marktsituationen reagieren können.

  • Data Mining

    Data Mining ist eine Technik, um in Daten bestimmte geschäftlich verwertbare Muster zu finden. Dabei kommen verschiedene Techniken zum Einsatz.

  • Databricks

    Databricks ist ein Softwareunternehmen und eine Plattform für die Verarbeitung großer Datenmengen, die von den Schöpfern von Apache Spark gegründet wurde.

  • Daten

    Diese Definition erklärt die Bedeutung von Daten,das heißtvon Informationen, die in eine Form übersetzt wurden, die eine effiziente Bewegung oder Verarbeitung unterstützt.

  • Datenarchitektur

    Eine Datenarchitektur dokumentiert die Daten einer Organisation, bildet Datenflüsse durch die IT-Systeme ab und enthält einen Plan für das passende Datenmanagement.

  • Datenaufbereitung (Data Preparation)

    Bevor Anwender Daten analysieren können, müssen diese gesammelt, zusammengeführt, strukturiert und organisiert werden. Dies geschieht mit der Datenaufbereitung.

  • Datenbereinigung

    Als Datenbereinigung wird die Analyse von Daten bezeichnet, um fehlerhafte Datensätze zu identifizieren und die Daten entsprechend zu ändern, aktualisieren oder entfernen.

  • Datenexploration

    Datenexploration ist der erste Schritt der Datenanalyse, der den Einsatz von Anwendungen zur Datenvisualisierung und statistische Techniken umfasst.

  • Datenkompetenz

    Datenkompetenz ist die Fähigkeit, aus Daten aussagekräftige Informationen zu erschließen. Vor allem im Zusammenhang mit Datenanalysen spielt Datenkompetenz eine wichtige Rolle.

  • Datenpflege (Datenkuratierung)

    Datenpflege umfasst das Erstellen, Organisieren und Pflegen von Datensätzen, so dass der Wert der Daten erhalten bleibt und die Daten für die Wiederverwendung verfügbar sind.

  • Datenqualität

    Daten von schlechter Qualität werden oft als Grund für ungenaue Analysen und schlecht durchdachte Geschäftsstrategien angesehen. Daher ist hohe Datenqualität so kritisch.

  • Datentransformation

    Datentransformation, eine Komponente der Datenaufbereitung, ändert das Format, die Struktur oder die Werte von Daten, um sie für die geschäftliche Nutzung zu optimieren.

  • Datenvalidierung

    Unter Datenvalidierung versteht man die Überprüfung von Integrität, Genauigkeit und Datenstruktur von Daten, bevor sie für einen bestimmten Geschäftsprozess eingesetzt werden.

  • Datenvorverarbeitung (Data Preprocessing)

    Bei der Datenvorverarbeitung sind sechs Schritte notwendig, um Rohdaten oder unstrukturierte Daten für ein anderes Datenverarbeitungsverfahren aufzubereiten.

  • Deskriptive Analyse (Descriptive Analytics)

    Die deskriptive Analyse ist eine Vorstufe der Datenverarbeitung, die historische Daten zusammenfasst, um Informationen für weitere Analysen vorzubereiten.

  • E

    Edge Analytics

    Edge Analytics ist eine Methode der Datenanalyse, die automatisierte Algorithmen verwendet, um Daten von Sensoren und anderen Geräten am Ort der Erfassung zu verarbeiten.

  • Ensemble Modeling (Ensemble-Modellierung)

    Beim Ensemble Modeling (Ensemble-Modellierung) werden verwandte, aber unterschiedliche Analysemodelle ausgeführt und die Ergebnisse zu einem Ergebnis zusammengeführt.

  • Enterprise Data Hub

    Ein Enterprise Data Hub ist ein Managementmodell für Big Data, das ein Hadoop-Ökosystem als zentrales Data Repository nutzt. Es wird vor allem von Cloudera verwendet.

  • G

    Google BigQuery

    BigQuery ist ein Cloud-Service von Google für die Datenanalyse sehr großer Datenmengen. Google BigQuery verwendet hierfür eine SQL-ähnliche Syntax.

  • Google Cloud Dataflow

    Google Cloud Dataflow ist ein Cloud-basierter Datenverarbeitungsdienst, mit dem sich automatisch Arbeitsschritte für Datenanalysen erstellen lassen.

  • Google Cloud Dataproc

    Google Cloud Dataproc ist ein Service für die Verarbeitung großer Datensätze. Er ist Teil der Public Cloud von Google und richtet sich an Data Scientists und Datenanalysten.

  • H

    Halbstrukturierte Daten (Semistrukturierte Daten)

    Semistrukturierte Daten sind Informationen, die keiner allgemeinen Struktur unterliegen, sondern einen Teil der Strukturinformation, zum Beispiel als Metadaten, mit sich tragen.

  • I

    IoT Analytics (Internet of Things Analytics)

    Diese Definition erklärt, was IoT-Analytik ist und wie Datenintegration und Big-Data-Analyse entscheidend sind, um den Nutzen aus den anfallenden riesigen Datenmengen zu ziehen.

  • K

    Künstliches neuronales Netz (KNN)

    In der IT ist ein künstliches neuronales Netz (Artificial Neural Network) ein System aus Hard- und Software, das der Funktionsweise von Neuronen im Gehirn nachgebildet ist.

  • M

    MapReduce

    MapReduce ist eine Komponente des Software-Frameworks Apache Hadoop, mit dem sich große Datenmengen auf Clustern mit Standardhardware verarbeiten lassen.

  • Microsoft Azure HDInsight

    Microsoft Azure HDInsight ist ein Cloud-Dienst für Big-Data-Analysen, der bei der Verarbeitung großer Mengen von Streaming- oder historischen Daten unterstützt.

  • Microsoft SQL Server

    Microsoft SQL Server ist ein relationales Datenbankmanagementsystem, das eine Vielzahl von Transaktionsverarbeitungs- und Analyseanwendungen unterstützt.

  • N

    Nvidia

    Nvidia ist ein Hardwarehersteller aus den USA. Ursprünglich hauptsächlich im Gaming-Bereich tätig, vertreibt der Anbieter inzwischen zahlreiche spezial-GPUs für Rechenzentren.

  • P

    Predictive Analytics

    Predictive Analytics ist eine Form von Advanced Analytics, die sowohl auf neue als auch historische Daten zur Vorhersage von Aktivitäten, Verhalten und Trends zurückgreift.

  • R

    R (Programmiersprache)

    Die Programmiersprache R ist eine Open-Source-Skriptsprache, welche vor allem für statistische Berechnungen, Predictive Analytics und Datenvisualisierungen verwendet wird.

  • Robotic Process Automation (RPA)

    Robotic Process Automation (RPA) ist eine Technologie, die nachahmt, wie Menschen mit Software interagieren, um hochvolumige, wiederholbare Aufgaben auszuführen.

  • S

    SAP BusinessObjects Business Intelligence

    SAP BusinessObjects BI (auch BO oder BOBI) ist eine BI-Software-Suite mit der sich Geschäftsdaten visualisieren, sortieren und analysieren lassen.

  • SAP Data Hub

    Mit SAP Data Hub können Unternehmen eine Datenpipeline aus verschiedenen Quellen aufbauen, die dann in neuen datengesteuerten Anwendungen genutzt werden können.

  • Strukturierte Daten

    Strukturierte Daten sind Daten, die in einem formatierten Repository, zum Beispiel einer Datenbank, organisiert sind, so dass sie sich leicht verarbeiten und analysieren lassen.

  • U

    Unüberwachtes Lernen (Unsupervised Learning)

    Beim unüberwachten Lernen kann ein KI-System unsortierte Informationen nach Ähnlichkeiten und Unterschieden gruppieren, obwohl es keine vorgegebenen Kategorien gibt.

  • Überwachtes Lernen (Supervised Learning)

    Beim überwachten Lernen werden Machine-Learning-Systeme in der Trainingsphase sowohl die Eingabe- als auch die gewünschten Ausgabewerte bereitgestellt.

  • V

    Die sechs Vs von Big Data

    Velocity, Volume, Value, Variety, Veracity und Variability sind die wichtigsten Eigenschaften von Big Data. Deren Kenntnis ermöglichen es, mehr Wert aus Daten zu ziehen.

ComputerWeekly.de
Close