Definition

Big Data as a Service (BDaaS)

Unter Big Data as a Service versteht man die Bereitstellung von Datenplattformen und Tools durch einen Cloud-Anbieter, um Unternehmen bei der Verarbeitung, Verwaltung und Analyse großer Datenmengen zu unterstützen. Auf diese Weise lassen sich Erkenntnisse gewinnen, die Geschäftsabläufe verbessern und Wettbewerbsvorteile ermöglichen.

Angesichts der immensen Mengen an strukturierten, unstrukturierten und halbstrukturierten Daten, die von vielen Unternehmen regelmäßig generiert werden, soll Big Data as a Service (BDaaS) Unternehmensressourcen freisetzen, indem die Datenmanagementsysteme und IT-Kenntnisse eines externen Anbieters genutzt werden, anstatt Systeme vor Ort einzusetzen und interne Mitarbeiter für diese Aufgaben einzustellen. Big Data as a Service kann entweder dedizierte Systeme und Software zur Verfügung stellen, die in der Cloud laufen, oder verwaltete Services, der von einem Cloud-Anbieter gehostet und betrieben werden.

BDaaS ist eine Form des Cloud Computing, ähnlich wie Software as a Service (SaaS), Platform as a Service (PaaS) und Infrastructure as a Service (SaaS). Zusätzlich zu den Datenverarbeitungs-Frameworks und den zugehörigen Tools, die den Kern bilden, stützt sich Big Data as a Service auf Cloud Storage, um Datensätze zu verwalten und dem Benutzerunternehmen Zugriff darauf zu gewähren.

Merkmale von BDaaS

Ursprünglich wurden die meisten Big-Data-Systeme in lokalen Rechenzentren installiert, in erster Linie von großen Unternehmen, die verschiedene Open-Source-Technologien kombinierten, um ihre speziellen Big-Data-Anwendungen und Anwendungsfälle zu erfüllen. Aufgrund der potenziellen Vorteile haben sich die Bereitstellungen jedoch zunehmend in die Cloud verlagert. Big Data as a Service bietet den Nutzern insbesondere folgende Vorteile:

Geringere Komplexität. Aufgrund ihrer kundenspezifischen Natur sind Big-Data-Umgebungen kompliziert zu entwerfen, bereitzustellen und zu verwalten. Die Nutzung von Cloud-Infrastrukturen und gemanagten Diensten kann den Prozess vereinfachen, da ein Großteil der praktischen Arbeit, die Unternehmen leisten müssen, entfällt.

Leichtere Skalierbarkeit. In vielen Umgebungen sind die Arbeitslasten der Datenverarbeitung nicht einheitlich. Beispielsweise werden Big-Data-Analyseanwendungen oft nur sporadisch oder einmalig ausgeführt. BDaaS macht es einfach, Systeme zu skalieren, wenn die Verarbeitungsanforderungen steigen, und sie nach Abschluss der Aufträge wieder zu reduzieren.

Erhöhte Flexibilität. BDaaS-Benutzer können nicht nur Systeme je nach Bedarf hoch- oder herunterskalieren, sondern auch Plattformen, Technologien und Tools leichter hinzufügen oder entfernen, um den sich ändernden Geschäftsanforderungen gerecht zu werden, als dies in der Regel bei Big-Data-Architekturen On-Premises möglich ist.

Potenzielle Kosteneinsparungen. Die Nutzung der Cloud kann die IT-Kosten senken, da die Unternehmen keine neue Hardware und Software kaufen und keine Mitarbeiter mit Big-Data-Management-Kenntnissen einstellen müssen. Allerdings müssen kostenpflichtige Cloud-Dienste überwacht werden, um zu verhindern, dass unnötige Verarbeitungskosten die Kosten in die Höhe treiben.

Stärkere Security. Bedenken hinsichtlich der Datensicherheit hielten viele Unternehmen anfangs davon ab, die Cloud zu nutzen, insbesondere in regulierten Branchen. In vielen Fällen sind Cloud-Anbieter und -Dienstleister jedoch in der Lage, in bessere Sicherheitsvorkehrungen zu investieren, als es einzelne Unternehmen können.

Vorteile von BDaaS
Abbildung 1: Dies sind einige der Vorteile, die Unternehmen aus BDaaS-Plattformen ziehen können.

Schlüsselkomponenten der BDaaS-Angebote

Die drei führenden Anbieter von Cloud-Plattformen bieten alle Big-Data-Technologiepakete und -Dienste an: Amazon EMR von Amazon Web Services (AWS), Google Cloud Dataproc und Azure HDInsight von Microsoft. Zu den anderen prominenten BDaaS-Anbietern gehören Cloudera, Databricks, HPE, Oracle und Qubole.

Die konkurrierenden BDaaS-Plattformen bieten unterschiedliche Kombinationen von Open-Source-Big-Data-Software. Zu den gemeinsamen Kerntechnologien gehören das verteilte Processing Framework Hadoop, die Processing Engine Spark, die Data-Warehouse-Software Hive sowie die Programmiersprachen Python, R und Scala. Die folgenden Tools sind häufig ebenfalls als Standard- oder optionale Komponenten enthalten:

  • HBase, ein Data Store für Hadoop
  • Flink, Kafka und andere Echtzeit-Stream-Processing-Engines
  • Presto, eine konkurrierende SQL-Abfrage-Engine zu Hive
  • das Anwendungs-Framework Tez
  • Analyse-Tools wie Jupyter Notebook, Mahout, Pig und Zeppelin
  • den Workflow-Scheduler Oozie, die Datenübertragungssoftware Sqoop, den Cluster-Konfigurationsdienst ZooKeeper und andere Management-Tools

Die Daten werden in der Regel im Hadoop Distributed File System (HDFS) gespeichert, das eine der Kernkomponenten von Hadoop ist, oder in Cloud-Objektspeicherdiensten wie Amazon Simple Storage Service (S3), Google Cloud Storage und Azure Blob Storage. BDaaS-Plattformen können auch mit Data-Warehouse- und Data-Lake-Umgebungen verbunden werden, wie Azure Data Lake Storage, Delta Lake, Iceberg und Snowflake.

BDaaS-Markttrends

Während sich der Markt für Big Data as a Service in erster Linie auf Public-Cloud-Umgebungen konzentriert, können Benutzer die AWS-, Google- und Microsoft-Plattformen jetzt auch in ihren eigenen Rechenzentren und anderen Einrichtungen vor Ort installieren. Ermöglicht wird dies durch die zusätzliche Unterstützung für die Ausführung der Big-Data-Services auf den Hybrid-Cloud-Plattformen der einzelnen Anbieter – AWS Outposts, Google Anthos und Azure Stack. Mit Unterstützung dieser Technologien können Unternehmen in ihren Big-Data-Umgebungen eine Private Cloud oder Public Cloud mit lokalen Systeme mischen.

Alle drei Anbieter haben ihre BDaaS-Plattformen auch mit Kubernetes-Diensten verknüpft, die es Unternehmen ermöglichen, das beliebte Container-Management-Framework zu nutzen, um Big-Data-Anwendungen in Containern zu erstellen, was die Bereitstellung vereinfachen, die Infrastrukturverwaltung rationalisieren und die Nutzung von Systemressourcen optimieren kann.

Außerdem legen AWS, Google und andere BDaaS-Anbieter mittlerweile den Schwerpunkt auf Spark und andere Technologien anstelle von Hadoop, das ursprünglich im Mittelpunkt ihrer Angebote und des Big-Data-Ökosystems insgesamt stand. Dies spiegelt einen allgemeinen Rückgang der Bedeutung von Hadoop gegenüber Spark als Batch Processing Engine wider, obwohl HDFS und die Hadoop-Cluster-Ressourcenmanagement-Software YARN weiterhin weit verbreitet sind.

Diese Definition wurde zuletzt im Oktober 2022 aktualisiert

Erfahren Sie mehr über Big Data

ComputerWeekly.de
Close