Organisationen benötigen Datenbanken, die den steigenden Anforderungen an die Datenspeicherung gerecht werden und die Datenvielfalt effizient bewältigen können. Spaltenorientierte Datenbanken erfüllen diese Zwecke

Spaltenorientierte Datenbanken sind eine Art von NoSQL-Datenbank, die für hochgradig analytische, komplexe Abfrageaufgaben entwickelt wurde. Im Gegensatz zu relationalen Datenbanken speichern spaltenorientierte Datenbanken ihre Daten nach Spalten und nicht nach Zeilen. Diese Spalten werden zu Untergruppen zusammengefasst.

Die Datenbank hat keine festen Schlüssel- und Spaltennamen. Spalten innerhalb derselben Spaltenfamilie oder eines Spaltenclusters können eine unterschiedliche Anzahl von Zeilen aufweisen und verschiedene Datentypen und Namen aufnehmen.

Spaltenorientierte Datenbanken sind für große Datenmodelle, wie zum Beispiel Data Warehouses, oder wenn eine hohe Leistung oder die Verarbeitung intensiver Abfragen erforderlich ist, effektiv.

Die Spaltenfamilien befinden sich in einem Schlüsselbereich. Jeder Schlüsselbereich enthält einen vollständigen NoSQL-Datenspeicher und hat eine ähnliche Rolle oder Bedeutung wie ein Schema für eine relationale Datenbank. NoSQL-Datenspeicher haben jedoch keine festgelegte Struktur, sodass Schlüsselbereiche eine schemalose Datenbank darstellen, die das Design eines Datenspeichers und einen eigenen Satz von Attributen enthält.

Jede Spalte einer relationalen Datenbank hat die gleiche Anzahl von Zeilen, aber einige der Felder haben einen Nullwert oder scheinen leer zu sein. In breitspaltigen Datenbanken existieren leere Zeilen für eine bestimmte Spalte nicht.

Der Zeilenschlüssel ist die erste Spalte in jeder Spaltenfamilie und dient als Kennung einer Zeile. Jede nachfolgende Spalte hat einen Spaltenschlüssel (Namen), der Spalten innerhalb von Zeilen identifiziert und Spaltenabfragen ermöglicht. Der Wert und der Zeitstempel folgen nach dem Spaltenschlüssel und hinterlassen eine Spur, wann die Daten eingegeben oder geändert wurden.

Organisationen, die mit Big Data arbeiten und in Analysen investieren, sollten die Stärken spaltenorientierter Datenbanken in Betracht ziehen. Sie zeichnen sich durch die effiziente Speicherung und Abfrage großer Datensätze aus folgenden Gründen aus:

Spaltenorientierte Datenbanken bieten potenzielle Anwendungen in den Bereichen Data Warehouses, künstliche Intelligenz (KI) und maschinelles Lernen (ML):

Beispiele für spaltenorientierte Datenbanken

Die steigende Nachfrage nach leistungsstarken Analysen großer Datensätze erhöht die Nachfrage nach spaltenorientierten Datenbanken. Die Wahl zwischen Open-Source- und kommerziellen spaltenorientierten Datenbanken hängt oft vom Budget, den erforderlichen Funktionen, dem internen Fachwissen und den spezifischen Verwendungszwecken ab. Viele Organisationen verwenden eine Mischung aus beidem; sie können Open-Source-Tools für einige Anwendungen und kommerzielle Systeme für andere verwenden.

Hier sind einige Beispiele der beliebtesten Systeme, sowohl Open-Source- als auch kommerziell lizenzierte, die typischerweise für die häufigsten Anwendungsfälle verwendet werden. Die Tools wurden anhand von Erkenntnissen aus G2-Bewertungsrankings, Recherchen von IT Market Strategy und zusätzlicher Marktforschung von TechTarget ausgewählt. Diese nicht gerankte Liste ist in alphabetischer Reihenfolge.

Amazon Redshift ist eine vollständig verwaltete, Cloud-Spaltendatenbank, die von Organisationen häufig für Data Warehousing verwendet wird. Redshift ist für groß angelegte Analysen und Business-Intelligence-Anwendungsfälle gedacht. Es verarbeitet komplexe Abfragen über Datensätze im Petabyte-Bereich hinweg mithilfe von massiv paralleler Verarbeitung. Ein wesentlicher Vorteil von Redshift besteht darin, dass es sich nahtlos in das AWS-Ökosystem von Diensten und Anwendungen integrieren lässt und Hochgeschwindigkeitsabfragen, schnelle Datenkomprimierung, die die Speichergröße um bis zu 35 Prozent reduziert, und elastische Skalierung unterstützt. Amazon bietet eine nutzungsbasierte Bezahlung an, die kosteneffizient sein kann und dazu beiträgt, Redshift zu einem beliebten System für die Nutzung neben anderen Datenbanken zu machen. Es dient oft als kostengünstige Ablage für ältere, weniger häufig genutzte Daten in Data-Warehousing-, Berichts- und Analyseszenarien.

Apache Cassandra verfügt über lokale, Cloud- und Hybrid-Bereitstellungskonfigurationen. Die Open-Source-Lizenz bietet Community-Support über Planet Cassandra, das Ressourcen von monatlichen globalen Meetups bis hin zu regelmäßigen Onboarding-Meetings für neue Benutzer bietet. Der Lernaufwand für die Ersteinrichtung und Optimierung ist jedoch umfangreich. Das hoch skalierbare und fehlertolerante System kann große Datenmengen verarbeiten, die auf mehrere Knoten verteilt sind. Cassandra verfügt über einstellbare Konsistenzstufen, um den Kompromiss zwischen Daten, die auf allen Servern konsistent sind, oder Daten, die mit sehr geringer Latenz zur Verfügung stehen, individuell anzupassen. Es ist beliebt für IoT-Szenarien mit Streaming-Daten und seinen reduzierten Betriebskosten.

ClickHouse ist ein Open-Source-Spaltensystem, das ursprünglich vom russischen Internetunternehmen Yandex entwickelt wurde. Es zeichnet sich durch OLAP aus und verfügt über eine hochverfügbare, leistungsstarke Architektur für geschäftskritische Analysen in den Bereichen Echtzeitwerbung, Spot-Pricing und Telekommunikation. ClickHouse kann große Datensätze mit Echtzeit-Datenerfassung und schneller Abfrageleistung verarbeiten. Zu den Einschränkungen gehören das Fehlen einer nativen Volltextsuche und eine begrenztere Community und ein begrenzteres Ökosystem als bei Apache Cassandra, ein Nachteil von Open-Source-Software.

Microsoft Azure Cosmos DB ist eine Multi-Modell-Architektur, das heißt sie kann verschiedene Datenmodelle unterstützen, wie zum Beispiel Dokumenten-, Schlüsselwert- und Graphdatenbanken. Eine der wichtigsten und am häufigsten verwendeten Konfigurationen ist die spaltenorientierte. Die cloudbasierte Datenbank bietet mehrere APIs für Entwickler, darunter SQL, MongoDB und Cassandra. Um globale Anwendungen zu unterstützen, automatisiert Azure Cosmos DB die Replikation und verfügt über einstellbare Konsistenzstufen. Es ist eine beliebte Wahl für Webanwendungen, insbesondere für unternehmenskritische Anwendungen in mehreren Regionen.