Definition

Datenbank

Eine Datenbank ist eine Sammlung von Informationen, die so organisiert sind, dass man sie abrufen, verwalten und aktualisieren kann. In Computerdatenbanken werden in der Regel Zusammenstellungen von Datensätzen oder Dateien gespeichert, die Informationen wie Verkaufstransaktionen, Kundendaten, Finanzdaten und Produktinformationen enthalten.

Datenbanken werden zum Speichern, Verwalten und Abrufen jeglicher Art von Daten verwendet. Sie sammeln Informationen über Personen, Orte oder Dinge. Diese Informationen werden an einem Ort gesammelt, damit sie beobachtet und analysiert werden können. Datenbanken können als eine organisierte Sammlung von Informationen betrachtet werden.

Wofür werden Datenbanken verwendet?

Unternehmen nutzen die in Datenbanken gespeicherten Daten, um Geschäftsentscheidungen zu treffen. Sie nutzen Datenbanken unter anderem für folgende Zwecke:

  • Verbesserung von Geschäftsprozessen. Unternehmen sammeln Daten über Geschäftsprozesse, wie zum Beispiel Verkauf, Auftragsabwicklung und Kundendienst. Sie analysieren diese Daten, um diese Prozesse zu verbessern, ihr Geschäft zu erweitern und den Umsatz zu steigern.
  • Den Überblick über Kunden behalten. In Datenbanken werden häufig Informationen über Personen, zum Beispiel Kunden oder Nutzer, gespeichert. Social-Media-Plattformen beispielsweise verwenden Datenbanken, um Nutzerdaten wie Namen, E-Mail-Adressen und Nutzerverhalten zu speichern. Die Daten werden verwendet, um den Nutzern Inhalte zu empfehlen.
  • Persönliche Gesundheitsinformationen. Gesundheitsdienstleister verwenden Datenbanken, um persönliche Gesundheitsdaten sicher zu speichern, um die Patientenversorgung zu informieren und zu verbessern.
  • Persönliche Daten speichern. Datenbanken können auch zum Speichern persönlicher Daten verwendet werden. So können einzelne Nutzer beispielsweise Medien wie Fotos in einer verwalteten Cloud speichern.

Entwicklung der Datenbanken

Datenbanken wurden erstmals in den 1960er Jahren entwickelt. Diese frühen Datenbanken waren Netzwerkmodelle, bei denen jeder Datensatz mit vielen primären und sekundären Datensätzen verknüpft ist. Hierarchische Datenbanken gehörten ebenfalls zu den ersten Modellen. Sie haben Baumschemata mit einem Stammverzeichnis von Datensätzen, die mit mehreren Unterverzeichnissen verknüpft sind.

Relationale Datenbanken wurden in den 1970er Jahren entwickelt. In den 1980er Jahren kamen objektorientierte Datenbanken hinzu. Heute kommen vor allem Structured Query Language (SQL), NoSQL- und Cloud-Datenbanken zum Einsatz.

E.F. Codd entwickelte die relationale Datenbank während seiner Tätigkeit bei IBM. Sie wurde aufgrund ihres logischen Schemas, also der Art und Weise, wie sie organisiert ist, zum Standard für Datenbanksysteme. Die Verwendung eines logischen Schemas trennt die relationale Datenbank von der physischen Speicherung.

Die relationale Datenbank führte in Verbindung mit dem Wachstum des Internets ab Mitte der 1990er Jahre zu einer starken Verbreitung von Datenbanken. Viele Geschäfts- und Verbraucheranwendungen stützen sich auf Datenbanken.

Arten von Datenbanken

Es gibt viele Arten von Datenbanken. Sie können nach ihrem Inhaltstyp klassifiziert werden: bibliografisch, Volltext, numerisch und Bilder. In der Informatik werden Datenbanken oft nach ihrem organisatorischen Ansatz klassifiziert.

Einige der wichtigsten organisatorischen Datenbanken sind:

Relational. Bei diesem tabellarischen Ansatz werden die Daten so definiert, dass sie umorganisiert werden können und der Zugriff auf sie auf vielfältige Weise möglich ist. Relationale Datenbanken setzen sich aus Tabellen zusammen. Die Daten werden in diesen Tabellen in vordefinierte Kategorien eingeordnet. Jede Tabelle hat Spalten mit mindestens einer Datenkategorie und Zeilen mit einer bestimmten Dateninstanz für die Kategorien, die in den Spalten definiert sind. Die Informationen in einer relationalen Datenbank über einen bestimmten Kunden sind in Zeilen, Spalten und Tabellen organisiert. Diese sind indiziert, um die Suche mit SQL- oder NoSQL-Abfragen zu erleichtern.

Relationale Datenbanken verwenden SQL in ihren Benutzer- und Programmierschnittstellen. Eine neue Datenkategorie kann leicht zu einer relationalen Datenbank hinzugefügt werden, ohne dass die bestehenden Anwendungen geändert werden müssen. Ein relationales Datenbankmanagementsystem (RDBMS) wird zum Speichern, Verwalten, Abfragen und Abrufen von Daten in einer relationalen Datenbank verwendet.

In der Regel bietet das RDBMS den Benutzern die Möglichkeit, den Lese-/Schreibzugriff zu steuern, die Erstellung von Berichten zu spezifizieren und die Verwendung zu analysieren. Einige Datenbanken bieten Atomarität, Konsistenz, Isolation und Dauerhaftigkeit (AKID/ACID), um zu garantieren, dass die Daten konsistent und die Transaktionen vollständig sind.

Verteilt. Diese Datenbank speichert Datensätze oder Dateien an mehreren physischen Orten. Die Datenverarbeitung ist ebenfalls über verschiedene Teile des Netzwerks verteilt und repliziert.

Verteilte Datenbanken können homogen sein, das heißt alle physischen Standorte verfügen über dieselbe zugrunde liegende Hardware und führen dieselben Betriebssysteme und Datenbankanwendungen aus. Sie können aber auch heterogen sein. In diesen Fällen können die Hardware, das Betriebssystem und die Datenbankanwendungen an den verschiedenen Standorten unterschiedlich sein.

Cloud. Diese Datenbanken werden in einer Public, Private oder Hybrid Cloud für eine virtualisierte Umgebung erstellt. Die Abrechnung erfolgt nach dem Speicherplatz- und Bandbreitenbedarf der Nutzer. Außerdem erhalten sie Skalierbarkeit nach Bedarf und hohe Verfügbarkeit. Diese Datenbanken können mit Anwendungen arbeiten, die als Software as a Service (SaaS) bereitgestellt werden.

NoSQL. NoSQL-Datenbanken eignen sich gut für den Umgang mit großen verteilten Datensammlungen. Sie können Leistungsprobleme bei großen Datenmengen besser lösen als relationale Datenbanken. Sie eignen sich auch für die Analyse großer unstrukturierter Datensätze und von Daten auf virtuellen Servern in der Cloud. Diese Datenbanken können auch als nicht-relationale Datenbanken bezeichnet werden.

Objektorientiert. Diese Datenbanken enthalten Daten, die mit objektorientierten Programmiersprachen erstellt wurden. Sie konzentrieren sich auf die Organisation von Objekten statt auf Aktionen und auf Daten statt auf Logik. Ein Bilddatensatz zum Beispiel ist ein Datenobjekt und kein alphanumerischer Wert.

Graph. Diese Datenbanken sind eine Art von NoSQL-Datenbank. Sie speichern, bilden ab und fragen Beziehungen ab, indem sie Konzepte aus der Graphentheorie verwenden. Graphdatenbanken bestehen aus Knoten und Kanten. Knoten sind Entitäten und Kanten verbinden die Knoten miteinander.

Diese Datenbanken werden häufig zur Analyse von Zusammenhängen verwendet. Graphdatenbanken werden häufig genutzt, um Daten über Kunden zu analysieren, wie sie mit einem Unternehmen auf Webseiten und in sozialen Medien interagieren.

Graphdatenbanken verwenden SPARQL, eine deklarative Programmiersprache, und ein Protokoll für die Analyse. SPARQL kann alle Analysen durchführen, die auch SQL durchführen kann, und kann auch für semantische Analysen oder die Untersuchung von Beziehungen verwendet werden. Das macht es nützlich für die Analyse von Datensätzen, die sowohl strukturierte als auch unstrukturierte Daten enthalten. SPARQL ermöglicht die Analyse von Informationen, die in einer relationalen Datenbank gespeichert sind, sowie von Freund-Feind-Beziehungen, PageRank und kürzestem Pfad.

Graphdatenbanken versus relationale Datenbanken
Abbildung 1: Wie sich Graphdatenbanken von relationalen Datenbanken unterscheiden.

Was sind die Bestandteile einer Datenbank?

Die verschiedenen Datenbanktypen unterscheiden sich zwar in Bezug auf Schema, Datenstruktur und die für sie geeigneten Datentypen, doch bestehen sie alle aus denselben fünf Grundkomponenten.

  1. Hardware. Dies ist das physische Gerät, auf dem die Datenbanksoftware läuft. Zur Datenbankhardware gehören Computer, Server und Festplatten.
  2. Software. Die Datenbanksoftware gibt den Benutzern die Kontrolle über die Datenbank. Datenbankmanagementsystemsoftware (DBMS) wird zur Verwaltung und Steuerung von Datenbanken verwendet.
  3. Daten. Dies sind die Rohdaten, die in der Datenbank gespeichert sind. Datenbankadministratoren organisieren die Daten, um sie aussagekräftiger zu machen.
  4. Datenzugriffssprache. Dies ist die Programmiersprache, die die Datenbank steuert. Die Programmiersprache und das DBMS müssen zusammenarbeiten. Eine der gebräuchlichsten Datenbanksprachen ist SQL.
  5. Prozeduren. Diese Regeln bestimmen, wie die Datenbank arbeitet und wie sie die Daten verarbeitet.

Was sind Herausforderungen für Datenbanken?

Die Einrichtung, der Betrieb und die Wartung einer Datenbank sind mit einigen allgemeinen Herausforderungen verbunden, wie zum Beispiel:

  • Datensicherheit ist erforderlich, da Daten ein wertvolles Unternehmensgut sind. Der Schutz von Datenspeichern erfordert qualifiziertes Personal für Cybersicherheit, was kostspielig sein kann.
  • Die Datenintegrität gewährleistet, dass die Daten vertrauenswürdig sind. Es ist nicht immer einfach, Datenintegrität zu erreichen, da dies bedeutet, dass der Zugang zu Datenbanken auf die Personen beschränkt werden muss, die für die Bearbeitung qualifiziert sind.
  • Die Leistung von Datenbanken erfordert regelmäßige Aktualisierungen und Wartung. Ohne die richtige Unterstützung kann die Funktionalität der Datenbank abnehmen, wenn sich die Technologie, die die Datenbank unterstützt, oder die darin enthaltenen Daten ändern.
  • Auch die Datenbankintegration kann schwierig sein. Sie kann die Integration von Datenquellen aus verschiedenen Arten von Datenbanken und Strukturen in eine einzige Datenbank oder in Data Lakes und Data Warehouses

Was ist ein Datenbankmanagementsystem?

DBMS-Komponenten
Abbildung 2: APIs stellen die Verbindung zwischen dem Benutzer oder der Anwendung und dem Datenbankmanagementsystem her, so dass sie mit der Datenbank interagieren können.

Ein DBMS ermöglicht es Benutzern, eine Datenbank zu erstellen und zu verwalten. Es hilft den Benutzern auch beim Erstellen, Lesen, Aktualisieren und Löschen von Daten in einer Datenbank und unterstützt sie bei Protokollierungs- und Prüfungsfunktionen.

Das DBMS bietet physische und logische Unabhängigkeit von Daten. Benutzer und Anwendungen müssen weder den physischen noch den logischen Speicherort der Daten kennen. Ein DBMS kann auch den Zugriff auf die Datenbank beschränken und kontrollieren und mehreren Benutzern unterschiedliche Ansichten desselben Datenbankschemas zur Verfügung stellen.

Diese Definition wurde zuletzt im Oktober 2021 aktualisiert

Erfahren Sie mehr über Business-Software

ComputerWeekly.de
Close