Definition

Datenklassifizierung

Was ist Datenklassifizierung?

Unter Datenklassifizierung versteht man die Einteilung von Daten in Kategorien, die das Abrufen, Sortieren und Speichern von Daten zur späteren Verwendung erleichtern.

Ein gut geplantes Datenklassifizierungssystem macht wichtige Daten leicht auffindbar und abrufbar. Dies kann für das Risikomanagement, die Offenlegung von Rechtsakten und die Einhaltung von Vorschriften von besonderer Bedeutung sein.

In schriftlichen Verfahren und Richtlinien für die Datenklassifizierung sollte festgelegt werden, welche Kategorien und Kriterien das Unternehmen für die Klassifizierung von Daten verwendet. Diese legen auch die Rollen und Verantwortlichkeiten der Mitarbeiter innerhalb des Unternehmens in Bezug auf das Datenmanagement fest.

Nach der Erstellung eines Datenklassifizierungsschemas sollten Sicherheitsstandards festgelegt werden, die den angemessenen Umgang mit jeder Kategorie bestimmen. Auch Speicherstandards, die die Anforderungen an den Lebenszyklus der Daten definieren, müssen berücksichtigt werden.

Was ist Zweck der Datenklassifizierung?

Die systematische Klassifizierung von Daten unterstützt Datenspezialisten dabei, einzelne Daten zu bearbeiten, zu verfolgen und zu analysieren. Datenexperten haben oft ein bestimmtes Ziel, wenn sie Daten kategorisieren. Dieses Ziel wirkt sich auf die Vorgehensweise und die verwendeten Klassifizierungsebenen aus.

Zu den üblichen Geschäftszielen für diese Projekte gehören:

  • Vertraulichkeit. Ein Klassifizierungssystem schützt hochsensible Daten, wie zum Beispiel personenbezogene Daten von Kunden, einschließlich Kreditkartennummern, Sozialversicherungsnummern und andere sensiblen Datentypen. Die Einrichtung eines Klassifizierungssystems unterstützt eine Organisation, sich auf die Anforderungen an die Vertraulichkeit und die Sicherheitsrichtlinien zu konzentrieren, wie zum Beispiel Benutzerberechtigungen und Verschlüsselung.
  • Datenintegrität. Ein System, das sich auf Datenintegrität konzentriert, erfordert mehr Speicherplatz, Benutzerberechtigungen und geeignete Zugriffskanäle.
  • Datenverfügbarkeit. Durch die Berücksichtigung und Gewährleistung von Informationssicherheit und -integrität wird es einfacher zu wissen, welche Daten für bestimmte Benutzer freigegeben werden können.

Warum Datenklassifizierung von Bedeutung ist

Datenklassifizierung ist ein wichtiger Teil des Datenlebenszyklusmanagements (Data Lifecycle Management, DLM), der angibt, in welche Standardkategorie oder -gruppierung ein Datenobjekt gehört. Einmal sortiert, kann die Datenklassifizierung dazu beitragen, dass ein Unternehmen seine eigenen Datenhandhabungsrichtlinien und die lokalen sowie staatlichen Compliance-Vorschriften einhält. Unternehmen in stark regulierten Branchen implementieren häufig Datenklassifizierungsprozesse oder -workflows, um die Prüfung der Einhaltung von Vorschriften und die Datenermittlung zu unterstützen.

Datenklassifizierung wird zur Kategorisierung strukturierter Daten verwendet, ist aber besonders wichtig, um unstrukturierte Daten optimal zu nutzen. Datenklassifizierung unterstützt auch dabei, doppelte Datenkopien zu identifizieren. Die Beseitigung redundanter Daten trägt zur effizienten Nutzung des Speichers bei und maximiert die Datensicherheitsmaßnahmen.

Sechs Schritte zur Datenklassifizierung
Abbildung 1: Sechs Schritte, die für die meisten Datenklassifizierungsprojekte notwendig sind.

Allgemeine Schritte zur Datenklassifizierung

Nicht alle Daten müssen klassifiziert werden. In manchen Fällen ist es ratsam, die Daten zu vernichten. Ein wichtiger Teil des Prozesses ist es, zu verstehen, warum die Daten klassifiziert werden müssen.

Zu den Schritten, die bei der Entwicklung umfassender Richtlinien zur Datenklassifizierung zu beachten sind, gehören:

  • Sammeln von Informationen. Zu Beginn eines Datenklassifizierungsprojekts müssen Unternehmen die Daten, die klassifiziert oder neu klassifiziert werden müssen, identifizieren und prüfen. Es ist wichtig zu wissen, wo sich die Daten befinden, wie wertvoll sie sind, wie viele Kopien es gibt und wer Zugriff auf sie hat.
  • Entwickeln Sie ein Framework. Datenwissenschaftler und andere Beteiligte arbeiten zusammen, um ein Framework zu entwickeln, innerhalb dessen die Daten organisiert werden können. Sie ordnen den Informationen Metadaten oder andere Tags zu. Dieser Ansatz ermöglicht es Maschinen und Software, Daten sofort in verschiedene Gruppen und Kategorien zu sortieren. Alles, vom Dateityp über Zeicheneinheiten bis hin zur Größe der Datenpakete, kann verwendet werden, um die Informationen in durchsuchbare und sortierbare Kategorien einzuteilen.
  • Standards anwenden. Unternehmen müssen sicherstellen, dass ihre Datenklassifizierungsstrategie mit ihren internen Datenschutz- und Bearbeitungspraktiken übereinstimmt und Branchenstandards und Kundenerwartungen widerspiegelt. Die unbefugte Offenlegung sensibler Informationen kann einen Verstoß gegen das Protokoll und in einigen Ländern rechtliche Konsequenzen nach sich ziehen. Zur Durchsetzung geeigneter Protokolle und zum Schutz vor Datenschutzverletzungen müssen die geschützten Daten entsprechend ihrer Sensibilität kategorisiert und sortiert werden.
  • Daten verarbeiten. Dieser Schritt erfordert eine Bestandsaufnahme der Datenbank und die Identifizierung und Sortierung der Daten entsprechend dem festgelegten Framework.

Arten der Datenklassifizierung

Zu den Standardkategorien der Datenklassifizierung gehören:

  • Öffentliche Informationen. Daten in dieser Kategorie werden in der Regel von staatlichen Institutionen verwaltet und unterliegen der Offenlegung öffentlicher Daten im Rahmen bestimmter Gesetze.
  • Vertrauliche Informationen. Der Umgang mit diesen Daten unterliegt möglicherweise gesetzlichen Beschränkungen oder hat andere Konsequenzen, die sich aus dem Umgang mit vertraulichen Daten ergeben.
  • Sensible Informationen. Bei diesen Daten handelt es sich um alle Informationen, die von staatlichen oder anderen Institutionen gespeichert oder verarbeitet werden und für die Genehmigungsanforderungen und andere Regeln für ihre Verwendung gelten.
  • Personenbezogene Daten. Im Allgemeinen sind personenbezogene Daten gesetzlich geschützt und müssen nach bestimmten Protokollen behandelt werden. Manchmal gibt es Lücken zwischen den moralischen Anforderungen und den aktuellen gesetzlichen Schutzmaßnahmen für ihre Verwendung.

In der Computerprogrammierung ist das Parsen von Dateien eine Methode zur Aufteilung von Datenpaketen in kleinere Teilpakete, die leichter zu verschieben, zu bearbeiten, zu kategorisieren und zu sortieren sind. Verschiedene Parsing-Stile bestimmen, wie ein System Informationen aufnimmt. Datumsangaben werden zum Beispiel nach Tag, Monat oder Jahr aufgeteilt, und Wörter können durch Leerzeichen getrennt werden.

Zu den Standardansätzen für die Datenklassifizierung durch Parsing gehören die folgenden:

  • Manuelle Intervalle. Bei manuellen Intervallen geht eine Person den gesamten Datensatz durch und gibt Klassenunterbrechungen ein, indem sie beobachtet, wo sie am sinnvollsten sind. Dieses System eignet sich gut für kleinere Datensätze, kann sich aber bei größeren Informationssammlungen als problematisch erweisen.
  • Definierte Intervalle. Definierte Intervalle geben eine Anzahl von Zeichen an, die in ein Paket aufgenommen werden. Beispielsweise könnten die Informationen alle drei Einheiten in kleinere Pakete aufgeteilt werden.
  • Gleiche Intervalle. Gleiche Intervalle unterteilen einen Datensatz in eine bestimmte Anzahl von Gruppen, wobei die Datenmenge gleichmäßig auf die Gruppen verteilt wird.
  • Quantile. Bei der Verwendung von Quantilen wird eine Anzahl von Datenwerten festgelegt, die pro Klassentyp zulässig sind.
  • Natürliche Brüche. Ein Programm stellt fest, wo große Veränderungen in den Daten von selbst auftreten, und verwendet diese Indikatoren, um zu bestimmen, wo die Daten unterteilt werden sollen.
  • Geometrische Intervalle. Bei geometrischen Intervallen ist für jede Klassenart die gleiche Anzahl von Einheiten zulässig.
  • Intervalle mit Standardabweichung. Die Standardabweichung eines Dateneintrags wird dadurch bestimmt, wie stark seine Attribute von der Norm abweichen. Es gibt festgelegte Zahlenwerte, um die Abweichungen der einzelnen Einträge anzuzeigen.
  • Benutzerdefinierte Bereiche. Benutzer können benutzerdefinierte Bereiche erstellen und festlegen. Sie können sie jederzeit ändern.

Für die Datenklassifizierung werden verschiedene Tools verwendet, darunter DatenbankenBusiness-Intelligence (BI) -Software und Standard-Datenmanagementsysteme. Einige Beispiele für BI-Software, die für die Datenklassifizierung verwendet wird, sind DataboxGoogle Looker Studio und SAP Lumira.

Vorteile der Datenklassifizierung

Eine Datenklassifizierung unterstützt Unternehmen dabei, die Vertraulichkeit, den einfachen Zugriff und die Integrität ihrer Daten zu wahren.

Insbesondere bei unstrukturierten Daten verringert Datenklassifizierung die Anfälligkeit sensibler Informationen. So wird beispielsweise von Händlern und anderen Unternehmen, die Kreditkarten akzeptieren, erwartet, dass sie die Datenklassifizierungs- und andere Anforderungen der Payment Card Industry Data Security Standards (PCI DSS) einhalten. PCI DSS ist eine Reihe von 12 Sicherheitsanforderungen zum Schutz der Finanzdaten von Kunden.

Die Klassifizierung erspart den Unternehmen auch die hohen Kosten für die Datenspeicherung. Die Speicherung großer Mengen ungeordneter Daten ist teuer und kann zu einer Belastung werden.

EU-Datenschutz-Grundverordnung (EU-DSGVO)

Die EU-Datenschutz-Grundverordnung (EU-DSGVO) ist eine EU-weit vereinbarte Regelung für die Einhaltung von Datenschutzregeln, die Unternehmen und Institutionen unterstützen soll, mit vertraulichen und sensiblen Daten sorgfältig und respektvoll umzugehen. Sie besteht aus sieben Leitprinzipien: Fairness, begrenzter Anwendungsbereich, Datenminimierung, Genauigkeit, Speicherbegrenzung, Rechte und Integrität. Die Nichteinhaltung dieser Standards wird mit finanziellen Strafen geahndet.

Die Implementierung einer methodischen Datenklassifizierung ist eine Notwendigkeit, um die vielen Teile der EU-DSGVO zu erfüllen. Sie verlangt von Unternehmen, dass sie den Daten bestimmte Sicherheitskontrollstufen zuweisen, um eine unbefugte Offenlegung zu verhindern. Die Klassifizierung von Daten hilft den Datensicherheitsteams, Daten zu identifizieren, die anonymisiert oder verschlüsselt werden müssen.

Ein weiterer Aspekt der DSGVO, der eine effektive Datenklassifizierung erfordert, ist das Recht des Einzelnen auf Zugang, Änderung und Löschung der personenbezogenen Daten. Die Datenklassifizierung ermöglicht es Unternehmen, solche Daten schnell abzurufen und die spezifischen Anforderungen einer Person zu erfüllen.

Beispiele für Datenklassifizierung

Auf die Informationen in einem System kann eine Reihe verschiedener Kategorielisten angewendet werden. Diese Qualifikationslisten werden auch als Datenklassifizierungsschema bezeichnet. Eine Möglichkeit zur Klassifizierung von Sensibilitätskategorien sind zum Beispiel Klassen wie geheimvertraulichnur für den Geschäftsgebrauch und öffentlich

Eine Organisation kann auch ein System verwenden, das Informationen auf der Grundlage der Art der Qualitäten klassifiziert, die es aufschlüsselt. Es kann die Art der Inhaltsinformationen, die in Dateien enthalten sind, auf bestimmte Merkmale hin untersuchen. Bei der kontextbasierten Klassifizierung werden zum Beispiel Anwendungen, Benutzer, geografische Lage und Erstellerinformationen untersucht. Die Benutzerklassifizierung basiert darauf, was ein Endbenutzer erstellt, bearbeitet und überprüft.

Neuklassifizierung von Daten

Um die Effizienz von Datenklassifizierungssystemen zu gewährleisten, ist es für Unternehmen wichtig, die verwendeten Klassifizierungssysteme kontinuierlich zu aktualisieren. Die Werte, Bereiche und Ausgaben dieser Systeme müssen neu zugewiesen werden, um die Klassifizierungsziele des Unternehmens effektiver zu erfüllen.

Datenregression versus Datenklassifizierungsalgorithmen

Sowohl Regressions- als auch Klassifizierungsalgorithmen gehören zu den Standardverfahren des Datenmanagements. Wenn es um die Organisation von Daten geht, besteht der größte Unterschied zwischen Regressions- und Klassifizierungsalgorithmen in der Art der erwarteten Ausgabe.

Für Systeme, die einen einzigen Satz möglicher Ergebnisse innerhalb eines begrenzten Bereichs liefern, sind Klassifizierungsalgorithmen oft ideal. Wenn die Ergebnisse eines Algorithmus kontinuierlich sind, wie zum Beispiel die Ausgabe von Zeit oder Länge, ist die Verwendung eines Regressionsalgorithmus oder eines linearen Regressionsalgorithmus effizienter.

Wie ein Regressionsalgorithmus funktioniert
Abbildung 2: Wie ein Regressionsalgorithmus funktioniert.
Diese Definition wurde zuletzt im Februar 2023 aktualisiert

Erfahren Sie mehr über Datenverwaltung

ComputerWeekly.de
Close