Definition

Datenklassifizierung

Unter Datenklassifizierung versteht man die Einteilung von Daten in Kategorien, die das Abrufen, Sortieren und Speichern für die spätere Verwendung erleichtern.

Ein gut geplantes Datenklassifizierungssystem macht wichtige Informationen leicht auffindbar und abrufbar. Dies ist besonders wichtig für das Risikomanagement, die rechtliche Aufdeckung und die Einhaltung von Vorschriften. In schriftlichen Verfahren und Richtlinien für die Datenklassifizierung sollte festgelegt werden, welche Kategorien und Kriterien das Unternehmen für die Klassifizierung von Daten verwendet, und es sollten die Rollen und Verantwortlichkeiten der Mitarbeiter innerhalb des Unternehmens in Bezug auf die Datenverwaltung festgelegt werden. Sobald ein Datenklassifizierungsschema erstellt wurde, müssen Sicherheitsstandards, die geeignete Handhabungspraktiken für jede Kategorie festlegen, und Speicherstandards, die die Anforderungen an den Lebenszyklus der Daten definieren, berücksichtigt werden.

Zweck der Datenklassifizierung

Ein sorgfältig geplantes Datenklassifizierungssystem erleichtert nicht nur das Auffinden und Abrufen von Daten, sondern auch die Bearbeitung und Nachverfolgung wichtiger Daten. Auch wenn eine Kombination aus allen folgenden Eigenschaften erreicht werden kann, konzentrieren sich die meisten Unternehmen und Datenexperten auf ein bestimmtes Ziel, wenn sie ein Datenklassifizierungsprojekt in Angriff nehmen. Zu den häufigsten Zielen gehören unter anderem folgende:

  • Ein Klassifizierungssystem, das die Vertraulichkeit über andere Attribute stellt, konzentriert sich meist auf Sicherheitsmaßnahmen, einschließlich Benutzerberechtigungen und Verschlüsselung.
  • Datenintegrität. Ein System, bei dem die Datenintegrität im Vordergrund steht, erfordert mehr Speicherplatz, Benutzerberechtigungen und geeignete Zugriffskanäle.
  • Datenverfügbarkeit. Wenn Sicherheit und Integrität nicht perfektioniert werden müssen, ist es am einfachsten, die Daten für die Benutzer leichter zugänglich zu machen.

Die Bedeutung der Datenklassifizierung

Mit Hilfe der Datenklassifizierung kann ein Unternehmen oder eine Organisation sicherstellen, dass es/sie die betrieblichen, lokalen oder staatlichen Richtlinien für den Umgang mit Daten einhält, und die Datensicherheit verbessern und maximieren.

Allgemeine Schritte der Datenklassifizierung

In der Regel müssen nicht alle Daten klassifiziert werden, und einige sollten sogar besser vernichtet werden. Es ist wichtig, zunächst festzulegen, welche Datentypen den Klassifizierungs- und Neuklassifizierungsprozess durchlaufen müssen.

Als Nächstes erstellen Datenwissenschaftler (Data Scientist) und andere Fachleute einen Rahmen, innerhalb dessen sie die Daten organisieren. Sie weisen den Informationen Metadaten oder andere Tags zu, die es Maschinen und Software ermöglichen, sie sofort in verschiedene Gruppen und Kategorien zu sortieren. Es ist wichtig, bei jedem Schritt darauf zu achten, dass alle Datenklassifizierungsschemata mit den Unternehmensrichtlinien sowie den lokalen und staatlichen Vorschriften für den Umgang mit den Daten übereinstimmen.

Darüber hinaus müssen Unternehmen stets die ethischen und datenschutzrechtlichen Praktiken berücksichtigen, die ihre Standards und die Erwartungen von Kunden und Auftraggebern am besten widerspiegeln:

  • Dieser Schritt umfasst eine Bestandsaufnahme der gesamten Datenbank und die Erstellung eines digitalen Plans, um den Organisationsprozess in Angriff zu nehmen.
  • Alles, vom Dateityp über Zeicheneinheiten bis hin zur Größe der Datenpakete, kann verwendet werden, um die Informationen in durchsuchbare und sortierbare Kategorien einzuteilen.
  • Sobald die Daten mit einem System kategorisiert sind, können sie nach diesen Kategorien getrennt werden.

Die unbefugte Offenlegung von Informationen, die in eine der geschützten Kategorien der Datenklassifizierungssysteme eines Unternehmens fallen, ist wahrscheinlich ein Verstoß gegen das Protokoll und kann in einigen Ländern sogar als schwere Straftat angesehen werden. Um angemessene Protokolle durchzusetzen, müssen die geschützten Daten zunächst in ihre Sensibilitätskategorien eingeordnet werden.

Die Datenklassifizierung kann dazu verwendet werden, strukturierte Daten weiter zu kategorisieren, ist aber ein besonders wichtiger Prozess, um unstrukturierte Daten optimal zu nutzen, indem ihr Nutzen für ein Unternehmen maximiert wird.

Arten der Datenklassifizierung

In der Computerprogrammierung ist das Parsen von Dateien eine Methode zur Aufteilung von Informationspaketen in kleinere Teilpakete, damit diese leichter verschoben, bearbeitet und kategorisiert oder sortiert werden können. Verschiedene Parsing-Stile helfen einem System zu bestimmen, welche Art von Informationen eingegeben wird. Datumsangaben werden zum Beispiel nach Tag, Monat oder Jahr unterteilt, und Wörter können durch Leerzeichen getrennt werden.

Im Rahmen der Datenklassifizierung gibt es viele Arten von Intervallen, die angewandt werden können, einschließlich, aber nicht ausschließlich die folgenden:

  • Manuelle Intervalle. Bei der Verwendung manueller Intervalle geht ein Mensch den gesamten Datensatz durch und gibt Klassenunterbrechungen ein, indem er beobachtet, wo sie am sinnvollsten sind. Dieses System ist für kleinere Datensätze durchaus geeignet, kann sich aber bei größeren Datensammlungen als problematisch erweisen.
  • Definierte Intervalle. Definierte Intervalle geben eine Anzahl von Zeichen an, die in ein Paket aufgenommen werden. Beispielsweise könnten die Informationen alle drei Einheiten in kleinere Pakete aufgeteilt werden.
  • Gleiche Intervalle. Gleiche Intervalle unterteilen einen gesamten Datensatz in eine bestimmte Anzahl von Gruppen, wobei die Informationsmenge gleichmäßig auf diese Gruppen verteilt wird.
  • Bei der Verwendung von Quantilen wird eine Anzahl von Datenwerten festgelegt, die pro Klassentyp zulässig sind.
  • Natürliche Brüche. Programme sind in der Lage, von sich aus festzustellen, wo große Veränderungen in den Daten auftreten, und verwenden diese Indikatoren, um zu bestimmen, wo die Daten unterteilt werden sollen.
  • Geometrische Intervalle. Bei geometrischen Intervallen ist für jede Klassenart die gleiche Anzahl von Einheiten zulässig.
  • Diese werden dadurch bestimmt, wie stark die Attribute eines Eintrags von der Norm abweichen. Es gibt festgelegte Zahlenwerte, um die Abweichungen jedes Eintrags anzuzeigen.
  • Benutzerdefinierte Bereiche. Benutzerdefinierte Bereiche können von einem Benutzer erstellt und eingestellt und jederzeit geändert werden.

Die Klassifizierung ist ein wichtiger Teil der Datenverwaltung, der sich leicht von der Charakterisierung der Daten unterscheidet. Bei der Klassifizierung geht es um die Sortierung von Informationen und Daten, während die Kategorisierung die eigentlichen Systeme betrifft, die diese Informationen und Daten enthalten.

Es gibt bestimmte Standardkategorien für die Datenklassifizierung. Für jeden dieser Standards gibt es möglicherweise bundesweite und lokale Gesetze darüber, wie sie gehandhabt werden müssen. Dazu gehören die folgenden Kategorien:

  • Öffentliche Informationen. Dieser Standard wird von staatlichen Einrichtungen gepflegt und unterliegt der Offenlegung im Rahmen bestimmter Gesetze.
  • Vertrauliche Informationen. Der Umgang mit diesen Informationen kann gesetzlichen Beschränkungen unterliegen oder andere Konsequenzen nach sich ziehen.
  • Sensible Informationen. Hierbei handelt es sich um alle Informationen, die von staatlichen Einrichtungen gespeichert oder verarbeitet werden und für deren Verwendung Genehmigungspflichten und andere strenge Regeln gelten.
  • Persönliche Daten. Persönliche Daten gelten im Allgemeinen als gesetzlich geschützt und müssen nach bestimmten Protokollen und Regeln für die ordnungsgemäße Verwendung behandelt werden. Manchmal gibt es Lücken zwischen den moralischen Anforderungen und den aktuellen gesetzlichen Schutzmaßnahmen für ihre Verwendung.

Ein „regulärer Ausdruck“ ist eine Gleichung, die verwendet wird, um schnell alle Daten zu finden, die in eine bestimmte Kategorie passen, und so die Kategorisierung aller Informationen, die unter diese speziellen Parameter fallen, zu erleichtern.

Für die Datenklassifizierung können verschiedene Hilfsmittel verwendet werden, darunter Datenbanken, Business-Intelligence-Software und Standard-Datenverwaltungssysteme. Einige Beispiele für Business-Intelligence-Software, die von Unternehmen zur Datenklassifizierung verwendet wird, sind Google Data Studio, Databox, Visme und SAP Lumira.

Vorteile der Datenklassifizierung

Mit Hilfe der Datenklassifizierung können Unternehmen die Vertraulichkeit, den einfachen Zugriff und die Integrität ihrer Daten wahren. Sie hilft auch, die Gefahr zu verringern, dass unstrukturierte sensible Informationen für Hacker angreifbar werden, und sie erspart den Unternehmen hohe Kosten für die Datenspeicherung. Die Speicherung riesiger Mengen unorganisierter Daten ist teuer und kann auch eine Belastung darstellen.

EU-DSGVO (EU-Datenschutzgrundverordnung)

Die EU-Datenschutzgrundverordnung (DSGVO) ist eine Reihe internationaler Richtlinien, die Unternehmen und Institutionen dabei helfen sollen, vertrauliche oder sensible Daten sorgfältig und respektvoll zu behandeln. Sie besteht aus sieben Leitprinzipien: Fairness, begrenzter Anwendungsbereich, Datenminimierung, Genauigkeit, Speicherbegrenzung, Rechte und Integrität. Die Nichteinhaltung dieser Standards wird in einigen Ländern mit hohen Strafen geahndet.

Beispiele für die Klassifizierung von Daten

Auf die Informationen in einem System kann eine Reihe verschiedener Kategorielisten angewendet werden. Diese Qualifikationslisten werden auch als Datenklassifizierungsschemata bezeichnet. Eine Möglichkeit zur Klassifizierung von Sensibilitätskategorien könnte Klassen wie „geheim“, „vertraulich“, „nur für den Geschäftsgebrauch“ und „öffentlich“ umfassen. Eine Organisation kann auch ein System verwenden, das Informationen auf der Grundlage der Art der Qualitäten klassifiziert, die es aufschlüsselt. Bei den Informationstypen könnte es sich zum Beispiel um Inhaltsinformationen handeln, die in den Dateien nach bestimmten Merkmalen suchen. Bei der kontextbasierten Klassifizierung werden Anwendungen, Benutzer, der geografische Standort oder Informationen über den Ersteller der Anwendung untersucht. Die Benutzerklassifizierung basiert darauf, was ein Endbenutzer erstellt, bearbeitet und überprüft.

Neuklassifizierung von Daten

Um Datenklassifizierungssysteme so effizient wie möglich zu halten, ist es für eine Organisation wichtig, das Klassifizierungssystem kontinuierlich zu aktualisieren, indem die Werte, Bereiche und Ausgaben neu zugewiesen werden, um die Klassifizierungsziele der Organisation effektiver zu erfüllen.

Regressionsalgorithmus vs. Klassifikationsalgorithmus

Sowohl Regressions- als auch Klassifizierungsalgorithmen gehören zu den Standardverfahren der Datenverwaltung. Wenn es um die Organisation von Daten geht, liegen die größten Unterschiede zwischen Regressions- und Klassifikationsalgorithmen in der Art der erwarteten Ausgabe. Klassifizierungsalgorithmen sind ideal für alle Systeme, die eine einzige Reihe möglicher Ergebnisse innerhalb eines begrenzten Bereichs liefern. Wenn die Ergebnisse eines Algorithmus kontinuierlich sind, wie zum Beispiel eine Ausgabe von Zeit oder Länge, ist die Verwendung eines Regressionsalgorithmus oder eines linearen Regressionsalgorithmus effizienter.

Diese Definition wurde zuletzt im Dezember 2021 aktualisiert

Erfahren Sie mehr über Datenverwaltung

ComputerWeekly.de
Close