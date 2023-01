Das Konzept klassifizierter Daten im Zusammenhang mit Sicherheitsbehörden ist bekannt. Doch für Unternehmen gibt es eine umfassendere Art der Datenklassifizierung, die für den Erfolg ihres Datenmanagements von Bedeutung ist.

Es gibt eine Hierarchie von Datenklassifizierungsebenen, die je nach Sensibilität bestimmen, wer auf welche Daten zugreifen darf. Einige Klassifizierungen sind gesetzlich vorgeschrieben, zum Beispiel beim Umgang mit personenbezogenen Daten.

Unabhängig von den rechtlichen und sicherheitstechnischen Aspekten gibt es viele Gründe, warum ein Unternehmen eine Datentaxonomie erstellen möchte. In diesem Artikel werden die verschiedenen Arten von Datenkategorien erörtert, wobei der Schwerpunkt auf bewährten Verfahren und der Automatisierung dieses Prozesses liegt.

Häufig beziehen sich die Datenkategorien auf bestimmte Felder und nicht auf die Daten als Ganzes. Dies hängt auch vom Grad der Aggregation ab. Zusammenfassungen können oder müssen öffentlich sein, wie zum Beispiel vierteljährliche Börsenberichte, die an Analysten geschickt werden, während granulare Daten (vollständige Liste der Kunden, geordnet nach Umsatzvolumen mit Kontaktinformationen und Kaufhistorie) intern oder eingeschränkt sind.

So enthalten beispielsweise Kreditkartentransaktionen den Standort des Benutzers und des Händlers, die Händlerkategorie, das Datum, den gekauften Artikel, die Artikelkategorie, den Kartenaussteller (die Bank), den Betrag, die Art der Transaktion (online oder an der Verkaufsstelle) und den Status (fehlgeschlagen oder akzeptiert). Die Namen der Karteninhaber sind jedoch nicht enthalten und die Kreditkartennummern verschlüsselt.

Zu den vertraulichen Daten gehören Fusions- und Akquisitionsdokumente, Informationen, die durch Geheimhaltungsvereinbarungen geschützt sind, und sensible personenbezogene Daten, die durch Gesetze (zum Beispiel Datenschutzgesetze und EU-DSGVO) geschützt sind, wie zum Beispiel persönliche medizinische oder finanzielle Daten, Sozialversicherungsnummern und persönliche Adressen.

In der Regel werden Unternehmensdaten in folgende Kategorien eingeteilt: öffentlich, intern, eingeschränkt und vertraulich.

Wie man die Datenkategorisierung automatisiert

Datenkategorisierung wurde traditionell manuell durchgeführt, in der Regel von den IT-, Finanz- oder Rechtsabteilungen. Angesichts der zunehmenden Menge an Dokumenten, die gespeichert werden müssen, sind moderne Ansätze jedoch zumindest bis zu einem gewissen Grad automatisiert.

Eine Möglichkeit besteht darin, sensible Felder wie E-Mail-Adressen, Kreditkarten- oder Sozialversicherungsnummern und Geburtsdaten automatisch zu erkennen, insbesondere wenn ein Dokument viele dieser Elemente enthält. Anwendungen, welche die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ermöglichen, können Dokumente kategorisieren, das heißt unstrukturierte Daten strukturieren, um einem Dokument automatisch eine bestimmte Bezeichnung zuzuweisen.

Dies ist ein überwachtes Klassifizierungsproblem. Die Methode verwendet Trainings- und Validierungssätze. Techniken wie Ensemblemethoden (zum Beispiel XGBoost) sind besonders effizient. Naive Bayes ist ein grundlegender Algorithmus, der in diesem Zusammenhang routinemäßig und in der Regel mit guter Leistung eingesetzt wird. Er wurde erstmals zur Erkennung von Spam in E-Mail-Daten eingesetzt.

Es gibt auch eine einfache Ensemblemethode, die zum Beispiel bei der Erkennung von Betrug und von gut funktionierenden Artikeln eingesetzt wird.

Der erste Schritt besteht darin, eine Liste aller Attribute zu erstellen, die einem Dokument zugeordnet sind. Sie sind die Merkmale in einem NLP-Algorithmus zur Klassifizierung der Dokumente. Zu diesen Attributen gehören der Typ (zum Beispiel PDF oder Excel), der Autor des Dokuments (zum Beispiel Berufsbezeichnung, Unternehmen oder Organisation und E-Mail-Adresse), die Quelle, das Eingangs- oder Erstellungsdatum und die letzte Aktualisierung, der ursprüngliche Empfänger, die Größe des Dokuments und das Vorhandensein bestimmter Schlüsselwörter im Text oder in der Betreffzeile.

Es ist eine gute Strategie, einen Algorithmus mit Parametern zu verwenden, die falsch-negative Ergebnisse oder fälschlicherweise als öffentlich eingestufte Dokumente minimieren. Dokumente, die von einem Blackbox-Algorithmus als nicht-öffentlich eingestuft wurden, können manuell überprüft werden, um falsch-positive Ergebnisse auszuschließen.