Wann haben Sie das letzte Mal die Dateieigenschaften von Word benutzt, um Bearbeiter, Autor, Schlagwörter und eine den Dokumenteninhalt möglichst wiederauffindbar machende Kurzbeschreibung zu hinterlassen. Suchmaschinen, also die lokalen des Betriebssystems, können diese Informationen – wer hätte es gedacht – suchen und finden. Wer hätte es gedacht. Das Thema der Dateiklassifikation ist seit Jahren vernachlässigt. Wahlweise entscheiden sich Unternehmen für Datenbankstrukturen oder für recht kryptische Strukturen für Ordner und Dateinamenskonventionen.

Die Bezeichnung eines Dokuments kann dann auch schonmal <ddmmyyy_autor-projektname-teamkürzel-gegenstand_bearbeitungsvermerk-sprache_version.dateityp> sein. Man beachte, dass nicht einmal „_“ und“ „-“ irgendwie sinnvoll eingesetzt werden. Darüber hinaus fällt auf, dass Informationen, die das Betriebssystem sowieso pflegt, wiederholt werden.

Diese fehlende Kurzbeschreibung mit Bordmitteln der Software und diese unnütze Wiederholung der Dateidaten des Betriebssystems in den Dateinamenkonventionen sind nicht nur weit verbreitet, sondern sie zeigen das oft fehlende Verständnis für einen noch viel wichtigeren Schritt: die Datenklassifizierung.

Dabei wird Dateiklassifikation immer wichtiger, je mehr Prozesse des Unternehmens digital unterstützt werden. Ein CIO eines deutschen Fertigungsunternehmens nannte es Datenhygiene und meinte die richtige Ablage von Dateien, und zwar nur der erforderlichen Dateien.

Warum eigentlich Datenklassifizierung? Anwender und IT-Verantwortliche müssen wissen, wo sich ihre Daten befinden, um welche Daten es sich handelt, welche Governance-Anforderungen gelten und in welcher Beziehung sie zu den übrigen Daten stehen. Dieser Beitrag befasst sich also mit der Datenklassifizierung und damit, wie KI dabei helfen kann. Angesichts zunehmender regulatorischer Kontrollen achten Unternehmen heute stärker auf die Datenhoheit, insbesondere wenn es um Daten in der Cloud geht. Genauso wichtig ist es jedoch, genau zu wissen, über welche Informationen sie verfügen. Das Konzept der Datenklassifizierung ist nicht neu. Angesichts der Zunahme unstrukturierter Daten ist es jedoch unerlässlich, einen klaren Überblick über alle Datenbestände zu haben. Immer mehr Unternehmen setzen dabei auf Tools der künstlichen Intelligenz (KI).

Was ist Datenklassifizierung? Unternehmen organisieren Daten seit langem nach Funktionen oder beschreibenden Klassifikatoren, zum Beispiel danach, ob es sich um Personalakten oder Verkaufsunterlagen handelt. Anschließend kategorisieren sie die Daten nach ihrer Sensibilität, auch als Kontrollanforderung bezeichnet. Hinzu kommen kontextbezogene Informationen, beispielsweise wann und wo die Daten erstellt wurden, sowie technische Attribute wie Dateityp oder -größe. Kostengünstiger Cloud-Speicher ermöglicht es Unternehmen, mehr Daten länger zu speichern und diese für Business Intelligence (BI) zu nutzen, was heutzutage zunehmend bedeutet, KI-Modelle zu trainieren. Diese Daten müssen jedoch gut organisiert sein, damit sie leicht zu finden und zu verwenden sind. Der Schutz dieser Daten ist ebenfalls von entscheidender Bedeutung. Daten-Governance und Datenverwaltung hängen von einer effektiven Datenklassifizierung ab. Auch die Datenspeicherung ist weniger effizient, wenn das Unternehmen keinen soliden Plan für die Datenklassifizierung hat. Ein erster Schritt wäre die eingangs genannte, oft vernachlässigte manuelle Datenklassifizierung. Die manuelle Datenklassifizierung ist zwar möglich, aber ineffizient, unzuverlässig und schwer skalierbar. Unternehmen können zwar Richtlinien erstellen, die von den Benutzern verlangen, Daten durch Hinzufügen von Labels, Tags oder Schlüsselwörtern zu klassifizieren, aber dies funktioniert wirklich nur für die allgemeinsten Klassifizierungen – wie zum Beispiel Sensibilität – und für neu erstellte Dateien. Da Unternehmen immer mehr Daten aus externen Quellen wie Webanwendungen, Kunden und dem Internet der Dinge (IoT) einspeisen, muss eine effektive Datenklassifizierung wirksam automatisiert sein. Die Datenklassifizierung ist ein wichtiger Bestandteil des Data Lifecycle Managements (DLM) und für die Datensicherheit von entscheidender Bedeutung.

Tools zur Datenklassifizierung Wie Analysten von Gartner betonen, kann die manuelle Datenklassifizierung aufgrund menschlicher Fehler zu Fehlklassifizierungen führen. Außerdem sind Labels und Tags eindimensional und bieten keinen ausreichenden Kontext für verstärkte regulatorische Datenkontrollen. Sie erfassen den Kontext nicht und sind in der Regel statisch. Daten können während ihres Lebenszyklus auch für unterschiedliche Zwecke verwendet werden. Die Automatisierung löst einige dieser Probleme, indem sie Kontext hinzufügt und den Inhalt der Daten, ihren Speicherort und zugehörige Dokumente berücksichtigt. Laut Gartner funktionieren Standardklassifizierungs-Tools gut mit Standarddatentypen und in Unternehmen, die bereits über gut formatierte Daten verfügen. Die Aufgabe wird schwieriger, je mehr Unternehmen unstrukturierte Daten verwenden. Zunehmend setzen Anbieter maschinelles Lernen (ML) ein, um Datensätze und Dokumente zu untersuchen und Elemente zu entdecken, die sie identifizieren, aufzeichnen und verfolgen können. Wie Gartner jedoch feststellt, kann ihre Leistungsfähigkeit bei der Verarbeitung proprietärer Daten eingeschränkt sein. Nichtsdestotrotz bietet der Markt eine Reihe von Datenklassifizierungs-Tools, von eigenständigen Anwendungen bis hin zu solchen, die in Datenbanken oder Unternehmensanwendungen, insbesondere Business Intelligence, integriert sind. Diese werden manchmal als Unternehmensdatenkataloge bezeichnet. Ein weiterer Ansatz besteht darin, Klassifizierung und Katalogisierung als Teil umfassenderer Anwendungen für Unternehmensdaten-Governance und Compliance zu bündeln. Es überrascht nicht, dass Anbieter nun versuchen, KI in ihre Tools zu integrieren, um die Genauigkeit zu verbessern und den Bedarf an manueller Kennzeichnung zu reduzieren.

KI-Eingaben und Datenausgaben Die Datenklassifizierung ist eine natürliche Anwendung für künstliche Intelligenz. Anbieter setzen bereits seit einiger Zeit maschinelles Lernen in Datenkatalogisierungs-Tools ein. Es handelt sich dabei nicht um einen Anwendungsfall, der auf generativer KI (GenAI) oder großen Sprachmodellen (LLMs) basiert, obwohl einige Tools diese mittlerweile verwenden. Einige Tool-Anbieter verwenden maschinelles Lernen und neuronale Netze, Entscheidungsbäume und logistische Regression. Diese trainieren KI-Modelle, um Muster in Daten, insbesondere in unstrukturierten Daten, zu finden. Die Modelle können dann verwendet werden, um die Daten automatisch zu taggen. Anwender können dann Modelle vor der Bereitstellung testen und verfeinern. Dies ist wichtig, da sich die Datensätze der Unternehmen voneinander unterscheiden und ein Standard-Tool möglicherweise nicht die Besonderheiten der Daten des jeweiligen Anwenders oder die Beziehungen zwischen verschiedenen Daten innerhalb des Unternehmens versteht. Ein effektives KI-Modell kann verwendet werden, um die mit einer Datei oder einem Dokument verbundenen Metadaten anzureichern. Die Metadaten können dann zur Erstellung eines Katalogs mit Unternehmensdaten und damit zu einer effektiveren Kontrolle verwendet werden. Ein weiterer Vorteil automatisierter und KI-basierter Systeme ist ihre Dynamik. Wenn das Unternehmen Daten neu klassifiziert – beispielsweise aufgrund von Änderungen der Vorschriften –, sollte das Datenklassifizierungs-Tool in der Lage sein, den Katalog sofort zu aktualisieren. Die Metadaten und der Katalog können dann für die Datenaufbewahrung und in Tools für Datensicherheit und gegen Datenverlust sowie zur Einhaltung von Vorschriften zur Datenhaltung verwendet werden. Dies ist mit unstrukturierten Daten schwierig, aber ein solides Datenmanagement ist für Business Intelligence (BI) und die KI-Entwicklung von entscheidender Bedeutung. Wer sich in den letzten fünfzehn Jahren mit dem der Big-Data-Thematik beschäftigt hat, wird bereits über Metadaten und deren Verknüpfung mit Business-Intelligence-Lösungen und Data Warehouses gestolpert sein.