marrakeshh - Fotolia

KI-Erfolg erfordert hohe Datenqualität

Nach anfänglicher KI-Euphorie fokussieren Firmen nun auf maßgeschneiderte Modelle. Ent-scheidend ist nicht mehr die KI selbst, sondern Qualität und Relevanz der Trainingsdaten.

Nach der anfänglichen Euphorie rund um künstliche Intelligenz (KI) gehen Unternehmen nun den nächsten Schritt: Jetzt rücken maßgeschneiderte Modelle in den Fokus, die auf spezifische Aufgaben, Branchen oder sogar einzelne Unternehmensbereiche trainiert werden. Diese Entwicklung erfordert jedoch einen entscheidenden Perspektivwechsel: Nicht mehr die KI-Modelle stehen im Zentrum, sondern die Qualität und Relevanz der Trainingsdaten. Damit ist es höchste Zeit, den Datenspeicher in Ordnung zu bringen.

Im Jahr 2024 sind die weltweiten Datenmengen weiter rasant gestiegen – nicht zuletzt durch den zunehmenden Einsatz von künstlicher Intelligenz. Aktuell entstehen täglich rund 400 Millionen Terabyte an neuen Daten, Tendenz stark steigend. Doch viele Unternehmen wissen oft nicht genau, welche Daten sie überhaupt besitzen, wo diese gespeichert sind oder wer darauf zugreifen kann. Im Schnitt haben zum Beispiel rund 70 Prozent der neuen Kunden von Cohesity ihre Datenspeicher zuvor nicht rationalisiert.

Eine unkontrollierte Datenspeicherung führt aber zu schlechten Entscheidungen, da nicht alle beziehungsweise die relevanten Informationen berücksichtigt werden. Und: Es wird schwieriger, den Überblick zu behalten und alle Informationen angemessen zu schützen. So können Cyberkriminelle Schwachstellen einfach ausnutzen. Hinzu kommt der ökologische Preis großer Datenbestände. Denn Rechenzentren verursachen enorme Emissionen. Ihr Ausstoß entspricht inzwischen fast zwei Prozent der globalen Emissionen, also etwa genauso viel wie beim weltweiten Flugverkehr.

Erst aufräumen, dann ausrechnen

Ein unsauberes Datenmanagement ist aber nicht nur schlecht für Sicherheit und Umwelt, sondern auch für die Erfolgschancen von KI: Dabei hat sich zum einen gezeigt, für welche Aufgaben und Rollen KI wirklich nützlich ist, und zum anderen, an welchen Stellen diese Generalisten-LLMs an ihre Grenzen geraten.

So geht es nun nicht mehr um eine KI, die alles kann, sondern um KI-Modelle und ML-Algorithmen, die spezifisch für Aufgaben, Sektoren oder Unternehmen optimiert sind. In dieser Phase ist es entscheidend, dass Unternehmen auf die Relevanz und Sauberkeit der verwendeten Daten achten. Denn die Auswirkungen nicht-rationalisierter Datenspeicher können für KI-Projekte gravierend sein: Es entstehen Verzerrungen, die zu Halluzinationen und ungenauen Ergebnissen führen.

Spezifische KI braucht spezifische Datensätze

Hochspezifische KI-Modelle erfordern ein hohes Maß an Datenmanagement. Eine strukturierte Datenindexierung und -klassifizierung gehört zu den Aufgaben, die im Unternehmensalltag häufig unterschätzt oder vernachlässigt werden.

Die Indexierung ermöglicht Unternehmen ein umfassendes Verständnis ihrer Daten: Sie erfasst unter anderem Zeitverläufe, Erstellungsdaten, Alter, Größe und Autoren. Die Klassifizierung ergänzt dieses Wissen um die inhaltliche Einordnung der Daten, zum Beispiel zum Thema und zur vorgeschriebenen Aufbewahrungszeit.

Isabell Rauchenecker, Cohesity

„Ein unsauberes Datenmanagement ist nicht nur schlecht für Sicherheit und Umwelt, sondern auch für die Erfolgschancen von KI. Dabei hat sich zum einen gezeigt, für welche Aufgaben und Rollen KI wirklich nützlich ist, und zum anderen, an welchen Stellen diese Generalisten-LLMs an ihre Grenzen geraten.“

Isabell Rauchenecker, Cohesity

Ein solcher strukturierter Umgang mit Daten wirkt sich gleich mehrfach positiv aus: Er erleichtert die Einhaltung gesetzlicher Vorgaben, reduziert Kosten, trägt zur Nachhaltigkeit, Cybersicherheit und einer besseren Zugriffskontrolle bei. Zudem verbessert er die Qualität KI-gestützter Analysen, da nur spezifische und relevante Datensätze für das Training genutzt werden.

Durchdachtes Datenmanagement nötig

Strukturierte und sinnvoll kategorisierte Daten verschaffen der KI hingegen gezielten Zugriff auf relevante Inhalte. So können KI-Systeme schneller Muster und Zusammenhänge erkennen. Dies bildet die Basis für präzise Prognosen und verlässliche Empfehlungen. Das verbessert nicht nur die Qualität datenbasierter Entscheidungen, sondern steigert auch die Effizienz im gesamten Unternehmen.

Data Governance erleichtert die Einhaltung gesetzlicher Vorgaben

Gerade im Kontext von KI ist es wichtig, frühzeitig geeignete Governance-Strukturen zu etablieren. Der verantwortungsvolle Umgang mit personenbezogenen Informationen ist erforderlich, da Missbrauch nicht nur rechtliche, sondern auch ethische Konsequenzen nach sich ziehen kann. So stellen Regelwerke wie DSGVO, NIS2 oder DORA bereits heute hohe Anforderungen an die Datenverarbeitung und -sicherheit.

Nur durch eine strukturierte Klassifizierung und Indexierung von Daten können Unternehmen diese Vorgaben zuverlässig erfüllen – und das Risiko hoher Bußgelder deutlich reduzieren. Durch die gezielte Trennung sensibler Daten lassen sich effektive Zugriffskontrollen und Verschlüsselungsmaßnahmen umsetzen, um Datenschutzverletzungen vorzubeugen und regulatorische Anforderungen konsequent einzuhalten.

Ein entscheidender Schritt für skalierbare und sichere Datenprozesse ist die Einführung eines durchdachten Data-Governance-Rahmenwerks. Dazu zählen unter anderem klare Datenschutzrichtlinien, regelmäßige Datenaudits sowie die Schulung der Mitarbeitenden im Umgang mit bewährten Datenschutz- und Sicherheitsstandards. Ebenso wichtig ist es, eine unternehmensweite Kultur der Datenhygiene zu fördern. So schaffen Unternehmen die Grundlage dafür, dass ihre Daten jederzeit verantwortungsvoll und sicher verarbeitet und verwaltet werden.

Fazit

Wenn es um KI und die saubere Nutzung und Kategorisierung von Daten geht, stößt ein One-size-fits-all-Ansatz schnell an seine Grenzen. Die Vielfalt und Komplexität von Datentypen, regulatorische Anforderungen sowie die Notwendigkeit, bestehende Workflows zu integrieren, verdeutlichen: Plug-and-Play-Lösungen reichen für den professionellen Unternehmenseinsatz oft nicht aus. KI-Systeme müssen speziell auf die jeweiligen Anforderungen zugeschnitten sein. Die Cohesity Data Cloud für Datensicherheit und -management stellt sämtliche Werkzeuge bereit, um unterschiedliche Datentypen zu verarbeiten, Konsistenz sicherzustellen, ein hohes Maß an Sicherheit zu gewährleisten und gleichzeitig leistungsstarke Analysefunktionen zu ermöglichen.

Über die Autorin:
Isabell Rauchenecker ist Vertriebsleiterin von Cohesity in Deutschland. Sie verfügt über mehr als 25 Jahre Erfahrung in der IT-Infrastrukturbranche und war in verschiedenen Führungspositionen bei internationalen Technologieunternehmen tätig. Sie verfügt über umfassende Expertise in der strategischen Geschäftsentwicklung und Markteinführung in den Bereichen Sicherheit, Daten und Cyber-Resilienz.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Erfahren Sie mehr über Künstliche Intelligenz (KI) und Machine Learning (ML)