Data Mining
Was ist Data Mining?
Data Mining ist der Prozess der Sortierung großer Datensätze, um Muster und Zusammenhänge zu identifizieren, die durch Datenanalyse zur Lösung von Geschäftsproblemen beitragen können. Data-Mining-Techniken und Tools unterstützen Unternehmen, zukünftige Trends vorherzusagen und fundiertere Geschäftsentscheidungen zu treffen.
Data Mining ist ein wichtiger Bestandteil der Datenanalyse und eine der Kerndisziplinen der Datenwissenschaft, die fortschrittliche Analysetechniken einsetzt, um nützliche Informationen in Datensätzen zu finden. Auf einer detaillierteren Ebene ist Data Mining ein Schritt im Prozess der Wissensgewinnung aus Datenbanken, einer datenwissenschaftlichen Methodik zum Sammeln, Verarbeiten und Analysieren von Daten. Data Mining und die Wissensgewinnung aus Datenbanken werden manchmal synonym verwendet, aber sie werden häufiger als unterschiedliche Dinge angesehen.
Der Prozess des Data Minings basiert auf der effektiven Umsetzung von Datenerfassung, -speicherung und -verarbeitung. Data Mining kann verwendet werden, um einen Zieldatensatz zu beschreiben, Ergebnisse vorherzusagen, Betrug oder Sicherheitsprobleme aufzudecken, mehr über eine Nutzerbasis zu erfahren oder Engpässe und Abhängigkeiten zu erkennen. Es kann auch automatisch oder halbautomatisch durchgeführt werden.
Data Mining ist heute aufgrund des Wachstums von Big Data und Data Warehousing noch nützlicher. Datenspezialisten, die Data Mining einsetzen, müssen über Erfahrung mit Codierung und Programmiersprachen sowie über statistische Kenntnisse verfügen, um Daten zu bereinigen, zu verarbeiten und zu interpretieren.
Warum ist Data Mining wichtig?
Data Mining ist ein wesentlicher Bestandteil erfolgreicher Analyseinitiativen in Unternehmen. Datenspezialisten können die damit generierten Informationen in Business-Intelligence (BI)- und erweiterten Analyseanwendungen verwenden, die die Analyse historischer Daten umfassen, sowie in Echtzeit-Analyseanwendungen, die Streaming-Daten untersuchen, sobald diese erstellt oder erfasst werden.
Effektives Data Mining unterstützt verschiedene Aspekte der Planung von Geschäftsstrategien und der Verwaltung von Betriebsabläufen. Dazu gehören kundenorientierte Funktionen wie Marketing, Werbung, Vertrieb und Kundenservice sowie Fertigung, Lieferkettenmanagement, Finanzen und Personalwesen. Data Mining unterstützt die Betrugserkennung, das Risikomanagement, die Cybersicherheitsplanung und viele andere wichtige Anwendungsfälle in Unternehmen. Es spielt auch in anderen Bereichen eine wichtige Rolle, darunter Gesundheitswesen, Behörden, wissenschaftliche Forschung, Mathematik und Sport.
Der Data-Mining-Prozess: Wie funktioniert Data Mining?
Data Mining wird in der Regel von Datenwissenschaftlern und anderen erfahrenen BI- und Analyseexperten durchgeführt. Aber auch datenversierte Business-Analysten, Führungskräfte und Mitarbeiter, die in einem Unternehmen als Citizen Data Scientists fungieren, können Data Mining durchführen.
Zu den Kernelementen des Data Mining gehören maschinelles Lernen und statistische Analysen sowie Datenmanagementaufgaben, die zur Vorbereitung der Daten für die Analyse durchgeführt werden. Durch den Einsatz von Algorithmen für maschinelles Lernen und Tools für künstliche Intelligenz (KI) wurde der Prozess weiter automatisiert. Diese Tools haben auch die Auswertung großer Datensätze wie Kundendatenbanken, Transaktionsaufzeichnungen und Protokolldateien von Webservern, mobilen Apps und Sensoren vereinfacht.
Obwohl die Anzahl der Phasen je nach dem gewünschten Detaillierungsgrad der einzelnen Schritte variieren kann, lässt sich der Data-Mining-Prozess im Allgemeinen in die folgenden vier Hauptphasen unterteilen:
- Datenerfassung. Identifizieren und sammeln Sie relevante Daten für eine Analyseanwendung. Die Daten können sich in verschiedenen Quellsystemen, einem Data Warehouse oder einem Data Lake befinden, einem in Big-Data-Umgebungen zunehmend verbreiteten Repository, das eine Mischung aus strukturierten und unstrukturierten Daten enthält. Es können auch externe Datenquellen verwendet werden. Unabhängig davon, woher die Daten stammen, verschiebt ein Datenwissenschaftler sie häufig in einen Data Lake, um die verbleibenden Schritte des Prozesses durchzuführen.
- Datenaufbereitung. Diese Phase umfasst eine Reihe von Schritten, um die Daten für das Mining vorzubereiten. Die Datenaufbereitung beginnt mit der Datenerkundung, der Profilerstellung und der Vorverarbeitung, gefolgt von der Datenbereinigung, um Fehler und andere Datenqualitätsprobleme wie doppelte oder fehlende Werte zu beheben. Außerdem wird eine Datentransformation durchgeführt, um die Datensätze konsistent zu machen, es sei denn, ein Datenwissenschaftler möchte ungefilterte Rohdaten für eine bestimmte Anwendung analysieren.
- Data Mining. Sobald die Daten vorbereitet sind, wählt ein Datenwissenschaftler die geeignete Data-Mining-Technik aus und implementiert dann einen oder mehrere Algorithmen, um das Mining durchzuführen. Diese Techniken können beispielsweise Datenbeziehungen analysieren und Muster, Assoziationen und Korrelationen erkennen. In Machine-Learning-Anwendungen müssen die Algorithmen in der Regel anhand von Beispieldatensätzen trainiert werden, um die gesuchten Informationen zu finden, bevor sie auf den gesamten Datensatz angewendet werden.
- Datenanalyse und -interpretation. Die Ergebnisse des Data Minings werden verwendet, um analytische Modelle zu erstellen, die bei der Entscheidungsfindung und anderen Geschäftsmaßnahmen unterstützen können. Der Datenwissenschaftler oder ein anderes Mitglied eines Datenwissenschaftsteams muss die Ergebnisse auch an Führungskräfte und Nutzer weitergeben, häufig mithilfe von Datenvisualisierung und Techniken des Data Storytelling.

Arten von Data-Mining-Techniken
Für verschiedene datenwissenschaftliche Anwendungen können verschiedene Techniken zum Data Mining eingesetzt werden. Mustererkennung ist ein häufiger Anwendungsfall für Data Mining, ebenso wie die Anomalieerkennung, mit deren Hilfe Ausreißerwerte in Datensätzen identifiziert werden können. Zu den gängigen Data-Mining-Techniken gehören die folgenden Arten:
- Assoziationsregel. Im Data Mining sind Assoziationsregeln Wenn-Dann-Aussagen, die Beziehungen zwischen Datenelementen identifizieren. Zur Bewertung der Beziehungen werden Unterstützungs- und Konfidenzkriterien verwendet. Die Unterstützung misst, wie häufig die verwandten Elemente in einem Datensatz vorkommen, während die Konfidenz die Häufigkeit widerspiegelt, mit der eine Wenn-Dann-Aussage zutrifft.
- Klassifizierung. Bei diesem Ansatz werden die Elemente in Datensätzen verschiedenen Kategorien zugeordnet, die im Rahmen des Data-Mining-Prozesses definiert wurden. Entscheidungsbäume, Naive-Bayes-Klassifikatoren, k-Nearest Neighbor (KNN) und logistische Regression sind Beispiele für Klassifizierungsmethoden.
- Clustering. In diesem Fall werden Datenelemente, die bestimmte Merkmale gemeinsam haben, im Rahmen von Data-Mining-Anwendungen zu Clustern zusammengefasst. Beispiele hierfür sind k-Means Clustering, hierarchisches Clustering und Gaußsche Mischmodelle.
- Regression. Diese Methode findet Beziehungen in Datensätzen, indem sie auf der Grundlage einer Reihe von Variablen vorhergesagte Datenwerte berechnet. Beispiele hierfür sind lineare Regression und multivariate Regression. Entscheidungsbäume und andere Klassifizierungsmethoden können ebenfalls für Regressionen verwendet werden.
- Sequenz- und Pfadanalyse. Daten können auch nach Mustern durchsucht werden, bei denen eine bestimmte Reihe von Ereignissen oder Werten zu späteren Ereignissen oder Werten führt.
- Neuronale Netze. Ein neuronales Netz ist eine Reihe von Algorithmen, die die Aktivität des menschlichen Gehirns simulieren, wobei Daten mithilfe von Knoten verarbeitet werden. Neuronale Netze sind besonders nützlich in komplexen Mustererkennungsanwendungen, die Deep Learning beinhalten, eine fortgeschrittenere Variante des maschinellen Lernens.
- Entscheidungsbäume. Dieser Prozess klassifiziert oder prognostiziert potenzielle Ergebnisse entweder mithilfe von Klassifizierungs- oder Regressionsmethoden. Baumartige Strukturen werden verwendet, um die potenziellen Entscheidungsergebnisse darzustellen.
- k-Nearest Neighbor (KNN). Diese Data-Mining-Methode klassifiziert Daten anhand ihrer Nähe zu anderen Datenpunkten. Unter der Annahme, dass nahegelegene Datenpunkte einander ähnlicher sind als andere Datenpunkte, wird k-Nearest Neighbor verwendet, um Gruppenmerkmale vorherzusagen.
Data-Mining-Software und Tools
Zahlreiche Anbieter bieten Data-Mining-Tools an, in der Regel als Teil von Softwareplattformen, die auch andere Arten von Data Science und Advanced Analytics Tools umfassen. Data-Mining-Software bietet wichtige Funktionen, darunter Datenaufbereitungsfunktionen, integrierte Algorithmen, Unterstützung für prädiktive Modellierung, eine grafische Benutzeroberfläche als Entwicklungsumgebung sowie Tools für die Bereitstellung von Modellen und die Bewertung ihrer Leistung.
Zu den Anbietern von Tools für Data Mining gehören Alteryx, Dataiku, H2O.ai, IBM, Knime, Microsoft, Oracle, RapidMiner, SAP, SAS Institute und Tibco Software.
Eine Vielzahl kostenloser Open-Source-Technologien kann ebenfalls für das Data Mining verwendet werden, darunter DataMelt, Elki, Orange, Rattle, scikit-learn und Weka. Einige Softwareanbieter bieten auch Open-Source-Optionen an. Knime kombiniert beispielsweise eine Open-Source-Analyseplattform mit kommerzieller Software für die Verwaltung von Data-Science-Anwendungen, während Unternehmen wie Dataiku und H2O.ai kostenlose Versionen ihrer Tools anbieten.
Vorteile von Data Mining
Im Allgemeinen ergeben sich die geschäftlichen Vorteile von Data Mining aus der verbesserten Fähigkeit eines Unternehmens, verborgene Muster, Trends, Korrelationen und Anomalien in Datensätzen aufzudecken. Diese Informationen können genutzt werden, um die Entscheidungsfindung und strategische Planung im Unternehmen durch eine Kombination aus konventioneller Datenanalyse und prädiktiver Analytik zu verbessern.
Zu den spezifischen Vorteilen von Data Mining gehören die folgenden:
- Effektiveres Marketing und Vertrieb. Data Mining hilft Marketingfachleuten, das Verhalten und die Präferenzen von Kunden besser zu verstehen, wodurch sie gezielte Marketing- und Werbekampagnen erstellen können. Ebenso können Vertriebsteams die Ergebnisse von Data Mining nutzen, um die Konversionsraten von Leads zu verbessern und bestehenden Kunden zusätzliche Produkte und Dienstleistungen zu verkaufen.
- Besserer Kundenservice. Data Mining hilft Unternehmen, potenzielle Kundendienstprobleme schneller zu erkennen und den Mitarbeitern im Kundenservice aktuelle Informationen für Telefonate und Online-Chats mit Kunden zur Verfügung zu stellen.
- Verbessertes Supply Chain Management. Unternehmen können Markttrends erkennen und die Produktnachfrage genauer prognostizieren, wodurch sie ihre Lagerbestände an Waren und Verbrauchsmaterialien besser verwalten können. Supply Chain Manager können Informationen aus dem Data Mining auch zur Optimierung von Lagerhaltung, Vertrieb und anderen Logistikabläufen nutzen.
- Erhöhte Produktionsverfügbarkeit. Das Mining von Betriebsdaten aus Sensoren an Fertigungsmaschinen und anderen Industrieanlagen unterstützt vorausschauende Wartungsanwendungen, um potenzielle Probleme zu erkennen, bevor sie auftreten, und so ungeplante Ausfallzeiten zu vermeiden.
- Stärkeres Risikomanagement. Risikomanager und Führungskräfte können finanzielle, rechtliche, Cybersicherheits- und andere Risiken für ein Unternehmen besser einschätzen und Pläne zu deren Bewältigung entwickeln.
- Geringere Kosten. Data Mining trägt durch betriebliche Effizienzsteigerungen in Geschäftsprozessen zur Kosteneinsparung bei und reduziert Redundanzen und Verschwendung bei den Unternehmensausgaben.
Letztendlich können Data-Mining-Initiativen zu höheren Umsätzen und Gewinnen sowie zu Wettbewerbsvorteilen führen, die Unternehmen von ihren Konkurrenten abheben.
Beispiele für Data Mining in der Industrie
Unternehmen in den folgenden Branchen nutzen Data Mining als Teil ihrer Analyseanwendungen:
- Einzelhandel. Online-Händler nutzen Kundendaten und Internet Clickstreams, um Marketingkampagnen, Anzeigen und Werbeangebote auf einzelne Käufer auszurichten. Data Mining und prädiktive Modellierung unterstützen auch die Empfehlungsmaschinen, die Website-Besuchern mögliche Käufe vorschlagen, sowie Bestands- und SCM-Aktivitäten.
- Finanzdienstleistungen. Banken und Kreditkartenunternehmen nutzen Data Mining Tools, um Finanzrisikomodelle zu erstellen, betrügerische Transaktionen aufzudecken und Kreditanträge zu prüfen. Data Mining spielt auch eine wichtige Rolle beim Marketing und bei der Identifizierung potenzieller Upselling-Möglichkeiten bei bestehenden Kunden.
- Versicherungen. Versicherer nutzen Data Mining, um die Preise für Versicherungspolicen festzulegen und über die Genehmigung von Versicherungsanträgen zu entscheiden, sowie für die Risikomodellierung und die Verwaltung potenzieller Kunden.
- Fertigung. Zu den Data-Mining-Anwendungen für Hersteller gehören Bemühungen zur Verbesserung der Betriebszeit und der betrieblichen Effizienz in Produktionsstätten, der Lieferkettenleistung und der Produktsicherheit.
- Unterhaltung. Streaming-Dienste analysieren, was Nutzer sehen oder hören, und geben personalisierte Empfehlungen auf der Grundlage ihrer Seh- und Hörgewohnheiten. Ebenso können Einzelpersonen Data-Mining-Software nutzen, um mehr darüber zu erfahren.
- Gesundheitswesen. Data Mining hilft Ärzten bei der Diagnose von Erkrankungen, der Behandlung von Patienten und der Analyse von Röntgenbildern und anderen medizinischen Bildgebungsergebnissen. Auch die medizinische Forschung ist in hohem Maße auf Data Mining, maschinelles Lernen und andere Formen der Analytik angewiesen.
- Personalwesen. Personalabteilungen arbeiten in der Regel mit großen Datenmengen. Dazu gehören Daten zu Mitarbeiterbindung, Beförderungen, Gehältern und Sozialleistungen. Data Mining vergleicht diese Daten, um Personalprozesse besser zu unterstützen.
- Soziale Medien. Social-Media-Unternehmen nutzen Data Mining, um große Datenmengen über Nutzer und deren Online-Aktivitäten zu sammeln. Diese Daten werden kontroverserweise entweder für gezielte Werbung verwendet oder an Dritte verkauft.
Data Mining versus Datenanalyse und Data Warehousing
Data Mining wird manchmal als Synonym für Datenanalyse angesehen. Es wird jedoch überwiegend als ein spezifischer Aspekt der Datenanalyse betrachtet, der die Analyse großer Datensätze automatisiert, um Informationen zu entdecken, die sonst nicht erkannt werden können. Diese Informationen können dann im Data-Science-Prozess und in anderen BI- und Analyseanwendungen verwendet werden.
Data Warehousing unterstützt Data-Mining-Bemühungen, indem es Repositories für die Datensätze bereitstellt. Traditionell wurden historische Daten in Unternehmensdatenbanken oder kleineren Data Marts gespeichert, die für einzelne Geschäftsbereiche oder zur Speicherung bestimmter Teilmengen von Daten eingerichtet wurden. Heute werden Data-Mining-Anwendungen jedoch häufig von Data Lakes bedient, die sowohl historische als auch Streaming-Daten speichern und auf Big-Data-Plattformen wie Hadoop und Spark, NoSQL-Datenbanken oder Cloud-Objektspeicherdiensten basieren.
Geschichte und Ursprünge des Data Minings
Data Warehousing, BI- und Analysetechnologien kamen Ende der 1980er und Anfang der 1990er Jahre auf und verbesserten die Möglichkeiten von Unternehmen, die wachsenden Datenmengen, die sie erzeugten und sammelten, zu analysieren. Der Begriff Data Mining wurde erstmals 1983 vom Ökonomen Michael Lovell verwendet und fand 1995, als die erste internationale Konferenz zu Wissensgewinnung und Data Mining in Montreal stattfand, breitere Verwendung.
Die Veranstaltung wurde von der Association for the Advancement of Artificial Intelligence gesponsert, die die Konferenz auch in den folgenden drei Jahren jährlich veranstaltete. Seit 1999 organisiert vor allem die Special Interest Group for Knowledge Discovery and Data Mining innerhalb der Association for Computing Machinery die ACM SIGKDD-Konferenz.
Die Fachzeitschrift Data Mining and Knowledge Discovery erschien erstmals 1997. Sie wird alle zwei Monate veröffentlicht und enthält begutachtete Artikel zu Theorien, Techniken und Praktiken des Data Minings und der Wissensgewinnung. Eine weitere Publikation, das American Journal of Data Mining and Knowledge Discovery, wurde 2016 ins Leben gerufen.