Compliance- und Datenschutz-Anforderungen für Analytics

Alle Tipps in diesem Artikel zeigen allgemeine Empfehlung zu Datenschutz-Bestimmungen und Compliance-Vorgaben bei Data Mining, Text Analytics und Sentiment Analysis.

Ein Nutzen einer Compliance-Lösung ist die Verbesserung der Reputation des Unternehmens. Sentiment Analytics ist ein Anwendungsfeld von Text Analytics, das aus verschiedenen öffentlichen Informationsquellen anhand gut durchdachte Modellen ein Stimmungsbarometer für ein Unternehmen oder seine Produkte und Dienstleistungen bildet. Somit schließt sich der Kreis zwischen Sentiment Analysis und Compliance.

In der kürzlich veröffentlichten Umfrage "IT Kompass" hat IDC 470 Entscheider und IT-Spezialisten unter anderen folgendes gefragt: "Wie wichtig sind die Anforderungen von Business an die IT?". Ein Ergebnis dieser Frage war "Von der IT-Abteilung erwartet das Business-Management zudem, dass sie Compliance-Anforderungen umsetzt."  

Alle Anregungen aus diesem Artikel rufen die allgemeine Empfehlung hervor: die Datenschutz-Bestimmungen müssen angehalten werden. Vor allem ist diese Empfehlung deswegen wichtig, weil die Datenschutzbestimmungen unterschiedlich in verschiedenen Ländern gehandhabt werden.

Compliance und IT

Die Compliance-Anforderungen haben kontinuierlich zugenommen, so dass die meisten Unternehmen nicht in der Lage sind, das Thema angemessen anzugehen. Diese Anforderungen sind in eine Fülle von Gesetzen und Vorschriften, wie zum Beispiel: Sarbanes-Oxley Act (SOX), Basel II, Mindestanforderungen an das Risikomanagement (MaRisk), EU-Geldwäscherichtlinie, Payment Card Industry Data Security Standard (PCI DSS), Solvency II, etc.

Die Bezeichnung "Compliance" kommt aus dem Englischen und bedeutet "Einhaltung" oder "Befolgung", sprich ein gesetzestreues Verhalten. Dies ist eine Managementaufgabe. Unter den Nutzen von einer Compliance-Lösung sind die Reduktion der Risiken und die Verbesserung der Reputation des Unternehmens zu finden. Beim letzteren kommen aus der Ecke Text Analytics viele interessante Ansätze, wie zum Beispiel Sentiment Analytics oder Brand Management.

Sentiment Analytics ist ein Anwendungsfeld von Text Analytics, das aus verschiedenen öffentlichen Informationsquellen, anhand gut durchdachter Modelle, ein Stimmungsbarometer der Öffentlichkeit für ein Unternehmen herausbildet. Der Stimmungsbarometer beeinflusst entscheidend die Wahrnehmung und die Reputation eines Unternehmens. Somit schließt sich der Kreis zwischen Sentiment Analysis und Compliance.

Wessen Aufgabe ist Compliance? "Es handelt sich hierbei um eine Aufgabe, welche die IT oder ein Geschäftsbereich nicht im Alleingang regeln kann oder sollte, sondern um unternehmensweite Anstrengungen über Abteilungsgrenzen hinweg. Durch Compliance werden geeignete Organisationsstrukturen, Prozesse und Systeme in Unternehmen eingerichtet."

Text Analytics

Eigentlich arbeiten wir in allen Bereichen seit Jahrhunderten mit Texten und vor allem sehr intensiv seit der Entstehung der Dienstleistungswirtschaft. Es ist jedoch merkwürdig, dass der Text von Zahlen in der Arbeitswelt verdrängt wurde. Text Analytics und das Internet haben den Platz des Textes wieder erobert. Es ist vielleicht nicht verwunderlich, dass die Suche in Internet durch Text Analytics "intelligent" gemacht wird.

Was ist Text Analytics? Die kurze Definition lautet: ein Möglichkeit, aus Texten Wissen zu gewinnen. Die längere Definition lautet: Es ist ein Bündel von Analyseverfahren, die anhand von statistischen, linguistischen und Maschinen gestützten Lernverfahren relevante Textstrukturen gewinnt. Diese Verfahren entdecken Fakten, Geschäftsregel und Beziehungen, die in Texten "versteckt" lagen. Um es genauer einzuordnen, Text Analytics, auch unter Text Mining bekannt, ist Bestandteil von Data Mining.

Informationsextraktion bedeutet, eine Strukturierung, ins Beziehungsbringen von Fakten, während Informationssuche eher unscharfe Informationen liefert. Und das ist auch der entscheidende Unterschied zwischen Internet-Suche und Text Analytics.

Wir interpretieren Texte, linguistisch und grammatikalisch die ganze Zeit. Durch Text Analytics versuchen wir das gleiche mithilfe von Software und Computern zu erreichen, und zwar in einem Datenpool bestehend aus tausenden von Dokumenten. Diese Sammlung von Dokumenten wird in den Fachkreisen Corpus genannt. Für die Interpretation wird der Text mit Anmerkungen versehen, dann wird der Text neu strukturiert, in klaren syntaktischen Einheiten geteilt, und mit Kontextinformationen versehen. Das heißt wir halten dadurch die Bedeutungen der Texte fest. Dafür werden so genannte Taxonomien benutzt, die Entitäten und Konzepte analog eines multidimensionales Business-Intelligence (BI) -Model zusammen zu fassen.

Eine Taxonomie ist eine hierarchische Klassifizierung von Informationen durch die Bildung von Klassen unter dem Aspekt der Ähnlichkeitsbeziehungen zwischen den zu ordnenden Begriffen. Jeder Klasse, sprich Blatt in dem vorigen Diagramm, wird nur eine Oberklasse zugeordnet, so dass die gesamte Klassifikation eine Baumstruktur abbildet. Durch diese Art der Klassifizierung von Wissensbereichen innerhalb einer Hierarchie entsteht so eine einfache Semantik. 

Sentiment Analysis

Wenn wir im Internet "unterwegs" sind, dann sind wir sehr oft aufgefordert, Bewertungen abzugeben. Beispiele: Hotels, Restaurants,  Produkte, Presseartikel, etc. Bekannten Plattformen wie eBay und Amazon schöpfen ihr Geschäftsmodell aus diesen Bewertungen. Diese Bewertungen sind natürlich auch mit Gefühle (Englisch Sentiment) verbunden und man versucht, mit Erfolg, diese Gefühle zu quantifizieren. Im Bereich Sentiment Analysis sind die Informationsquellen nicht mehr direkt die Antworten der Konsumenten (seine Sternchen), sondern sind es die Einträge in Foren, Blogs oder internen Emails.

Sentiment Analysis, als spezielles Thema innerhalb von der Text Analytics hat dadurch an Bedeutung gewonnen, dass die Wirtschaftskrise eine enorme "Masse" an Gefühle hervorgerufen hat. Diese Gefühle sind im Internet schon "protokolliert". Durch Sentiment Analysis werden aus diesen Protokollen wertvolle Informationen gewonnen, die für die Reputation eines Unternehmens, für seine Produktstrategie wichtig sind. Vor allem Finanzinstitutionen, als eine von vielen "Hauptverursacher" der Krise identifiziert, sind "gezwungen", die aggregierte Meinungen über sich zu kanalisieren und durch entsprechende Marketing- und Kommunikationsmaßnahmen zu entschärfen.

Sentiment Analysis kann auch als Quelle für Predictive Analytics dienlich sein. Trends und Voraussagen, die das Ergebnis von Predictive Analytics sein können, werden in Bereichen wie Betrugsprävention, Credit-Scoring, Risikoanalyse angewendet. 

Quellen für “unstrukturierte" Informationen für ein Unternehmen beinhalten:

  • Emails, Nachrichten und Blog-Einträge
  • Einträgen in Foren oder andere soziale Plattformen
  • Notizen der Callcenter
  • Feedback der Customer Touchpoints
  • Umfragen, Feedback-Formen oder Garantie-Reklamationen
  • und im Prinzip fast jedes Dokument aus dem Unternehmen.

Des Weiteren können  als Quellen auch folgende Arten von Dokumenten außerhalb des Unternehmens fungieren:

  • wissenschaftliche Texte
  • Gerichtsurteile
  • Analystenstudien, etc.

Im Detail sind diese Schritte von folgenden Aktivitäten unterstützt: Analyse (Parsen), Korrektur, Stammwörter identifizieren, “Stopwörter” wie “und”, “oder” eliminieren und Semantik bilden.

Die Analyse besteht aus der Identifizierung von Begriffen, Eliminierung von unerwünschten Zeichen, wie “/”, Komma “,”, Behandlung spezieller Zeichen, wie Umlaute. Die Korrektur der Ergebnisse der Analyse besteht unter anderen aus orthographischer Korrektur, Ersetzen von Abkürzungen mit den vollständigen Wörtern. Danach werden Stammwörter identifiziert. Dabei müssen die Konjugationen der Verben sowie die Pluralformen der Wörter berücksichtigt werden, so dass die Anzahl der Stammwörter klein gehalten wird. 

Unnötige Wörter werden dann eliminiert, und erst jetzt kann man semantische Bedeutungen aus dem Text gewinnen. Die semantischen Beziehungen zu bilden ist dann meistens die Arbeit von Menschen. Somit wird aus dem Rohtext Bedeutung, sprich Metadaten extrahiert.  

BI und Sentiment Analysis 

Während traditionale BI Systeme aufgebaut wurden, und Fragen über Fakten zu beantworten, liefert Sentiment Analysis  subjektive Informationen und beantworten Fragen über Gefühle und Meinungen. Deswegen ist bei Sentiment  Analysis entscheidend, welche Wörter und Ausdrücke diese Gefühle und Meinungen beschreiben.

Seth Grimes, sieht folgende Ingredienzen als Erfolgsfaktoren für Sentiment Analysis:

  1. Die Fähigkeit Gefühle auf der Ebene der Entitäten, Konzepte oder Gesprächsthemen zu identifizieren. Wenn man Bewertung wie Positiv, Negativ, Neutral abgibt, dann passiert das eher auf Dokumentebene, sei es Web-Seite, Nachricht, Produkt, etc.
  2. Die Fähigkeit, hinter den Schlüsselwörtern zu sehen (zwischen den Zeilen zu lesen). Man braucht linguistische Mittel, um mit dem Kontext und mit der Bedeutung eines Gefühls umzugehen.
  3. Dann ist es notwendig, zwischen Meinungsbilder und Objekt zu unterscheiden, das Gefühl zu anderen, tieferen Information über die Meinungsbilder zu verbinden, und zu erklären.

Die Fähigkeit die Meinungsbilder zu identifizieren ist wichtig. Denn zum Beispiel im Falle einer Beschwerde eines Kunden, sollte man anhand seiner Meinung die Transaktion herausfinden, die die geäußerte Meinung verursachte. Dann kann man dem Kunden gezielt was Gutes tun, um sein Vertrauen wieder zu gewinnen. Wer was im Internet sagt, ist auch deswegen wichtig zu wissen, da manchmal notorische Nörgler ihre negativen Gefühle abladen

Somit ist Sentiment Analysis als Kontext für BI-Anwendungen zu sehen. Harte Fakten aus BI-Systemen werden mit weichen Indikatoren eines Stimmungsbarometers ergänzt. Dies kann als ein Teil für eine Compliance-Lösung für ein Unternehmen fungieren.

Über den Autor:

Alexandru Draghici ist seit 1994 in den Bereichen OLAP, Data Warehouse und Business Intelligence tätig. Sein Schwerpunkt liegt im konzeptionellen Bereich sowie in der Architektur von DWH und BI-Lösungen. Er verfügt über ein umfangreiches Wissen und umfangreiche Erfahrungen im BI-Umfeld. Dies umfasst sowohl die SAP BI-Technologie als auch die non-SAP BI-Technologien: Oracle, Hyperion, BusinessObjects, SAS Institute. Kenntnisse und Erfahrungen im ETL Bereich vervollständigen sein Portfolio. Er ist seit Jahren ein aktiver TDWI-Mitglied.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Erfahren Sie mehr über Datenanalyse

- GOOGLE-ANZEIGEN

ComputerWeekly.de

Close