Diagnose unaggregierter Leistungsdaten am Beispiel von Krankenkassen

Krankenkassen müssen ihre Leistungen immer wieder flexibel an sich verändernde Voraussetzungen anpassen. Die Diagnose der Leistungsdaten ist erfolgsentscheidend.

Aufgrund der Reformen im Gesundheitswesen müssen die Krankenkassen ihre Leistungen immer wieder flexibel an veränderte Voraussetzungen anpassen. Zudem hat der Gesetzgeber den Wettbewerb unter den Krankenkassen ausgerufen, so dass diese gezwungen sind, ihr Profil zu schärfen: durch eine strikt am Bedarf orientierte medizinische Versorgung sowie durch professionelles Kundenmanagement mit zielgruppengerechten Service-Angeboten. Regelmäßig müssen Präventions- und Behandlungsmethoden miteinander verglichen werden, um Leistungsangebote und Tarife weiter zu entwickeln. Gleichzeitig gilt es, die Kostenstruktur und die Abrechnungssysteme im Griff zu behalten. 

Um derartige Anforderungen zu erfüllen, müssen die Krankenkassen regelmäßig und systematisch riesige Datenbestände in ihrer Gesamtheit analysieren. So auch bei der AOK Hessen: Mit rund 1,5 Millionen Versicherten ist diese die größte gesetzliche Krankenversicherung in diesem Bundesland. Als große Solidargemeinschaft bietet sie umfassenden Schutz und Sicherheit im Krankheitsfall von der medizinischen Behandlung mit allen modernen, wissenschaftlich anerkannten Behandlungs- und Heilmethoden bis hin zur Krankenhausbehandlung. Deren Datenanalyse wurde bis 2007 ausschließlich auf klassische Art und Weise erstellt: Der Fachanwender forderte einen bestimmten Datenauszug bei der IT-Abteilung an, erhielt diesen nach mehreren Tagen und analysierte ihn mit verschiedenen Office Tools, Tabellenkalkulationsprogrammen und teilweise auch mit Oracle Discoverer.

Diese Methoden erwiesen sich für einen Teil der Auswertungen als immer weniger praktikabel. Um Wartezeiten auf Datenextrakte und Performance-Defizite bei komplexen Analysen sehr großer Datenmengen zu vermeiden, waren alternative Lösungen gefragt. 

Daher beschloss die AOK Hessen im Jahr 2007 nicht nur voraggregierte Daten durch die IT-Abteilung bereitstellen zu lassen, sondern auch den selbständigen Zugriff der Fachanwender direkt auf den Leistungsdatenbestand zu ermöglichen. Dazu gehörte auch die Zusammenführung der auf verschiedene Oracle-Datenbanken, Host-Anwendungen und SAP-Systeme verteilten operativen Daten in einem Data Warehouse. Durch diese Bündelung sollten die Fachabteilungen selbständig und ohne Beschränkungen auf alle Leistungsdaten zugreifen können. 

Um verborgene Zusammenhänge innerhalb eines riesigen Datenbestandes herauszufinden, sollten Analysen explorativ stattfinden können, und zwar sowohl hypothesengeleitet, also auch ungerichtet, das heißt ohne konkrete Vermutung. Ziel war auch, die Fachanwender mit einem einzigen Data-Mining-Tool zu versorgen, das sie ohne IT-Unterstützung und Programmierkenntnisse einsetzen konnten. 

Abfragegeschwindigkeit vervielfachen

Die Performanz war einer der Hauptengpässe bei der Auswahl der passenden Lösung. Zwar brachte das bei der AOK Hessen bereits im Einsatz befindliche Data-Mining-Werkzeug RayQ von der Qyte GmbH sehr gute Ergebnisse, doch kam es bei komplexen Analysen von Massendaten schnell zu Engpässen auf Seiten der Oracle- Datenbank. Bei Abfragen aus den herkömmlichen Datenbanken waren die Antwortzeiten für die angeforderten Daten zu lang. Dann empfahl die Qyte GmbH den IT-Business-Experten der AOK Hessen die Kombination von RayQ mit der analytischen Datenbank Sybase IQ als Speichermedium für das Data Warehouse.

Es stellte sich heraus, dass diese Verbindung die gewünschten, schnellen Analysen unaggregierter Massendaten ermöglichen würde: Weil bei Sybase IQ jedes Feld der in Spalten organisierten Daten einzeln für Abfragen gelesen werden kann, minimiert sich die dabei verarbeitete Datenmenge. Im Vergleich zu alternativen Lösungen war die Abfragegeschwindigkeit laut AOK Hessen zehn bis hundert Mal schneller. RayQ erfüllte somit die Anforderungen für das Data Mining und umfasste alle mathematischen, statistischen und analytischen Algorithmen, die von der AOK für Auswertungen benötigt wurden.

Datenbündelung im Data Warehouse

Im Jahr 2007 begann das zuständige Projektteam, das sich aus Mitarbeitern der Fachbereiche und der IT-Abteilung zusammensetzte, mit dem Aufbau des Data Warehouse und der Anbindung des Data-Mining-Werkzeugs. Die Aufgabe der Fachbereiche war es, die von ihnen benötigten Leistungsdaten einzugrenzen. Daraufhin konnte die IT-Abteilung festlegen, welche Systeme und Datenbestände im neuen Data Warehouse zusammengeführt werden mussten.

Für die Migration der im AOK-Rechenzentrum eingesetzten Oracle-Datenbank kam der ETL-Loader von Sybase zum Einsatz: Die graphische Oberfläche erleichtert dabei die Datenauswahl und die Definition der Befüllungspunkte. Außerdem lassen sich mehrere Tabellen parallel befüllen, indem mehrere Ladevorgänge in einem einzigen Job zusammengefasst und in einem Zug angestoßen werden. Das Projektteam definierte die Zeiträume für die Aktualisierung der Datenbestände. Diese finden seitdem automatisch statt, in zeitlichen Abständen, die von einer Woche bis ein Mal im Quartal reichen. Innerhalb von zwei Monaten waren die Aufgaben abgeschlossen, die direkt mit der Datenmigration zusammenhingen.

Kurze Antwortzeiten auch bei Massendaten

Mit der neuen Lösung konnte der insgesamt belegte Speicherplatz um rund 70 Prozent reduziert werden. Trotz weiter wachsender Datenbestände haben sich auch die Antwortzeiten deutlich verringert: Das Data Warehouse der AOK Hessen enthält mittlerweile rund 80 Tabellen mit mehr als 800 Millionen Schlüsseldaten und Inhalten. Manche Tabellen umfassen bis zu 600 Millionen pseudonymisierte Datensätze und sind bis zu 200 GByte groß - ein Umfang, bei dem die früher eingesetzten OLTP-Datenbanken keine ausreichende Geschwindigkeit mehr boten. Auswertungen mit dem Data-Mining-Tool erhöhen das Datenvolumen nochmals, weil Ergebnisse in zwei- und dreidimensionaler Darstellung ausgegeben und abgespeichert werden. 

Nach Angaben von Thomas Lawatsch, Lösungsberater in der Abteilung IT-Business der AOK Hessen, verkürzt sich die Ladezeit auch großer Datenmengen um bis zu 30 Prozent. Auch bei verarbeiteten Datenmengen von bis zu 20 GByte liegen die Antwortzeiten unter einer halben Minute. Mit hoher Geschwindigkeit meistert das Programm auch die Pseudonymisierung aller personenbezogenen Daten im Data Warehouse, die aus Datenschutzgründen erfolgt: Die Schlüssel, die einzelne Versicherte identifizieren, werden auf Datenbank-Ebene verfremdet, so dass die Personen hinter den Daten nicht mehr erkennbar sind. Die Stärke der Datenbank-Architektur liegt nach Beobachtungen der AOK Hessen darin, Pseudonyme sehr schnell zu erzeugen, ohne dass sich die Verarbeitungsgeschwindigkeit merklich reduziert. 

Für Datenanalysen verwenden die hessischen AOK-Mitarbeiter ihre lokal installierten Clients. Der Datenzugriff erfolgt per WAN-Strecken auf das AOK-Rechenzentrum, wo die Analyse-Tools installiert sind. Bei der aktuellen, ersten Ausbaustufe werden die Analysedaten aus IQ herausgezogen, dekomprimiert und für die Analysen in einen separaten Speicher (Cache) geladen, der sich technologisch eng an Sybase IQ anlehnt. Die Analyse-Ergebnisse werden dann den Clients zurückgemeldet.

Vielfacher Return on Investment

Ende 2007 waren die Migration auf Sybase IQ, die Integration mit RayQ und die ersten Schulungen für die Anwendung des Data-Mining-Werkzeuges abgeschlossen. Ab Anfang 2008 kam das Programm zunächst in der Controlling-Abteilung zum Einsatz, beispielsweise für Analysen von Abrechnungsdaten, die von Ärzten, Apothekern, Krankenhäusern, Heilberufen und anderen Leistungserbringern stammten. So ließen sich Muster und Auffälligkeiten bei den berechneten Kosten leichter als zuvor feststellen. Beispiel: Art und Umfang von abgerechneten Leistungen werden mit den angegebenen Diagnosen verglichen. Durch solche Auswertungen stieß die AOK Hessen in 2008 auf eine größere Zahl fehlerhafter Abrechnungen - über zwei Millionen Euro wurden zurückgefordert. Die Kosten für die Anschaffung und Integration sowie für Schulungen lagen im sechsstelligen Bereich. Alle finanziellen Effekte zusammen genommen, lässt sich jedoch laut Lawatsch ein Return on Investment im zweistelligen Millionenbereich errechnen. 

Datendiagnosen ersparen Geld und Zeit

In der Praxis ziehen die Fachanwender mit dem Client per Drag and Drop ihre Daten aus den Tabellen heraus und veranlassen dann die jeweiligen Berechnungen und Aggregationen. Es entsteht ein Analysebaum (Abb. 1), den der Anwender schrittweise aufbauen und manipulieren kann und der - als Projekt oder Container gespeichert - immer wieder aufrufbar ist. So wird ein Modul häufig verwendet, um über beliebige Gruppierungslevel und beliebige Aggregationen neue Werte zu errechnen. Beispielsweise lässt sich auswerten, wie oft welcher Arzt bestimmte Präparate einzelnen Versicherten-Pseudonymen verordnet hat. Diese Ergebnisse lassen sich dann den entsprechenden Kos-ten und Diagnosen zuordnen. Würde man solche Analysen mit klassischen Analyse-Tools durchführen, bräuchte man schon recht fortgeschrittene SQL-Kenntnisse. 

Über die Zeit haben sich die Anwender leicht ein Repertoire an eigenen Analyseprojekten angelegt. Es ist ebenfalls eine ereignis- oder zeitgesteuerte Automatisierung möglich. Dass man auch ohne IT-Unterstützung sowie ohne Datenauszüge oder Aggregationen die Echtdaten im Data Warehouse direkt analysieren kann, sprach sich schnell bei der AOK Hessen herum. Heute arbeiten Mitarbeiter aller Fachbereiche mit dem Programm. 

Eine wichtige Änderung für die Nutzer ist die Geschwindigkeit, mit der nun die Analysen vorliegen: Früher wartete der Anwender mehrere Tage auf Auswertungen oder Reports, um dann möglicherweise festzustellen, dass relevante Daten fehlten oder er sich bei der Angabe von Kriterien vertan hatte. Dann gab es einen neuen Auftrag an die IT-Kollegen, die Dauer der ganzen Prozedur verdoppelte sich. Heute kann jeder geschulte Anwender in wenigen Minuten eine individuelle Auswertung zusammenfügen und innerhalb kürzester Zeit das Ergebnis erhalten. Dies ermöglicht den AOK-Mitarbeitern auch, auf die Nachfrage bestimmter Reports durch Abteilungsleiter und Geschäftsführung schnell zu reagieren. Bei den Analysen können auch Daten aus anderen Quellen (Excel-, Access- oder Text-Dateien) einbezogen werden. 

Als Trend zeichnet sich bei vielen Anwendern die verstärkte Nutzung der grafischen Module ab, beispielsweise für die zwei- oder dreidimensionale Ergebnisdarstellung. Dabei lassen sich mehrere Analysen einander gegenüberstellen und auffällige Datensätze herausfiltern. Eine Einsatzmöglichkeit des graphischen Moduls ist die hessische Landkarte, die dreidimensional anzeigt, wie sich die Zahl der Versicherten auf unterschiedliche Regionen verteilt. 

Neuronale Netze im Einsatz für Risiko-Analysen

Verstärkt nutzen Mitarbeiter der AOK Hessen auch neuronale Netze als Verfahren für die Clusteranalyse. Mit diesen Analyseverfahren ist es möglich, hochdimensionale Muster in den Daten zu erkennen und auf bisher unbekannte Zusammenhänge zu stoßen. 

So lassen sich unter anderem potentielle Gruppen von Versicherten identifizieren, bei denen die Risiken für bestimmte Erkrankungen erhöht sind. Das erleichtert der AOK Hessen den Aufbau entsprechender Präventionsprogramme, beispielsweise für die Früherkennung von Diabetes-Erkrankungen. Es lässt sich ebenfalls analysieren, ob und in welchem Umfang bestimmte Arzneimittel parallel eingenommen werden, obwohl dies medizinisch nicht indiziert ist. Solche Auswertungen finden statt, um den stetig steigenden Arzneimittel-Kosten entgegen zu steuern. Das rechtzeitige Eingreifen wird inzwischen dadurch erleichtert, dass der AOK Hessen immer mehr Gesundheits- und Abrechnungsdaten tagesaktuell bis monatlich, also relativ zeitnah, zur Verfügung stehen.

Die heute erstellten Analysen und Auswertungen erstrecken sich auf das komplette Spektrum der gesetzlichen Krankenversicherung. Wichtige Fragestellungen sind: Welche Behandlungsmethoden sind besonders erfolgreich? Welche Präventionsangebote sind optimal und können den Versicherten angeboten werden? Welcher Nutzen neuer Angebote ist durch Simulationen prognostizierbar? Wie vorteilhaft sind Rabattkonditionen der Pharma-Unternehmen?

Durch Untersuchung der Leistungsdaten können die AOK-Fachbereiche erkennen, welche Behandlungsmethoden bei bestimmten Krankheiten besonders erfolgreich sind. Aufgrund dieser Ergebnisse entwickelt die Krankenkasse ihre Leistungen weiter, seien es individuelle Verträge, Kostenübernahmemodelle, Schulungen oder spezielle Angebote zu Prävention und Gesundheitsförderung.

Noch mehr Geschwindigkeit mit nächster Ausbaustufe

Die AOK Hessen will die Integration der Systeme im Jahr 2009 erweitern. Die kommende Ausbaustufe namens RayQ Power (Arbeitsname „RayQ on IQ“) - seit Frühjahr 2009 in einer Testversion verfügbar - soll die bisherigen Antwortzeiten nochmals deutlich unterbieten und für schnelle Analysen noch größerer Datenmengen geeignet sein. Die ersten Tests mit Tabellen, die fast 800 Millionen Datensätze enthielten, waren laut Lawatsch viel versprechend: Die Zeit für das Einlesen solcher Datenmengen lag im Sekundenbereich.

Solche Geschwindigkeiten werden dadurch erreicht, dass die bisherige Zwischenspeicherung im Filesystem wegfällt. Stattdessen baut RayQ Power die Abfrage- beziehungsweise Ergebnistabellen als Views in Sybase IQ auf. Die Anzeige dieser Views erfolgt in einem Bruchteil der Zeit, die für die bisherigen Komprimierungen und Dekomprimierungen benötigt wird. Damit entfällt auch der Austausch von Datenpaketen zwischen Client und Rechenzentrum: Die Anwender schauen mittels der View-Technologie quasi direkt in die Datenbank hinein. Der Vorteil für die AOK Hessen liegt darin, dass noch mehr Mitarbeiter an verschiedenen Standorten ihre Analysen durchführen können.

Über den Autor:

Harald Talarczyk ist freier Fachjournalist für IT- und BI-Themen in Bonn.

Folgen Sie SearchEnterpriseSoftware.de auch auf Facebook, Twitter und Google+!

Artikel wurde zuletzt im November 2009 aktualisiert

Erfahren Sie mehr über Data Governance

- GOOGLE-ANZEIGEN

ComputerWeekly.de

Close