fotodo - Fotolia

Panama Papers mit Graphdatenbank und Visualisierungssoftware enthüllt

Für die Analyse der 11,5 Millionen Unterlagen der Panama Papers nutzten beteiligte Journalisten die Graphdatenbank Neo4j und das Tool Linkurious.

Das Durchsickern von 11,5 Millionen Dateien der panamaischen Anwaltskanzlei Mossack Fonseca zur Süddeutschen Zeitung hat diese Woche für viel Diskussion gesorgt. Neben der Süddeutschen Zeitung waren internationale Medienhäuser und das International Consortium of Investigative Journalists (ICIJ) an der Enthüllung und Aufbereitung der Daten beteiligt.

Für die Analyse und Bearbeitung der Daten verwendete das ICIJ die Graphdatenbank von Neo4j und die Datenvisualisierungssoftware Linkurious, die auf Graphdatenbanken spezialisiert ist. Die Medienorganisationen setzten diese Anwendungen ein, um Verbindungen zwischen mehr als 14.000 Klienten der Anwaltskanzlei Mossack Fonseca und Offshore-Konten aufzudecken.

„Dieses Datenleck hätte vor zehn Jahren passieren können und niemand hätte etwas darüber geschrieben“, ist Emil Eifrem, CEO von Neo4j, überzeugt. Erst die Entwicklung von Big-Data-Technologien, insbesondere durch Google, die 2006 die Datenbank BigTable veröffentlichten, und Facebook, schufen die Fähigkeiten für den Datenjournalismus des ICIJ, der Süddeutschen Zeitung und anderer Medienhäuser, sagt Eifrem. Im gleichen Jahr wurde ebenfalls die Big-Data-Technologie Hadoop von Yahoo entwickelt, so der Neo4j CEO.

Regierungsbehörden und Geheimdienste, wie zum Beispiel NSA, GCHQ und BND, haben sich diese Fähigkeiten bereits angeeignet, fügt Eifrem hinzu. „Wir sind nun dabei, diese Fähigkeit zu demokratisieren. Dabei geht es nicht allein darum, Wörter zu zählen, sondern Verbindungen und Beziehungen zwischen Punkte herzustellen.“

Die Technologie von Neo4j kam auch zum Einsatz, als 2015 über ein Datenleck rund 100.000 Klientendaten der britischen Großbank HSBC an die Öffentlichkeit drangen. „Das aktuelle Datenleck hat aber ein deutlich größeres Ausmaß als jedes andere in der Geschichte.“

Die ICIJ Journalisten verwendeten neben Neo4j auch Linkurious. Damit ist es ihnen zum Beispiel möglich, Verbindungen zwischen Personen herzustellen, die zwar die gleiche Adresse teilen, aber nicht offiziell verwandt oder verheiratet sind. Diese Daten lassen sich wiederum zum Beispiel mit Bankkonten verbinden, die für Geldwäsche oder andere Finanzdelikte genutzt werden.

Mar Cabra, Head of Data & Research Unit des ICIJs, sagt: „Neo4j ist ein revolutionäres Tool für die Erforschung von Daten, das die investigative, journalistische Arbeit verändert hat. Das wäre in dieser Größenordnung früher einfach nicht möglich gewesen.“

Was sind die Panama Papers?

Mit dem Begriff Panama Papers werden vertrauliche Dokumente des Offshore-Dienstleisters Mossack Fonseca bezeichnet, der seinen Hauptsitz in Panama City hat. Die Unterlagen sollen zahlreiche Steuer- und Geldwäschedelikte sowie den Bruch von UN-Sanktionen durch Klienten des Unternehmens belegen. Die ersten Inhalte und Erkenntnisse der Dokumente wurden am 3. April 2016 der Öffentlichkeit präsentiert.

Insgesamt soll das Datenleck rund 11,5 Millionen E-Mails, Briefe, Faxe, Urkunden, Kreditverträge, Rechnungen und Bankauszüge aus den Jahren 1977 bis 2016 umfassen. Nach Angaben der Süddeutschen Zeitung trat eine anonyme Quelle vor über einem Jahr an die Zeitung heran und übermittelte verschlüsselte interne Dokumente der Kanzlei Mossack Fonseca.

Die Süddeutsche Zeitung entschied sich aufgrund der enormen Datenmasse dafür, die Dokumente zusammen mit dem International Consortium for Investigative Journalists (ICIJ) auszuwerten. Weltweit arbeiteten rund 400 Journalisten und mehr als 100 Medienorganisation in 80 Ländern an der Recherche mit.

Auswertung der Panama Papers mit Neo4j

Die Panama Papers beschreiben die internen Abläufe der in Panama ansässigen Anwaltskanzlei Mossack Fonseca, einer der weltweit führenden Offshore-Dienstleister. Graphdatenbanken wie Neo4j verwenden strukturierte Datenknoten und Eigenschaften, um Daten zu definieren und zu speichern, statt sie in Tabellen abzulegen, wie dies in relationale Datenbanken geschieht. Graphdatenbanken werden verwendet, um Verbindungen zwischen Entitäten abzubilden.

„Das [Neo4j und Linkurous] sind revolutionäre Discovery Tools, da sie Beziehungen herstellen, die uns erzählen, wo kriminelle Aktionen zu finden sind, wer mit wem zusammenarbeitet und so weiter“, erläutert Cabra. „Rund 11,5 Millionen Dokumente – was alle je von uns untersuchten Datenlecks übertrifft – setzten eine Technologie voraus, die diese unvorstellbare Menge vernetzter Daten schnell, einfach und effizient verarbeiten konnte.“

Cabra weist außerdem darauf hin, dass das ICIJ und die kooperierenden Medienorganisation eine intuitive Lösung benötigten, die nicht die Zusammenarbeit mit Data Scientists oder Entwicklern voraussetzte. „Journalisten rund um den Globus mussten mit den Daten arbeiten können, unabhängig von ihren technischen Fähigkeiten. Linkurious Enterprise war die beste Plattform, um die Daten zu erforschen und Einsichten auf sichere Weise zu teilen“, erläutert die Datenspezialistin.

Eifrem fügt hinzu: „Graphdatenbanken sind die einzige Möglichkeit, um einen Sinn aus den Terabytes an vernetzten Daten herauszulesen, die von uns unaufhörlich produziert werden. Sie sind ein wichtiges Instrument für internationale Agenturen, Regierungen, Finanzdienstleister und Sicherheitsfirmen, um die Wahrheit hinter den Daten zu erfahren.“

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Erfahren Sie mehr über Big Data

- GOOGLE-ANZEIGEN

ComputerWeekly.de

Close