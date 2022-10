OpenRefine ist ein Open Source Tool auf Basis von Java, mit dem sich Daten aus unterschiedlichen Datenquellen bereinigen, aufbereiten, validieren und deduplizieren lassen. Bei der Transformation von Daten ist OpenRefine ein mächtiges Tool, welches keinen Server und nicht zwingend eine Installation erfordert. Es lassen sich sowohl lokale Daten als auch eine Vielzahl an Datenbanksystemen verknüpfen.

OpenRefine unterstützt dabei, Zusammenhänge zu erkennen, die in eine Analyse einfließen können. Die Anwendung lässt sich auf Computern mit Windows 10/11, macOS und Linux ausführen. OpenRefine ist nach wenigen Minuten Konfiguration einsatzbereit.

OpenRefine ist in der Lage, strukturierte und unstrukturierte Daten zu verarbeiten. Es lassen sich unterschiedliche On-Premises- und Cloud-Datenbanksysteme anbinden. Ebenso ist das Verarbeiten von Excel-Tabellen in Kombination mit Datenbanksystemen möglich.

Das Tool ist in der Lage, mit kleinen und großen Datensätzen zu arbeiten. Die Verarbeitungsleistung hängt allerdings von der Computer- oder Server-Performance ab, auf dem die Verarbeitung stattfindet. Wichtig ist ausreichend Arbeitsspeicher.

So kommen die Daten zu OpenRefine

Sobald OpenRefine auf einem Rechner zur Verfügung steht, lassen sich die Daten auf verschiedenen Wegen in das System integrieren. Lokale Daten, Tabellen oder Informationen aus der Zwischenablage können Anwender sofort in OpenRefine nutzen. Zu den unterstützten Formaten gehören CSV, *SV, Excel (.xls und .xlsx), JSON, XML, RDF, XML und Google Data. Es ist somit nicht notwendig, eine Datenquelle direkt anzubinden, sondern es funktioniert auch ein Export der Daten aus der Datenquelle und ein Import in OpenRefine.

Externe Datenquellen, also zum Beispiel Datenbanken im eigenen Rechenzentrum oder in Cloud, können über Konnektoren eingebunden werden. Die Verbindung zwischen den Datenbanken und dem jeweiligen Computer findet direkt statt. Es gibt keine dritte Verbindung zu einem Cloud-Dienst.

OpenRefine stellt eine portablen Version als Download zur Verfügung, die nicht installiert werden muss. In dieser ist Java bereits so implementiert, dass der Start von OpenRefine ohne weitere Schritte erfolgt. Wer OpenRefine installieren möchte, benötigt das Java Development Kit (JDK)

Nach dem Download erfolgt der Start der Umgebung mit der Datei refine.bat, wenn das Tool unter Windows zum Einsatz kommt. Für macOS und Linux gibt es entsprechende Startdateien. Die Verwendung des Tools erfolgt über einen Webbrowser, zunächst ohne SSL-Verschlüsselung über die Adresse http://127.0.0.1:3333.

Es ist möglich, über das Netzwerk auf den Webdienst zuzugreifen. Allerdings sollte in diesem Fall ein Administrator zunächst SSL aktivieren und eine Authentifizierungt integrieren. Standardmäßig ist OpenRefine allerdings kein Tool für die Zusammenarbeit, da es keine vorkonfigurierte Authentifizierung gibt.