Definition

R (Programmiersprache)

Die Programmiersprache R ist eine Open-Source-Skriptsprache für Predictive Analytics (Prädiktive Analytik) und Datenvisualisierung.

Die erste Version von R wurde 1995 veröffentlicht, um Statistikern in akademischen Einrichtungen und anderen Personen mit fortgeschrittenen Programmierkenntnissen die Durchführung komplexer statistischer Datenanalysen und die Darstellung der Ergebnisse in einer Vielzahl von visuellen Grafiken zu ermöglichen. Der Name R leitet sich von den Anfangsbuchstaben der Namen der beiden Entwickler Ross Ihaka und Robert Gentleman ab, die damals an der Universität von Auckland tätig waren.

Die Programmiersprache R enthält Funktionen, die lineare Modellierung, nicht-lineare Modellierung, klassische Statistik, Klassifizierungen, Clustering und mehr unterstützen. Aufgrund ihrer robusten Funktionen und der Tatsache, dass sie im Quellcode unter den Bedingungen der GNU General Public License der Free Software Foundation kostenlos heruntergeladen werden kann, ist sie im akademischen Umfeld nach wie vor beliebt. Sie lässt sich kompilieren und läuft auf UNIX-Plattformen und anderen Systemen wie Linux, Windows und macOS.

Die Anziehungskraft der Sprache R hat sich allmählich über den akademischen Bereich hinaus auch auf die Wirtschaft ausgeweitet, da viele Datenanalysten, die an der Universität eine Ausbildung in R absolviert haben, es vorziehen, diese Sprache weiterhin zu verwenden, anstatt ein neues Tool zu benutzen, mit dem sie noch keine Erfahrung haben.

Die R-Softwareumgebung

Die Programmierumgebung der Sprache R basiert auf einer Standard-Befehlszeilenschnittstelle. Die Benutzer nutzen diese, um Daten zu lesen und in den Arbeitsbereich zu laden, Befehle anzugeben und Ergebnisse zu erhalten. Die Befehle können von einfachen mathematischen Operatoren wie +, -, * und / bis hin zu komplizierteren Funktionen reichen, die lineare Regressionen und andere erweiterte Berechnungen durchführen.

Die Benutzer können auch ihre eigenen Funktionen schreiben. Die Umgebung ermöglicht es den Nutzern, einzelne Operationen, wie zum Beispiel das Zusammenfügen separater Datendateien zu einem einzigen Dokument, das Herausziehen einer einzelnen Variablen und die Durchführung einer Regression auf den resultierenden Datensatz, in einer einzigen Funktion zu kombinieren, die immer wieder verwendet werden kann.

Schleifenfunktionen sind in der R-Programmierumgebung ebenfalls beliebt. Diese Funktionen ermöglichen es dem Benutzer, eine Aktion wiederholt auszuführen, zum Beispiel Stichproben aus einem größeren Datensatz zu entnehmen, und zwar so oft, wie der Benutzer dies angeben möchte.

Vor- und Nachteile der Programmiersprache R

Viele Nutzer der Programmiersprache R schätzen die Tatsache, dass sie kostenlos heruntergeladen werden kann, anspruchsvolle Datenanalysefunktionen bietet und über eine aktive Online-Nutzergemeinschaft verfügt, an die sie sich wenden können, um Unterstützung zu erhalten.

Da es die Sprache schon seit vielen Jahren gibt und sie populär war, ist sie ziemlich ausgereift. Die Benutzer können Zusatzpakete herunterladen, die die Grundfunktionen der Sprache erweitern. Diese Pakete ermöglichen es den Benutzern, Daten zu visualisieren, Verbindungen zu externen Datenbanken herzustellen, Daten geografisch abzubilden und erweiterte statistische Funktionen auszuführen. Es gibt auch eine beliebte Benutzeroberfläche namens RStudio, die das Programmieren in der Sprache R vereinfacht.

Die Sprache R wurde dafür kritisiert, dass sie bei der Anwendung auf große Datensätze langsame Analysen liefert. Das liegt daran, dass die Sprache mit Single-Thread-Verarbeitung arbeitet, was bedeutet, dass die Open-Source-Basisversion nur eine CPU gleichzeitig nutzen kann. Im Vergleich dazu ist moderne Big-Data-Analytik auf parallele Datenverarbeitung angewiesen, bei der Dutzende von CPUs in einem Server-Cluster gleichzeitig genutzt werden, um große Datenmengen schnell zu verarbeiten.

Zusätzlich zu den Einschränkungen der Single-Thread-Verarbeitung ist die R-Programmierumgebung eine In-Memory-Anwendung. Alle Datenobjekte werden während einer bestimmten Sitzung im Arbeitsspeicher des Rechners gespeichert. Dies kann die Datenmenge, die R gleichzeitig verarbeiten kann, einschränken.

R und Big Data

Diese Einschränkungen haben die Anwendbarkeit der Sprache R in Big-Data-Anwendungen eingeschränkt. Anstatt R in der Produktion einzusetzen, nutzen viele Unternehmensanwender R als Forschungs- und Untersuchungs-Tool. Datenwissenschaftler führen mit R komplizierte Analysen von Beispieldaten durch und setzen dann, nachdem sie eine aussagekräftige Korrelation oder ein Cluster in den Daten identifiziert haben, die Ergebnisse mit Unterstützung von Unternehmensanwendungen in die Produktion ein.

Mehrere Softwareanbieter haben ihre Angebote um Unterstützung für die Programmiersprache R erweitert, so dass R im modernen Big-Data-Umfeld stärker Fuß fassen kann. Anbieter wie IBM, Microsoft, Oracle, SAS Institute, TIBCO und Tableau bieten unter anderem ein gewisses Maß an Integration zwischen ihrer Analysesoftware und der Sprache R. Außerdem gibt es R-Pakete für beliebte Open-Source-Big-Data-Plattformen, darunter Hadoop und Spark.

Diese Definition wurde zuletzt im Dezember 2022 aktualisiert

Erfahren Sie mehr über Datenanalyse

ComputerWeekly.de
Close