Apache Pig
Apache Pig ermöglicht Entwicklern die Ausführung von Abfrage-Routinen für die Analyse von großen, verteilten Datensätzen, ohne dass diese Low-Level-Aufgaben in MapReduce ausführen müssen. Der Ansatz ist mit der Apache Hive Data-Warehouse-Software vergleichbar, die eine SQL-ähnliche Oberfläche für Hadoop bietet und keine direkte MapReduce-Programmierung erfordert.
Fortsetzung des Inhalts unten


Erfolg mit Low-Code-Plattformen
Mit No-Code-/Low-Code-Entwicklungsplattformen lässt sich Software unter Verwendung visueller Design-Tools generieren. Unternehmen müssen ergänzend feste Standards setzen und in die Weiterbildung ihrer Mitarbeiter investieren, um optimale Apps mit den Plattformen entwickeln zu können. Diesem Ziel widmet sich der vorliegende E-Guide.
Die wichtigsten Bestandteile von Pig sind eine Compiler und eine Skriptsprache, die Pig Latin genannt wird. Pig Latin ist eine Datenflusssprache, die zur Parallelverarbeitung dient. Die Entwickler der Apache Software Foundation positionieren die Sprache zwischen deklarativem SQL und prozeduralem Java, das in MapReduce-Anwendungen eingesetzt wird.
Befürworter von Apache Pig verweisen zum Beispiel darauf, dass mit der Skriptsprache Data Joins einfacher zu erstellen sind als mit Java. Über die Verwendung benutzerdefinierter Funktionen können Pig-Latin-Applikationen allerdings erweitert werden, was auch spezifische Verarbeitungsaufgaben beinhaltet, die in Java, JavaScript und Python geschrieben sind.
Apache Pig wurde ursprünglich in der Forschungsabteilung von Yahoo entwickelt und erstmals 2008 vorgestellt. Pig ist dazu gedacht, alle Arten von Daten zu verarbeiten, einschließlich strukturierte und unstrukturierte Informationen sowie relationale und verschachtelte Datensätze. Dieser „allesfressende“ Ansatz war der Hauptgrund, die Umgebung nach Schweinen zu benennen. Darüber hinaus lässt sich Apache Pig mit verschiedenen Frameworks einsetzen. Zwar wird die Technologie in erster Linie mit Apache Hadoop assoziiert, dennoch kann sie auch mit anderen Anwendungen zusammenarbeiten.
Das zugrunde liegende Hadoop-Framework entstand aus hochskalierten Webanwendungen, deren Architekten andere Methoden als SQL auswählten, um extrem große Datenmengen sammeln und analysieren zu können. Hadoop hat mittlerweile viele Add-ons für die Verarbeitung von Big-Data-Anwendungen. Apache Pig ist dabei nur ein Baustein einer langen Liste von Hadoop-Technologien, die Hive, HBase, ZooKeeper und andere Tools umfasst, um die Funktionslücken des Open-Source-Frameworks zu schließen.