NicoElNino - stock.adobe.com

Feature

Mit der MapR Data Platform ist die Datenmenge kein Problem

MapR hat sich mit seiner Converged Data Platform dem Big Data Management verschrieben. Im Interview erläutert Ted Dunning, was sein Unternehmen aktuell vorantreibt.

von

Tobias Servaty-Wendehost, Senior Online Editor

Zuletzt aktualisiert: 23 Aug. 2018

MapR hat sich seit rund zehn Jahren mit seiner Data Platform dem Daten-Management und der Datenanalyse verschrieben. Das Unternehmen wirbt damit, eine Plattform für alle Daten und in jeder Cloud-Umgebung zur Verfügung zu stellen. Im Mittelpunkt steht die MapR Converged Data Platform, die es ermöglichen soll, intelligente und moderne Big-Data-Anwendungen zu entwickeln.

Die Plattform von MapR unterstützt die Big-Data-Verarbeitung über Apache Hadoop sowie eigene Tools. Ted Dunning, Chief Application Architect bei MapR, verweist im Interview allerdings darauf, dass Hadoop nur einer von vielen Workloads ist, den die MapR-Plattform ermöglicht. Er erläutert außerdem, welchen Stellenwert Machine Learning für sein Unternehmen hat und welche Lösung MapR für die EU-Datenschutz-Grundverordnung (EU-DSGVO) zur Verfügung stellt.

Dunning hat einige Jahre Erfahrung mit Machine-Learning-Programmen und war Architekt verschiedener Big-Data-Lösungen, darunter von MusicMatch (heute Yahoo Music) und dem Empfehlungssystem Veoh. Außerdem war an der Entwicklung von Betrugserkennungssystemen beteiligt und hat bisher 24 Patente erteilt und ein Dutzend angemeldet. Dunning ist Vorstandsmitglied der Apache Software Foundation.

Herr Dunning, der Ausdruck „data is the new gold“ wird oft verwendet, um die Bedeutung von Big Data, Datenanalysen und ähnlichen Technologien zu beschreiben. Aber sind Unternehmen nicht mit der enormen Datenmenge, die sie produzieren, überfordert?

Ted Dunning: Einige Unternehmen sind es, aber viele nicht. Unternehmen, die keine kohärenten Strategien haben, haben Probleme, weil sie nicht wissen, was sie an Daten besitzen. Unternehmen, die keine einzige Datenplattform verwenden, können daher Probleme mit Silos haben.

Wie können Daten-Manager und Data Scientists die MapR Converged Data Platform nutzen, um diese Datenmenge zu verarbeiten?

Dunning: Mit der MapR Data Platform ist die Datenmenge kein Problem. Ebenso wenig wie die Geschwindigkeit der Daten. MapR kann sowohl Daten mit hohem Volumen als auch mit hoher Geschwindigkeit problemlos verarbeiten. Die entscheidende Frage ist, was man zu tun gedenkt, um damit zu beginnen und neue Möglichkeiten zu entdecken, sobald diese sich abzeichnen. Das bedeutet, dass Sie Zugriff auf Ihre Daten über die gesamte Palette der von Ihnen verwendeten Tools haben müssen, insbesondere mit neuen Machine-Learning-Systeme, die auf den Markt kommen.

MapR unterstützt die Apache-Hadoop-Projekte HBase, Pig, Apache Hive und Apache ZooKeeper. Wie wichtig ist die Apache- und Open-Source-Community bei der Entwicklung der MapR-Plattform?

Dunning: Sie können jede Art von Workload auf MapR ausführen, die Ihnen gefällt. Dazu gehören Hadoop-bezogene Projekte wie HBase, Pig, Hive und Spark. Aber Hadoop ist nur ein Workload von vielen. Und Sie können sie alle auf MapR sehr effektiv ausführen. Sie können Workloads für Machine Learning, HPC-Workloads und sogar herkömmliche Datenbanken auf derselben Plattform ausführen. Einer der spannendsten und wichtigsten neuen Workloads auf MapR ist die Kubernetes- beziehungsweise Container-Storage-Schicht.

Die Datenverarbeitung auf GPU Cluster spielt bei MapR eine zentrale Rolle. Können Sie die zugrunde liegende Architektur erklären?

Dunning: Eines der kritischen Probleme mit GPUs ist die Fütterung des Monsters. Um das zu tun, müssen Sie auf Ihre Daten auf dem Rechner zugreifen, auf dem sich die GPUs befinden. Typischerweise sind die Programme, die dies tun, so konzipiert, dass sie konventionelle Datei-I/Os verwenden. MapR macht das einfach, indem es Standard-I/0-Operationen unterstützt.

Auch Technologien wie Machine Learning und Deep Learning spielen eine immer wichtigere Rolle. Daten werden in neue, selbstlernende Technologien übersetzt. Können Sie uns sagen, was MapR hier in Vorbereitung hat?

Dunning: Alle neuen Machine Learning Frameworks laufen bereits direkt auf MapR, ohne spezielle Konnektoren oder Anpassungen. Wir haben Partnerschaften und Produkte in der Pipeline, die diese Führungsposition ausbauen werden, aber wir mögen keine Vorankündigungen.

Können Sie ein oder zwei Anwendungsfälle für die Nutzung der MapR-Plattform in diesem Bereich erläutern?

Dunning: Mehrere Automobilhersteller entwickeln Fahrassistenzsysteme auf Basis der MapR-Plattform. Dabei wird die einfache Integration von MapR in herkömmliche Anwendungen genutzt. Medizintechnikunternehmen nutzen MapR als Plattform für die Bildgebung und intelligente Bildanalyse. Produktionsunternehmen erfassen Daten in der Nähe von Produktionslinien und geben diese an zentrale Analysesysteme weiter. Es gibt noch viele andere Anwendungen. Alle diese Systeme nutzen die Tatsache, dass MapR Standardmöglichkeiten für den Zugriff auf Daten bietet, die Entwicklern eine einfache Umgebung bieten, die sie für eine schnelle Produktentwicklung benötigen.

Seit Ende Mai 2018 müssen Unternehmen, die Daten von EU-Bürgern verarbeiten, die Datenschutz-Grundverordnung (DSGVO/GDPR) umsetzen. MapR hat in Zusammenarbeit mit Talend eine Data-Lake-Lösung entwickelt, die es den Anwendern ermöglicht, in DSGVO-konform zu arbeiten. Was steckt hinter dieser Lösung?

Dunning: MapR ist seit langem Partner von Talend. Dies ist eine natürliche Partnerschaft, da MapR die stärkste Plattform für die Erstellung von Anwendungen bietet, während Talend über gute Anwendungen und Entwicklungssysteme verfügt. Das Ergebnis ist eine komplementäre Mischung aus beiden Stärken. Mit Talend on MapR können Entwickler bestehende Systeme anpassen oder neue Systeme bauen, die für die schwierigen DSGVO-Anforderungen sinnvoll sind.

„Einer der spannendsten und wichtigsten neuen Workloads auf MapR ist die Kubernetes beziehungsweise Container-Storage-Schicht.“

Ted Dunning, MapR

Auch wenn die DSGVO eine EU-Verordnung ist: Diskutieren US-Unternehmen hierüber?

Dunning: Viele US-Unternehmen haben eine starke Präsenz in Europa und müssen daher DSGVO-konform sein, was natürlich bedeutet, dass sie sich der DSGVO bewusst werden müssen. Einige Unternehmen untersuchen DSGVO, um zu verstehen, welche Praktiken in den Regelungen enthalten sind, die für alle ihre Kunden sinnvoll sind. Wenn Sie für die Europäer das Recht auf Vergessen einführen müssen, warum sollten Sie es nicht allen anbieten?

Welche Rolle spielt GDPR für MapR?

Dunning: Die Anforderungen der Datenschutz-Grundverordnung, und die noch stärkeren Anforderungen in Deutschland und den Niederlanden, unterstreichen die Leistungsfähigkeit und die Stärken der MapR-Plattform in Bezug auf Einfachheit, Leistungsfähigkeit und Kompatibilität. Dies ermöglicht unseren Kunden eine schnellere und einfachere Anpassung an die GDPR-Anforderungen als ihre Wettbewerber.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!

Nächste Schritte

MapR bringt eigene Apache-Spark-Distribution auf den Markt.

Big-Data-Management mit der Hadoop-Distribution von MapR.

MapReduce versus Spark: Wer macht das Rennen in der Cloud?

Mit der MapR Data Platform ist die Datenmenge kein Problem

MapR hat sich mit seiner Converged Data Platform dem Big Data Management verschrieben. Im Interview erläutert Ted Dunning, was sein Unternehmen aktuell vorantreibt.

Nächste Schritte

Erfahren Sie mehr über Datenverwaltung

Data Lake: Design, Einsatz und Limits datenzentrierter Speicher

Die wichtigsten Anwendungen für Data Governance

Databricks

Sieben Anwendungen für die Optimierung der Datenqualität