Aktuelle Ansätze für In-Memory-Lösungen und -Appliances

Der Beitrag stellt aktuelle Ansätze für In-Memory-Lösungen und -Appliances vor und erörtet deren Vor- und Nachteile.

Der Beitrag stellt „In-Memory“-Ansätze und DWH-Appliances vor. Beide versprechen optimale Leistungen zu liefern. Dabei geht es um die Verarbeitung von größeren detailreichen Datenvolumina, sekundenschnelle Antwortzeiten und Real-Time-Analyse. Es handelt sich manchmal auch um proprietäre Lösungen, die durch eine bessere Performanz gerechtfertigt werden.

In-Memory-Ansätze

In einem In-Memory-Ansatz wird die Nutzung von Festplatten bei der Datenhaltung und Verarbeitung fast komplett umgangen. Alles findet fast ausschließlich im Hauptspeicher statt. Lediglich ein festplattenbasierter „Persistence Layer“ ist vorhanden, der vor Ausfällen schützt und Backup und Recovery gewährleistet.

In diesem Artikel werden In-Memory-Ansätze von SAP, Exasol, IBM, QlikTech, und Panoratio vorgestellt. Auf die Vorstellung von SAP BWA wurde verzichtet, dafür aber SAP HANA vorgestellt. Dabei ist zu beachten, dass SAP und Exasol eine Appliance anbieten.

In-Memory als Appliance

SAP HANA:
HANA ist eine Kombination aus Hardware und Software, welche verschiedene SAP Komponenten integriert. Hierunter fallen beispielsweise die SAP in-Memory Computing Engine (vormals Business Analytic Engine, BAE), der Real-Time Replications-Service und spezielle Data Services.

All dies wird in einer speziell für HANA entwickelten Hardware bereitgestellt, welche zusammen mit führenden Hardware Partnern der SAP entwickelt wurde. SAP HANA ermöglicht massiv, parallele Verarbeitung von Daten und eine Daten-Kompression, die es Kunden erlaubt, sowohl transaktionale Daten aus ERP-Systemen, als auch analytische Daten aus dem BW System in Echtzeit zu verarbeiten. HANA kann auch Daten aus non-SAP Datenquellen verarbeiten. Mit HANA setzt SAP erstmals eine hybride Datenbankarchitektur um, bei der zeilen- und spaltenorientierte Datenhaltung gleich berechtigt sind.

In einem In-Memory-Ansatz wird die Nutzung von Festplatten bei der Datenhaltung und Verarbeitung fast komplett umgangen.

EXASOL:
EXASolution ist  eine Hochleistungsdatenbank, die auf einer DWH-Appliance läuft. Exasol ist ein deutsches Unternehmen, das seit 2000 auf dem Markt ist. Die Appliance verfügt über eine In-Memory Datenbank und kann mehrere Server zu einem Cluster bündeln. Dadurch erreicht die Exasol-Lösung bis zu einem gewissen Grade eine lineare Skalierbarkeit.

Die Verteilung der Daten in Cluster erfolgt automatisch. Die Datenbank ist spaltenbasiert und verspricht selbst die ideale Systemkonfiguration zu ermitteln. Es verfügt über ein selbstlernendes System, was die Indizierung der Daten und das Optimieren von Abfragen im Hintergrund bewältigt. Die Datenbank unterstützt die Abfrage der Daten über SQL. EXASolution kann auch als Ergänzung zu SAP BW-Systemen benutzt werden.

Dafür gibt es spezielle Extraktoren, die Daten aus SAP BW extrahieren. Exasol besitzt kein eigenes Frontend. Es  können aber die herkömmlichen Frontends wie SAP Business Objects, Cognos, Microsoft Tools, SAS, Microstrategy eingesetzt werden. Dabei ist zu bemerken, dass je nach Frontend andere Sofwarekomponenten wie etwa ein Application Server noch installiert und betrieben werden müssen.   

In-Memory als proprietäre Lösung

EXKURS: OLAP PROPRIETÄRE DATENHALTUNG:
Multidimensionale Datenbanken, auch als OLAP bekannt, konnten sich schon seit den siebziger Jahren neben den herkömmlichen relationalen Datenbanken erfolgreich etablieren. Zunächst hielten die OLAP-Systeme allerdings ein Nischendasein. Später, durch kontinuierliche Verbreitung, sind sie Objekt der Begierde für großen Datenbankanbieter geworden.

So hat z.B. Oracle die OLAP-Datenbank Express übernommen und später auch Hyperion Essbase. Beides sind proprietäre Systeme, mit eigener Datenbanksprache und festplattenbasiert.Um auf die proprietären Daten von außen zugreifen zu können sind zwei Ansätze entstanden: XML for Analysis (XMLA) und Multidimensional Expressions (MDX). XMLA ist ein de facto Industriestandard und ermöglicht Anwendungen Daten aus unterschiedlichen multidimensionalen Datenquellen anzusprechen und auszutauschen.

MDX ist eine Programmiersprache und genießt den Status eines Industriestandards. Sie wurde von vielen BI-Anbietern angenommen und auch HANA unterstützt die Bearbeitung der Daten mittels MDX. Diese Sprache hat eine SQL-ähnliche Syntax, sie unterscheidet sich von SQL vor allem dadurch, dass sie multidimensionale Strukturen mit beliebiger Anzahl von Dimensionen  extrahieren kann.

IBM TM1:
TM1 ist eine proprietäre OLAP-Datenbank, die im Hauptspeicher gehalten und prozessiert wird. TM1  ist schon im Jahre 1984 entstanden und gehört seit 2008 dem Cognos BI-Portfolio der Firma IBM. Entsprechend trägt nun das Produkt den Namen IBM Cognos TM1. Es verfügt über die Möglichkeit, Daten aus verschiedenen Datenquellen zu extrahieren und nutzt Excel und WEB als Frontend. Zusätzlich zeichnet sich TM1 durch eine starke Calculation-Engine und eine beindruckende Anzahl von Funktionen aus, die komplexe Unternehmensplanung ermöglichen. TM1 kann durch starke Komprimierungsraten große Datenvolumina im Hauptspeicher laden und viele Berechnungen „on the fly“ durchführen.

QLIKVIEW:
QlikTech ist ein skandinavisches Unternehmen und erfreut sich mit dem Produkt QlikView in den letzten Jahren über eine stete, zweistellige Zuwachsrate. Es ist ein proprietäres System, das den In-Memory-Ansatz verfolgt. Ursprünglich als Abteilungslösung auf dem Markt platziert unternimmt QlikTech große Anstrengungen, die Funktionalität anzubieten, die aus QlikView eine Enterprise-Lösung macht.

Wie TM1 ist QlikView bei den Fachanwendern sehr beliebt. Es verfügt über eine so genannte assoziative Analyse, die es den Anwendern intuitiv ermöglicht, Daten aus verschiedensten Quellen in Beziehung zu bringen. Dieser analytische Ansatz wurde von der Gartner Group als Discovery Analysis bezeichnet.

QlikView verfügt weder über ein Physikalisches-, noch ein Business  oder Präsentationsmodell (das Produkt nutzt anhand des so genannten assoziativen Models Tabellen, die automatisch miteinander verknüpft sind), was sich bei der Verbreitung  im Unternehmen als sehr nachteilig erweist.  Es bietet ein limitiertes Metadatenmanagement an. Wenn man mit hunderten von Dimensionen oder Kennzahlen arbeiten möchte dann wird das Fehlen eines ausgereiften Metadatenmanagement sichtbar. Seine proprietäre Skriptsprache wird von der IT auch als Nachteil gesehen, jedoch entschädigt die Navigation in den Daten die Nachteile um Längen. 

Eine Data Warehouse Appliance besteht aus Servern, Speicher- kapazitäten, Betriebssystemen und Datenbank- systemen, die zum Betreiben einer Data Warehouse-Lösung konzipiert wurden.

PANORATIO:
Der Softwarehersteller Panoratio Database Images, ein Spinn-off von Siemens, entwickelte mit dem  Portable Database Image (PDI) ein proprietäres Dateiformat und Produkte auf dessen Basis. Das PDI-Dateiformat ermöglicht die analytische Auswertung der enthaltenen Informationen bis auf Detailebene.

Das Produkt, PDI-Generator erzeugt eine PDI-Datei. Sie enthält die wichtigen Ausgangsdaten aus unterschiedlichen Datenquellen im Unternehmen in komprimierter Form. Darin können mehrere hundert Gigabyte an Ausgangsdaten extrem stark komprimiert werden. Der PDI-Explorer ist ein Frontend für Discovery Analysis. Der PDI-Server lädt und verwaltet als In-Memory Datenbank die PDI-Dateien in den Hauptspeicher des Rechners. Das Produkt Panoratio Generator sortiert Daten und findet Muster.

Das Verfahren ähnelt dem MPEG-Kompressionsalgorithmus, das zur Komprimierung von Videodateien benutzt wird. Ein Nachteil des Verfahrens liegt darin, dass man die ursprünglichen Datensätze in die PDI-Datei nicht mehr vorliegen hat. Allerdings erlaubt der PDI-Server den Durchgriff auf die Orginaldaten der Quellsysteme. 

Darüber hinaus kann man die Originaldaten aus dem PDI-Format extrahieren. Panoratio unterstützt ODBC für das Einlesen der Quelldaten. Der PDI-Server kann neben dem eigenen Frontend PDI-Explorer mit MDX bzw. XMLA - Frontends betrieben werden. Die Software meldet dem Benutzer pro aktiv auffällige statistische Abweichungen und weist auf unvermutete Zusammenhänge hin. Weitere Data Mining- und Predictive Analytics-Funktionalität ist vorhanden.

Festplatten-basierte DWH-Appliances

Eine Data Warehouse Appliance besteht aus Servern, Speicherkapazitäten, Betriebssystemen und Datenbanksystemen, die integriert und optimiert zum Einführen und Betreiben einer Data Warehouse-Lösung konzipiert wurden. Alle Bestandteile werden aufeinander eingestimmt, so dass sie eine optimale Plattform darstellen, um DWH performant zu betreiben. I.d.R. sind die Appliances vom Hersteller voreingestellt und bieten eine kostengünstige Lösung aus einer Hand.

Der Begriff „Data Warehouse Appliance“ (DWA) wurde zuerst vom Unternehmen Netezza (mittlerweile eine IBM-Firma) verwendet. SAP setzte auf den „NetWeaver BI Accelerator“ (auch als Business Warehouse Accelerator (BWA) bekannt),  eine hoch skalierbare Business-Intelligence-Appliance auf der Basis der hauseigenen «Trex»-Suchtechnologie. Die nächste Entwicklung von SAP im Appliance-Umfeld ist „High Performance Analytical Appliance“ (HANA). 

Im Folgenden werden verschiedene DWH/BI-Appliances vorgestellt. Es wurden dabei nicht alle Anbieter berücksichtigt.

IBM NETEZZA:
Netezza ist eine DWH-Appliance, die seit 2010 das DWH/BI-Portfolio von IBM ergänzt. Allerdings ist Netezza in Deutschland eher unbekannt, die Kundenbasis ist klein. Unter der IBM-Flagge kann sich das jedoch ändern. Netezza wurde im Jahr 2000 gegründet und liefert eine solide, gleichnamige DWH-Appliance, mit einer breiten Kundenbasis weltweit.

Es integriert RDBMS, Server und Storage-Komponenten in eine Einheit und verfügt über proprietären Technologien, die Lade- und Antwortzeiten des DWH beschleunigen. Netezza wurde in allen Branchen jedoch bisher überwiegend in USA verkauft. Netezza ergänzt die proprietäre Datenhaltung und –verarbeitung mit BI-Funktionalität von Tibco Spotfire, MicroStrategy und höchst wahrscheinlich durch die Übernahme  von IBM bald des ganzen IBM Cognos BI Portfolios. Bis dato unterstützt Netezza kein In-Memory Ansatz.

ORACLE EXADATA:
Exadata ist eine Appliance, die auf der Hardware der zugekauften Firma Sun Microsystems basiert. Sie nutzt standardisierte, hochperformante Hardware und eine massiv-parallele Verarbeitung der stark verbreiteten Grid-RDBMS von Oracle. Diese Appliance ist seit 2008 auf dem Markt. Für große EDW-Systeme ist diese Lösung von Oracle anhand der Skalierbarkeit der Hardware und der Grid-Datenbank eine denkbare Alternative, wenn die Strategie des Unternehmens „One-Stop-Shop“ ist. Oracle hat sich der In-Memory Technologie nur teilweise verschrieben.

Das Know-how ist durch die Akquise von In-Memory-Technogien von TimesTen und Coherence vorhanden, jedoch ist bis dato nicht bekannt, wie diese Technologien in Oracle Produkt-Portfolio integriert werden. Oracle verfügt über ein umfangreiches, teilweise redundantes BI/DWH-Produktportfolio, was sicherlich ein Nachteil ist, da Kunden bei den strategischen Entscheidungen diese Redundanz berücksichtigen müssen.

Die Integration der verschiedenen Produkte ist nicht gänzlich vollzogen, so dass bei einer Softwareauswahl dies gerade genauer untersucht werden sollte. Gartner Group moniert in der Marktstudie von 2011, dass die Entwicklungs- und Release Zyklen zu langwierig sind. Visualierung, Mobile Computing und In-Memory-Lösungen sind weitere Mankos des Produktportfolios laut Gartner.

TERADATA:
Teradata ist einer der ersten Anbieter von DWH-Appliances. Es startete in den Neunzigerjahren mit einer Highend-DWH-Lösung und verfügt mittlerweile über eine Fülle von Appliances, die für unterschiedlichen Zwecke ausgelegt sind. Die Appliances unterscheiden sich über die Größe der Hardware, sprich Plattenkapazität und Anzahl der Prozessoren.

Teradata verfügt über ein eigenes RDBMS, das wie das Unternehmen benannt ist. Die Datenbank wurde über viele Jahren optimiert und war lange Zeit der Standard für EDW-Lösungen. Dementsprechend ist Teradata sehr oft in Unternehmen zu finden, die sehr große Datenvolumina verarbeiten müssen, wie in den Branchen Retail, Telco und Finance.

Teradata liefert nur die Datenhaltung und Datenverarbeitung. Für ETL und BI-Analyse wurden Partnerschaften mit bekannten Anbietern eingegangen. Sie bieten teilweise spezielle Lösungen für Teradata. Teradata verfügt über eine ganze Reihe von Applikationen z.B. in den Bereichen CRM und Monitoring von Echtdaten.

Eine Kooperation mit SAS Institute, ein Veteran auf dem BI-Markt, das  mit Ausnahme einer eigenen Datenbank das komplette DWH/ETL/BI-Paket besitzt, verspricht eine enge Verzahnung der Produkte. Die ausgereiften und langerprobten Data Mining- und Predictive Analytics-Lösungen von SAS werden neuerdings direkt im Kernel der Teradata RDBMS ausgeführt. Dies bringt Performance-Verbesserungen mit sich und eine gewisse Verschlankung des DWH/BI Pakets. Teradata ist einer der Pioniere der Real-Time DWH (auch als active DWH bekannt) und hat einen wesentlichen Beitrag dazu geleistet, dass Real-Time Analytics zum Mainstream geworden ist.

Folgen Sie SearchEnterpriseSoftware.de auch auf Facebook, Twitter und Google+!

Artikel wurde zuletzt im September 2014 aktualisiert

Erfahren Sie mehr über Big Data

- GOOGLE-ANZEIGEN

ComputerWeekly.de

Close