heyengel - stock.adobe.com

Diese Start-ups zeigen Datenverarbeitung der Zukunft

Das Silicon Valley bringt erfolgreiche und weniger erfolgreiche Start-ups hervor. Fünf Daten-Management-Unternehmen, die den erfolgreichen Weg gehen möchten.

Anmerkung: Diese zweiteilige Artikelserie stellt neun Start-ups (oder bereits etablierte Unternehmen) im Bereich Business- und IT-Software vor. Im erster Artikel wurden vier Unternehmen aus unterschiedlichen Softwarebereichen präsentiert: Harness, Anaplan, Datadog und Frame. Im zweiten Artikel werden Organisationen vorgestellt, die mit ihren Datenbank-, Datenanalyse- und Daten-Management-Tools die Datenverarbeitung verbessern möchten: Aerospike, Gridgain, MapD, Alation und Waterline Data.

Das Silicon Valley bringt erfolgreiche, aber auch gescheiterte Start-ups hervor. Wer in der IT-Industrie erfolgreich sein möchte, muss im Silicon Valley zumindest einen eigenen Standort haben.

In diesem Artikel werfen wir einen Blick auf fünf Unternehmen, die bereits etabliert sind, denen aber noch der Charakter eines Start-ups anhaftet. Als Teil einer Tour durch das Silicon Valley und San Francisco konnte TechTarget Einblicke in diese Firmen gewinnen und stellt sie vor.

Aerospike stellt SSD-optimierte NoSQL-Datenbank zur Verfügung

Aerospike wurde 2009 mit dem Ziel gegründet, den Herausforderungen von Big Data mit einer NoSQL-Datenbank zu begegnen. Das Hauptaugenmerk des Unternehmens liegt seitdem auf der Verarbeitungsgeschwindigkeit und Analyse von unstrukturierten Daten. Aerospike wirbt damit, dass ihr Produkt 99 Prozent der Antworten auf Datenabfragen in weniger als einer Millisekunde und 99,9 Prozent in weniger als fünf Millisekunden erfolgen.

Aufgrund dieser Geschwindigkeitsvorteile wurde Aerospike ursprünglich von Unternehmen in der Werbebranche eingesetzt, die damit die Gebote für Werbeplätze in Echtzeit orchestrieren. Mittlerweile zählen aber auch Organisationen aus der Finanzindustrie zum Kundenstamm von Aerospike. Diese identifizieren mit dem Datenbank-Management-System (DBMS) zum Beispiel neue Betrugsmuster und Risiken bei Intraday-Handelstransaktionen. Insgesamt kann der Anbieter 125 zahlende Kunden vorweisen. Zudem ist man eine enge Partnerschaft mit Intel eingegangen.

Insgesamt kann Aerospike 125 zahlende Kunden vorweisen. Zudem ist man eine enge Partnerschaft mit Intel eingegangen.

Die Aerospike-Datenbank ist ein Key-Value Store mit Hashing-Funktion, wobei Zeichenketten in kürzere Werte und Schlüssel mit fester Länge umgewandelt werden, welche die ursprüngliche Zeichenkette repräsentieren.  Die Datenbank fußt auf einem hybriden Architekturmodell: Indizes werden im Arbeitsspeicher und Daten auf Solid-State Drives (SSDs) gespeichert. Die Hardware ist für den Betrieb mit Multi-Core-Prozessoren optimiert.

Das Unternehmen stellt außerdem eine Cluster-Architektur bereit, wobei die Daten verteilt gespeichert werden. Die Server können aus handelsüblicher Hardware konfiguriert sein. Aufgrund der hybriden Architektur und dem Einsatz handelsüblicher Hardware können Unternehmen laut Aerospike ihre Server-Ressourcen deutlich zurückschrauben.

„Dies ist der 'Kopernikus-Moment' für einen CIO, wenn wir zum Beispiel 450 Cassandra Datenbankknoten auf 60 reduzieren können. Die Leute glauben uns das nur, wenn sie den Proof of Concept selbst machen“, sagt Brian Bulkowski, Mitbegründer und CTO von Aerospike. „Ich war kürzlich bei einem CIO eines großen Telekommunikationsanbieters mit Tausenden Servern, die eine NoSQL-Datenbank verwenden. Für 50 Knoten dieser Datenbank, die wir ersetzen, lassen sich jährlich 350.000 Dollar einsparen. Wir sind der einzige Key-Value Store da draußen, der das kann.“

Gridgain: Die Zukunft der Datenbank liegt in In-Memory Data Stores

Einen anderen Datenbankansatz verfolgt Gridgain. Das Unternehmen wurde 2007 gegründet und ist in Foster City, gut 35 Kilometer südlich von San Francisco, beheimatet. Gridgain setzt auf einen reinen In-Memory-Ansatz mit integrierten und verteilten Speichersystemen, um Big Data in Echtzeit zu verarbeiten.

Gridgain vermarktet seine Produkte in erster Linie für ACID-konforme, hochvolumige Transaktionen, Business Intelligence, hybride Transaktions- und Analyseverarbeitung und für das Internet der Dinge (IoT).

Das Unternehmen bietet eine Datenbanksoftware an, die auf dem Open-Source-Projekt Apache Ignite sowie Java, dem .NET-Framework und C++ basiert. Apache Ignite wurde ursprünglich von Gridgain entworfen und 2014 der Apache Software Foundation als Open Source überlassen. Das erste Release von Apache Ignite wurde im Frühjahr 2015 veröffentlicht.

Gridgain bezeichnet sich selbstbewusst als Open Source SAP HANA. „Allerdings wird SAP HANA nicht von Start-ups oder Unternehmen eingesetzt, die nicht bereits in SAP-Technologie investiert haben, da diese proprietär, hochwertig aber teuer ist“, sagt Gridgain CEO Abe Kleinfeld.

„Der Grund, warum SAP HANA eine so große Kundenbasis hat, liegt darin, dass SAP die HANA-Datenbank in seine Anwendungen integriert. Die Kunden nutzen HANA nicht für Nicht-SAP-Anwendungen“, ist Kleinfeld überzeugt. „Die meisten Unternehmen haben heute einen Open-Source-Ansatz für ‚Greenfield‘-Anwendungen. Die Welt favorisiert unseren Ansatz gegenüber dem proprietären SAP-, Oracle- und Microsoft-Ansatz.“

Dass Gridgain mit seinem Ansatz erfolgreich ist, spiegelt sich in einigen Zahlen wider: Das Unternehmen beschäftigt heute 125 Mitarbeiter weltweit, wobei ein Großteil der Entwicklung in Russland sitzt. Die Firma hat ein durchschnittliches jährliches Umsatzwachstum von 130 Prozent. Seit der Gründung konnte die Firma außerdem 31 Millionen Dollar Finanzinvestitionen einsammeln. Die Plattform wurde seit dem ersten Release über eine Million Mal heruntergeladen. Daneben gehört Ignite zu den Top 5 Apache-Projekten (Projects by Commits).

Seit der Gründung konnte Gridgain 31 Millionen Dollar Finanzinvestitionen einsammeln. Die Plattform wurde seit dem ersten Release über eine Million Mal heruntergeladen.

Die Kundenbasis von Gridgain ist in erster Linie in der Finanzbranche (zum Beispiel Barclays und American Express) und der IT-Industrie (zum Beispiel Workday) beheimatet. Mittlerweile hat das Unternehmen aber auch Kunden aus Logistik, IoT, Gesundheitswesen und E-Commerce vorzuweisen.

Die In-Memory-Plattform von Gridgain wird in vier Versionen angeboten. Wie bei Open-Source-Projekten üblich, gibt es eine kostenfreie Edition, die allerdings keine Security Updates und Patches erhält. Je nach Bedarf können Interessenten eine Professional, Enterprise oder Ultimate Edition erwerben. Diese bieten je nach Version erweiterte Security- und Backup-Funktionen. Eine Übersicht findet man auf der Website von Gridgain.

MapD: Datenanalysen mit der Power von GPUs

Als MapD-Gründer Todd Mostak 2010 in Harvard studierte und die Ereignisse des arabischen Frühlings verfolgte, kam er auf die Idee, die über Twitter entstanden Daten zu dem historischen Ereignis zu visualisieren. Dabei entwickelte er einen Prototyp von MapD, und erkannte, wie mächtig diese Form der Datenanalyse und Datenvisualisierung ist.

Nach seinem Studium in Harvard forschte Mostak am Massachusetts Institute of Technology (MIT) als wissenschaftlicher Mitarbeiter an Datenbanken, die auf Basis von Grafikprozessoren (GPUs) arbeiten.

Die Idee dahinter ist, dass GPUs aufgrund ihrer parallelen Verarbeitungsarchitektur in der Lage sind, Bilder schneller zu rendern als CPUs. Aufgrund der massiv-parallelen Architektur mit Tausenden kleiner Recheneinheiten, können GPUs im Vergleich zu CPUs, die nur einige, wenige Recheneinheiten haben, viele Verarbeitungsaufgaben gleichzeitig übernehmen. Neben dem Einsatz in rechenstarken Computern für Videospiele sind GPUs mittlerweile auch beliebt für Bitcoin Mining.

MapD hat die Datenanalyse mit Grafikprozessoren zu einer Allzweckwaffe weiterentwickelt und eignet sich unter anderem für Operational Analytics, Geospatial Analytics und Data Science.

Die MapD-Plattform basiert auf einer Open Source SQL Engine, die für die Datenverarbeitung auf GPUs optimiert wurde. Laut Mostak verwendet MapD Standard-SQL und liefert in Kombination mit der Leistung der Grafikprozessoren Abfrageergebnisse hundertmal schneller als CPU-basierte Lösungen. Neben der Abfrage per SQL über MapD Immerse können Anwender außerdem über eine Befehlszeilenschnittstelle, ODBC, JDBC oder Thrift mit der Plattform interagieren.

In verschiedenen Use Cases und Demos können sich Interessenten ein Bild von der mächtigen Datenvisualisierungslösung machen. So lässt sich zum Beispiel die Beliebtheit von Hashtags und Tweets über eine Tweet Map interaktiv und in Echtzeit abbilden (siehe Video). In einem weiteren Beispiel können Nutzer alle Taxifahrten in New York City der letzten sieben Jahre erkunden. Hierfür greift MapD auf insgesamt 1,2 Milliarden Aufzeichnungen zurück.

MapD ist in drei Versionen erhältlich. Open Source Code lässt sich über GitHub herunterladen, weiterentwickeln und für eigene Einsatzszenarien anpassen. Die Community Edition richtet sich an Studenten, Akademiker und Entwickler, die damit nicht-kommerzielle Evaluationen ausführen können. Die Enterprise Edition ist für Unternehmen und Behörden gedacht, die das komplette Produkt unter anderem mit Hochverfügbarkeit, LDAP-Authentifizierung, verschiedenen Dashboards und direkten Support erhalten. Die Preise sollten Interessenten bei MapD direkt erfragen.

Der Enterprise Data Catalog von Alation

Alation Data Catalog dient als zentrales Verzeichnis für Daten, die verstreut in einem Unternehme liegen. Die Anwendung enthält unter anderem Tools für Governance, Recherche und Analyse. Der Datenkatalog lässt sich mit einer Vielzahl von Datenquellen integrieren, darunter Hive, MySQL, IBM-, Oracle-, Tableau- und Teradata-Systeme.

Das Datenkatalog-Tool durchsucht die verschiedenen Datenspeicher eines Unternehmens und importiert Metadaten und Datenartefakte wie Schemata, Nutzungsprotokolle und Quellcode, um eine Wissensdatenbank für Datenbestände und deren Historie aufzubauen.

Zu den Fähigkeiten des Data Catalog gehören Machine Learning und Sprachmodellierung, mit denen die Software Aufgaben wie die Modellierung eines Datenstammbaus sowie die Abbildung der Beziehungen zwischen Daten und Benutzern übernimmt. Außerdem kann sie die Bedeutung von Abkürzungen und Begriffen, die für das Unternehmen einzigartig sind, automatisch erlernen und über ein integriertes Datenwörterbuch anzeigen.

Alation Data Catalog umfasst drei Funktionsbereiche: Recherche, Governance und Collaboration. Zu den Governance-Features gehören Vorschläge und Warnungen, die bei der Etablierung von Best Practices helfen. Ein Glossar bildet Einträge auf Grundlage von Datenobjekten wie Tabellen und Berichte ab.

Such- und Recherchefunktionen ermöglichen Analysten die Suche nach Daten unter Verwendung von Geschäftsbegriffe. Hierfür können sie per natürliche Sprache nach den Begriffen suchen. Das Tool SmartSuggest empfiehlt darüber hinaus Abfragen basierend auf der bisherigen Nutzung.

Schließlich können Analysten und Data Stewards in Foren zusammenarbeiten und dort Gespräche, Abfragen, Tabellen oder Abfrageergebnisse markieren. Die Suchfunktion in natürlicher Sprache ermöglicht es Geschäftsanwendern, nach Kollegen zu suchen, die mit einem bestimmten Datensatz vertraut sind.

Alation Data Catalog ist für Unternehmen jeder Größe gedacht, die über unterschiedliche Data Stores verfügen und eine zentrale Datenreferenz benötigen. Die Hauptzielgruppe sind Geschäftsanalysten, die Unterstützung beim Auffinden und Auswählen von Daten oder bei der Einhaltung von Governance-Richtlinien benötigen.

Die Anwendung richtet sich außerdem an Data Stewards, die ein gemeinsames Metadaten-Repository und Tools zur Definition und Organisation von Metadaten benötigen. Wer den Data Catalog von Alation kennenlernen möchte, kann sich für eine Demo anmelden.

Datenschutzkonform mit dem Datenkatalog von Waterline Data

Waterline Data wurde im Jahr 2013 von Alex Gorelik, der zuvor beim Datenintegrationspionier Informatica arbeitete, gegründet. Er und seine Mitstreiter bei Waterline Data nennen als größten Antrieb für ihre Arbeit, dass die meisten Unternehmen mehr Zeit mit der Suche nach Daten verbringen als einen Wert aus diesen zu schöpfen.

Waterline Data möchte dies mit seiner Daten-Management-Lösung ändern und Kunden Klarheit darüber verschaffen, welche Daten sie haben, wer darauf Zugriff hat und wofür sie verwendet werden. Das Unternehmen wirbt damit, dass seine Katalogisierungstechnologie wertvolle Daten entdeckt und zum Vorschein bringt, damit Unternehmen die Daten sichten, die Sie benötigen, um die Organisation effektiv zu führen.

„Wir automatisieren den Erkennungs-, Abgleich- und Tagging-Prozess und stellen sicher, dass der Katalog immer auf dem neuesten Stand ist, indem wir die Daten selbst und nicht nur die historischen SQL-Protokolle schrittweise scannen“, erläutert Gorelik das Produkt.

Die Lösung von Waterline Data richtet sich damit an verschiedene Zielgruppe: Datenexperten können damit Daten erforschen, organisieren und feinjustieren. Hierbei werden sie von den Machine-Learning-Algorithmen unterstützt, die automatisch vergebene Tags erkennen und mit ähnlichen Daten abgleichen.

Governance Professionals können mit Waterline Data die Unternehmensdaten mit Compliance-Anforderungen abgleichen, Berichte hierzu erstellen und Datenzugriffkontrollen über Tag-basierte Sicherheitsfunktionen konfigurieren. Manager und Business Professionals können innerhalb des katalogisierten Datenbestands nach den benötigten Daten suchen, diese bewerten und so anderen Anwender einen Mehrwert bieten.

Der Data Catalog von Waterline Data arbeitet nativ auf Hadoop und Spark. Somit lässt sich die Lösung beliebig skalieren. Eine direkte Anbindung an Cloud-Speicher wie Amazon S3, Azure Blobstore und Google Cloud Storage ist ebenso möglich. Als Datenquellen sind unter anderem relationale Datenbanken, Hadoop Cluster und Cloud-Services vorgesehen.

Neben dem Datenkatalog bietet Waterline Data außerdem eine Daten-Management-Anwendung an, mit der man seinen Datenbestand fit für die EU-Datenschutz-Grundverordnung (EU-DSGVO) machen kann. Die Software soll laut Gorelik automatisch Daten erkenne, die von der EU-DSGVO betroffen sind und Berichte über den Status der Datenschutz-konformen beziehungsweise nicht-konformen Daten generieren.

Wer die Lösungen von Waterline Data ausprobieren möchte, kann sich auf der Website des Anbieters eine kostenlose Testversion herunterladen. Diese Sandbox stellt einen vorinstallierten Datenpool und Tutorials zur Verfügung. Für Preise und Integrationsoptionen sollte man Waterline Data direkt kontaktieren.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!

Erfahren Sie mehr über Datenverwaltung

ComputerWeekly.de
Close