Tu - stock.adobe.com
Denodo: Datenvirtualisierung für komplexe IT-Landschaften
Die Denodo-Plattform virtualisiert heterogene Datenquellen, integriert diese ohne Replikation und stellt sie zentral und sicher für Analytik, operative Systeme und KI bereit.
Unternehmen müssen heute auf Daten aus historisch gewachsenen, häufig heterogenen Systemlandschaften zugreifen – von aktuellen Cloud-Datenplattformen bis hin zu langlebigen Mainframes. Klassische Integrationsverfahren wie ETL (Extract, Transform, Load) oder ELT (Extract, Load, Transform) erzeugen in solchen Umgebungen oft eine Vielzahl von Datenkopien, aufwendige Pipelines und erheblichen Betriebsaufwand. Die Denodo Plattform verfolgt einen alternativen Ansatz: Sie virtualisiert bestehende Datenquellen, kombiniert diese logisch und stellt sie bedarfsgerecht bereit, ohne sie physisch zu replizieren. Leendert Kollmer, Senior Sales Engineer, beschreibt dieses Paradigma als das Prinzip, nur das Glas Wasser zu liefern, nicht den ganzen Ozean.
Ein zentrales Strukturmuster fasst die Denodo-Arbeitsweise zusammen: Connect, Combine, Consume. Zuerst werden die Systeme angebunden, anschließend fachlich sinnvoll kombiniert und schließlich über standardisierte Schnittstellen bereitgestellt. Dieses Drei-Phasen-Modell bildet die Grundlage der technischen Architektur der Plattform und spiegelt sich in allen Schichten der Implementierung wider.
Von Connect zu Combine: Architektur und Anbindung
Um unterschiedliche Quellen einzubinden, nutzt Denodo ausschließlich Software-APIs und Protokolle. Die Plattform deckt damit sowohl moderne Cloud-Systeme als auch traditionelle On-Premises-Technologien ab. Erst durch diese breite Konnektivität entsteht die Basis für die logische Integration. Um eine größtmögliche Flexibilität bei der Anbindung der Datenquellen zu bieten, stellt das Unternehmen über 200 Konnektoren zur Verfügung.
Beispiele für die Konnektivität sind unter anderem:
- relationale Datenbanken wie Oracle, PostgreSQL oder SQL Server
- NoSQL- und hierarchische Systeme wie MongoDB oder JSON/XML-basierte Quellen
- Data-Warehouse- und Data-Lake-Umgebungen
- Mainframes
- Protokolle wie JDBC, REST, OData, GraphQL, MDX oder Kafka
- Authentifizierungsverfahren wie OAuth2 oder Kerberos.
Diese Vielfalt ist laut Kollmer notwendig, weil viele Unternehmen gleichzeitig moderne SaaS-Plattformen, klassische ERP-Systeme wie SAP und veraltete, aber weiterhin stabile Mainframe-Anwendungen betreiben.
Darauf aufbauend folgt die Phase Combine, in der die Virtualisierungsschicht (Virtual DataPort Server) Daten strukturiert, optimiert und integriert. Der Server übernimmt Query-Optimierungen und verlagert Transformationen soweit möglich in die Quellsysteme. Denodo betont, dass dieser Push-down die performanteste Strategie darstellt, da die Datenbank oder Datenplattform die Operationen nativ ausführt
Modellierung: Vom technischen Objekt zum Datenprodukt
Bevor Daten konsumiert werden können, durchlaufen sie eine klar definierte Modellierungslogik. Diese Struktur hilft IT-Teams, konsistente Datenprodukte zu entwickeln und die Wiederverwendbarkeit zu erhöhen.
Die Modellierung umfasst drei Ebenen:
- Base Views dienen als unmittelbare Abbildung der Quellsystemtabellen/-strukturen, einschließlich Feldstrukturen, Datentypen und Metadaten.
- Interface Views definieren eine logische Zielstruktur und stellen migrationsfähige Verträge dar.
- Business Views, in denen fachliche Entitäten entstehen – bereinigt, verknüpft oder aggregiert.
Alle Modelle beruhen auf deklarativen Metadaten ohne Seiteneffekte und können entweder über eine Low-Code-Oberfläche oder über VQL gepflegt werden. Interface Views spielen insbesondere bei Migrationen eine Rolle: Wird ein Quellsystem ersetzt, kann die Implementierung ausgetauscht werden, ohne dass darauf aufbauende Sichten verändert werden müssen.
Consume: Bereitstellung über standardisierte Schnittstellen
Sind Daten verbunden und modelliert, gelangen sie in die dritte Phase des Connect–Combine–Consume-Ansatzes. Denodo stellt sie über verschiedene technische Zugriffspfade bereit, die sich nahtlos in bestehende Systemlandschaften einfügen.
Typische Konsumwege sind:
- JDBC oder ODBC, bei denen sich die Plattform wie eine relationale Datenbank verhält
- REST und OData, wodurch Denodo als Webservice fungiert
- Kafka für Streaming-Szenarien
- Arrow Flight SQL für große, hoch-performante Datenabrufe
- direkte Anbindungen an BI-Werkzeuge wie Power BI oder Tableau
Unternehmen nutzen die Plattform damit nicht nur für klassische BI-Analysen, sondern zunehmend auch als Datenquelle für operative Anwendungen oder KI-Applikationen. Für Letztere bietet Denodo ein AI-SDK, das mehrere REST-Endpunkte vorab implementiert und so die Entwicklung beschleunigt.
Performance: Push-down, Caching und Materialisierung
Die Performance eines virtuellen Datenzugriffs hängt stark von der Leistungsfähigkeit der zugrunde liegenden Quellsysteme ab. Der Anbieter begegnet diesem Umstand mit mehreren Mechanismen. Dazu gehören unter anderem:
- die konsequente Delegation von Joins, Filtern und Aggregationen in die Quellsysteme (Push-down).
- temporäre oder geplante Materialisierung, um häufig genutzte Reports vorzubereiten.
- Caching für wiederkehrende Lastmuster wie das Abrufen derselben Datei in großer Anzahl.
Diese Optimierungen erfolgen transparent für die konsumierende Anwendung: Sie sieht nicht, ob Daten materialisiert oder live abgefragt wurden.
Security und Governance: Zentrale Definition statt Quellabhängigkeit
Ein wesentlicher Vorteil der Virtualisierung besteht darin, Sicherheits- und Governance-Regeln auf einer zentralen Ebene zu definieren – unabhängig davon, ob Quellsysteme entsprechende Funktionen bereitstellen. Dies ist insbesondere bei unstrukturierten oder wenig regulierten Datenquellen relevant.
Zu den sicherheitsrelevanten Funktionen gehören:
- ein rollenbasiertes Berechtigungsmodell auf Datenbank-, View- und Feldebene.
- dynamische Maskierung, Hashing und On-the-Fly-Entschlüsselung.
- Tag-basierte Policies, bei denen zum Beispiel PII-Daten automatisch Maskierungen auslösen.
- Single Sign-On über AD/LDAP oder SAML.
- Pass-Through-Authentifizierung für Systeme mit bereits etabliertem Rechtemodell.
- detaillierte Audit-Funktionen zur Erkennung unautorisierter Zugriffe.
Insbesondere in Banken und öffentlichen Einrichtungen werden diese Mechanismen genutzt, um Zugriffe lückenlos nachzuverfolgen und Sicherheitsrichtlinien zentral durchzusetzen
Data Marketplace: Metadaten, Lineage und Self-Service
Der Data Marketplace (früher Data Catalog) dient als zentrale Benutzeroberfläche für Metadaten und Self-Service-Recherche. Fachanwender sollen Datenquellen finden, verstehen und prüfen können, ohne die technische Modellierung kennen zu müssen.
Zu den Funktionen gehören beispielsweise:
- eine Suchoberfläche mit Filter- und Vorschauoptionen.
- Data-Lineage-Darstellungen vom Quellsystem über Interface- bis zu Business-Sichten.
- Beschreibungen, Verantwortlichkeiten und Aktualitätsangaben.
- einfache Data-Preparation-Schritte wie Filter oder Transformationen.
- Exportmöglichkeiten in BI-Tools.
Die Lineage-Ansicht ist besonders wichtig, um zu erkennen, wie Daten aufbereitet wurden und ob sie für bestimmte Entscheidungen geeignet sind.
Betrieb und Deployment: Flexibel von On-Prem bis Managed Service
Da die Plattform vollständig Java-basiert ist, lässt sie sich in unterschiedlichsten Umgebungen betreiben. Viele Unternehmen nutzen hybride Betriebsmodelle oder testen neue Umgebungen parallel.
Dazu stehen folgende Deployment-Optionen bereit:
- Windows oder Linux
- klassische virtuelle Maschinen
- Docker-Container oder Kubernetes-Cluster
- Public-Cloud-Infrastrukturen
- der Managed Service Denodo Agora.
Die Verwaltung mehrerer Umgebungen erfolgt über den Solution Manager. Der bisherige FAT Client wird schrittweise vom webbasierten Design Studio abgelöst; beide Clients können parallel genutzt werden, bis die nächste Major-Version erscheint.
Herausforderungen und Betriebsrealität
In der Praxis entstehen typische Probleme vor allem beim initialen Zugriff auf Quellsysteme, etwa durch Firewalls oder fehlende Accounts. Auch die korrekte Modellierung in mehreren Layern und die Definition eines tragfähigen Rollenmodells gehören zu den häufigsten Stolpersteinen.
Denodo bietet hierfür Advisory-Sessions an, die Kunden beim ersten Use Case begleiten. Die reine Installation der Software ist laut Leendert Kollmer in unter einer Stunde möglich; deutlich aufwendiger sind dagegen Metadatenpflege, Policy-Definitionen und Rollenmodelle – abhängig von der Qualität der Quellsysteme.
Wettbewerbsumfeld: Positionierung von Denodo im Markt für Datenvirtualisierung
Der Markt für Datenvirtualisierung hat sich in den vergangenen Jahren stark diversifiziert. Neben klassischen Enterprise-Anbietern, die vollständige Datenintegrationsplattformen mit Virtualisierungsfunktionen bereitstellen, sind leistungsstarke Query-Engines sowie Cloud-native Federation-Mechanismen entstanden, die funktional angrenzend positioniert sind. Im direkten Wettbewerbsumfeld von Denodo lassen sich drei Gruppen von Anbietern unterscheiden, die mit unterschiedlichen technologischen Schwerpunkten operieren.
Die erste Gruppe umfasst etablierte Enterprise-Hersteller wie Informatica, IBM, SAP oder TIBCO. Diese Anbieter integrieren Datenvirtualisierung als Teil eines größeren Portfolios für Datenintegration, Datenqualität oder Governance. Unternehmen setzen diese Lösungen häufig ein, wenn bereits ein hoher Anteil der Enterprise-Architektur aus einem dieser Ökosysteme stammt oder wenn tief verzahnte Governance-Konzepte gefragt sind. Die Systeme zeichnen sich durch eine breite Funktionsabdeckung aus, adressieren aber oft nicht die gesamte Vielfalt moderner hybrider Datenlandschaften, insbesondere wenn gleichzeitig Cloud-Plattformen, Data Lakes oder Legacy-Technologien wie Mainframes eine Rolle spielen.
Cloud- und Lakehouse-orientierte Anbieter wie Dremio oder Starburst (Trino-basiert) bilden die zweite Gruppe. Diese Lösungen fokussieren sich technisch auf hoch-performante SQL-Abfragen über große, häufig unstrukturierte Datenbestände in Data Lakes oder Cloud-Speichern. Sie bringen leistungsfähige Query-Engines mit, die komplexe Föderationen und verteilte Ausführungspläne über große Datenmengen ermöglichen. Ihr Schwerpunkt liegt jedoch weniger auf einer umfassenden Virtualisierungsschicht mit Modellierung, Governance, Sicherheitsrichtlinien, zentralen Policies oder granularem Metadatenmanagement – Funktionen, die in Enterprise-Umgebungen oft entscheidend sind.
Die dritte Gruppe besteht aus spezifischen Federation- oder Virtualisierungsansätzen von Cloud-Providern selbst, etwa AWS Athena/Glue-Federated Query, Snowflake-Federation oder Komponenten in Microsoft-Plattformen. Diese Lösungen sind besonders attraktiv, wenn sich die wesentlichen Datenquellen bereits innerhalb einer einzigen Cloud befinden und Unternehmen eine möglichst enge Integration in ihren Cloud-Stack bevorzugen. Sie erzielen gute Ergebnisse in Cloud-zentrierten Landschaften, bieten aber meist nicht die breite Konnektorabdeckung und Systemunabhängigkeit, die für hybride oder historisch gewachsene Architekturen erforderlich ist.
Durch diese Marktsituation positioniert sich Denodo in einem Bereich, der nach wie vor nur von wenigen Anbietern vollständig abgedeckt wird: Virtualisierung über sehr heterogene Landschaften hinweg, einschließlich Legacy-Systemen, Cloud-Plattformen, hierarchischen Datenformaten, Data-Warehouse-Technologien und Mainframes. Hinzu kommen Governance-Mechanismen, Sicherheitsfunktionen und eine klare Modellierungssystematik, die über reine föderierte Abfrage-Engines hinausgeht. Aus diesem Grund eignet sich die Denodo-Plattform für Unternehmen typischerweise dann, wenn Daten sehr unterschiedlich verteilt sind, regulatorische Anforderungen berücksichtigt werden müssen oder Migrationen schrittweise erfolgen sollen, ohne dass Quellsysteme direkt verändert werden müssen.
In Kürze: Datenvirtualisierung mit Denodo
Die Denodo Plattform verbindet Daten aus heterogenen Systemlandschaften, ohne sie physisch zusammenzuführen. Mit dem klar strukturierten Ansatz „Connect–Combine–Consume“, einer leistungsfähigen Virtualisierungsschicht, umfangreichen Sicherheitsmechanismen und flexiblen Betriebsmodellen bietet sie Unternehmen eine konsistente Datenbasis für Analytik, operative Prozesse und KI-Anwendungen.
Für IT-Entscheider ist die Plattform besonders dort relevant, wo Legacy-Systeme, Cloud-Infrastrukturen und Data-Lake-Architekturen gleichzeitig betrieben werden und ein einheitlicher Zugriff ohne Replikationsaufwand erforderlich ist.