August 19, 2024
Datenvirtualisierung einfach erklärt
Viele Unternehmen sind sich dem Wert ihrer Daten zwar bewusst, dennoch stellt sich ihnen die Frage, wie sie an diesen Wert herankommen sollen. Die Daten selbst werden in ganz unterschiedlichen Systemen verwaltet und genutzt, sodass es seine einheitliche Datensicht bräuchte, um diese Daten miteinander zu vernetzen und die gewünschten werthaltigen Erkenntnisse zu gewinnen.

Viele Unternehmen sind sich dem Wert ihrer Daten zwar bewusst, dennoch stellt sich ihnen die Frage, wie sie an diesen Wert herankommen sollen. Die Daten selbst werden in ganz unterschiedlichen Systemen verwaltet und genutzt, sodass es seine einheitliche Datensicht bräuchte, um diese Daten miteinander zu vernetzen und die gewünschten werthaltigen Erkenntnisse zu gewinnen.
Diese Anforderung ist nicht neu – bereits seit einigen Jahrzehnten wird an Lösungen gearbeitet, die dezentral gehaltene Daten integrieren und Fachpersonal an einem einzigen Zugangspunkt zur Verfügung stellen. Die Art und Weise, wie diese Lösungen umgesetzt werden, hat sich jedoch mit den Anforderungen moderner Datenumgebungen grundlegend verändert.
In diesem Blogartikel geben wir daher einen Überblick über die Unterschiede zwischen physischer und virtueller Datenintegration und erklären, wie dezentrale Datenarchitekturen wie Data Mesh und Data Fabric mit der Datenvirtualisierung zusammenhängen.
Die Datenintegration
Als Datenintegration wird der Prozess bezeichnet, bei dem Daten aus unterschiedlichen Systemen innerhalb einer Organisation in ein und derselben Datensicht vereinheitlicht werden. Das kann prinzipiell auf zwei Arten stattfinden: entweder physisch oder virtuell.
Bei der physischen Datenintegration werden die Daten mittels ETL (Extract – Transform – Load) zunächst aus den einzelnen Datenhaltungssystemen extrahiert, anschließend transformiert, um in die einheitliche Struktur überführt zu werden und schließlich in einen neuen Speicherort – meist ein Data Warehouse – geladen zu werden. Diese Daten werden entweder komplett vom ursprünglichen Speicherort in das Data Warehouse überführt oder kopiert, wobei Letzteres deutlich häufiger der Fall ist. Aufgrund dessen führt die traditionelle Datenintegration in den meisten Fällen zu redundanten Daten innerhalb einer Organisation, was für sich genommen ganz unterschiedliche Implikationen hat.
So oder so müssen also bei einer physischen Datenintegration Daten tatsächlich bewegt werden. Gerade bei Daten, die generell einer gewissen Dynamik unterliegen, ist das ein Problem, da keine Echtzeitsicht auf die integrierten Daten gewährleistet werden kann. Es braucht immer wieder einen erneuten ETL-Prozess, um eine aktuelle Datensicht zu erhalten, was zu komplexen und auch teuren Datenprozessen führen kann.
Bei der virtuellen Datenintegration wird lediglich eine virtuelle Ebene über alle zu integrierenden Datenquellen gelegt und die darin enthaltenen strukturierten, wie auch unstrukturierten Daten durch diese virtuelle Schicht zugänglich gemacht – und das in Echtzeit und völlig unabhängig davon, wo die Daten gespeichert sind und ohne die Daten selbst zu replizieren. Lediglich die Metadaten sowie Data Governance-Regeln werden in dieser Ebene repliziert, denn sie ermöglichen als Bindeglied zu den Datenquellen später die Abfragen durch die Datenkonsumenten – egal, ob das Applikationen sind, Prozesse, Data Scientists oder Business User. Das vereinfacht die Datenintegration ungemein und bietet insbesondere in dynamischen Kontexten einen erheblichen Vorteil gegenüber der physischen Datenintegration.
Die Datenvirtualisierung ist eine Technik der virtuellen Datenintegration und unterstützt als solche dezentrale Datenarchitekturen wie Data Fabric oder Data Mesh, wie im nächsten Abschnitt beschrieben.
Der Zusammenhang zwischen Datenvirtualisierung und dezentralen Datenarchitekturen
Eine Datenarchitektur kümmert sich im Prinzip um die Organisation und Verwaltung von Daten und Formaten und regelt den Datenfluss zwischen den einzelnen Systemen. Dezentrale Datenarchitekturen demokratisieren den Zugang zu Daten und vereinfachen damit beispielsweise die Nutzung von Analytics-Tools für alle Nutzer, unabhängig ihrer Fachexpertise. Gleichzeitig stellen dezentrale Datenarchitekturen flexiblere und skalierbarere Lösungen für Organisationen mit komplexeren Datenstrukturen und grösseren Mengen an Daten dar.
Die Datenvirtualisierung ermöglicht diese dezentralen Datenarchitekturen durch den Zugang zu Daten jeglicher Quelle in Echtzeit. Darüber hinaus bietet die Datenvirtualisierung den für die Nutzung dieser Architekturen notwendigen Rahmen in Bezug auf Data Governance, Interoperabilität der Systeme und Prozesse sowie in Bezug auf die Sicherheit.
Data Fabric
Data Fabric ist ein Konzept, das mehrere Komponenten miteinander vereint. Es basiert auf dem Prinzip von Datenvirtualisierung und realisiert mithilfe von unterschiedlichen Tools, Systemen und Prozessen – darunter auch ETL, Data Warehouses und Master Data Management (MDM) – eine organisationsweite dezentrale Datenarchitektur. Data Fabric bietet Data Scientists oder Data Analysts einen zentralen Zugang zu Daten, was ihre Nutzung und Weiterverarbeitung deutlich erleichtert.
Data Mesh
Ein Data Mesh ist eine dezentrale Datenarchitektur, die einem domänenbasierten Prinzip folgt. Einzelnen Business Units wird hierbei Ownership über ihre spezifischen Daten übertragen – die Idee ist, dass ihre Daten wie eigene Produkte behandelt und an die anderen Organisationseinheiten verteilt werden. Die Geschäftsbereiche sind daher in der Verantwortung, Antworten in Bezug auf «ihre» Daten zu liefern und die Qualität dieser Daten sicherzustellen. Damit soll das «Bottleneck» des für alle verantwortlichen Data Teams in anderen Szenarien umgangen werden.
Mehrwerte durch Datenvirtualisierung
Gerade im Vergleich zur physischen Datenintegration ergeben sich durch die Datenvirtualisierung erhebliche Vorteile für Business und IT:
- Höhere Effizienz und geringere Kosten. Anstatt Daten jedes Mal neu durch ETL von der Datenquelle in ein Data Warehouse zu überführen, erlaubt Datenvirtualisierung eine Echtzeit-Sicht auf die relevanten Geschäftsdaten. Das spart Zeit und senkt die Kosten der Transformationsprozesse.
- Skalierbarkeit. Grosse Datenmengen stellen weder für virtuelle Datenintegration noch für ETL-Prozesse Probleme dar. Allerdings haben ETL-Prozesse leistungstechnisch Schwierigkeiten mit einer hohen Datengeschwindigkeit, was gerade in modernen (Big) Data-Szenarien schnell zu einem Problem werden kann.
- Agilität. Auch der Austausch verschiedener Datenquellen ist bei einer virtuellen Datenintegration problemlos möglich. Existierende Integrationsprozesse bleiben von Änderungen der Datenquellen, Formate oder Integrationsszenarien unberührt.
- Automation. Datenvirtualisierung bietet enormes Potenzial für die Automatisierung unterschiedlichster Datenprozesse und unterstützt Unternehmen beispielsweise dabei, BI- und Analytics-Massnahmen äusserst wirtschaftlich umzusetzen.
Noch Fragen?
Auch wenn das Potenzial von Datenvirtualisierung für diverse Geschäftszwecke gross ist, sind die tatsächlichen Mehrwerte für ein Unternehmen sehr individuell. Vereinbaren Sie ein unverbindliches Beratungsgespräch mit unseren Datenexperten und erfahren Sie, welche Möglichkeiten Ihre Datenorganisation Ihnen bietet!
Strategic Advisory & Effective Execution
We continuously innovate to transform data into competitive advantage via expert advisory, effective project execution, and precision engineering.
Unser Blog für Experten.
Wir nutzen unsere Expertise in verschiedenen Disziplinen, um Daten in nachhaltige Wettbewerbsvorteile unsere Kunden zu verwandeln und unser Wissen zu teilen.
Weitere News
Alle Neugikeiten zu und über Advellence
Haben Sie
Fragen?
Vereinbaren Sie gleich einen unverbindlichen und kostenfreien Beratungstermin!






