In allen Unternehmen ist ein Wettlauf um mehr Datenorientierung im Gange. Warum? Weil Unternehmen, die Daten eher zur Entscheidungsfindung nutzen, bessere Ergebnisse erzielen. Doch die heutigen Datenmanagement-Technologien haben noch einen langen Weg vor sich, um Datensilos aufzubrechen und Daten für alle zugänglich zu machen. Ein neues Ökosystem von Technologien, das auf Datenvirtualisierung basiert, kann den Datenzugriff und die Nutzbarkeit verbessern.
Damit ein Analyst Zugriff auf die benötigten Daten erhält, muss er sich normalerweise an einen vielbeschäftigten Dateningenieur wenden, der über SQL-, Python- oder Java-Kenntnisse verfügt, um eine Datenbankabfrage zu erstellen und einen Datensatz abzurufen. Der Ingenieur muss auch mit den relevanten Metadaten und dem Datenmodell vertraut sein, um zu wissen, welche Daten abgefragt werden müssen. Wenn verschiedene Abteilungen ihre eigenen, einzigartigen Datenmodelle verwenden, muss zusätzliche Komplexität bewältigt werden. Wenn die Daten transformiert und mit einer anderen Datentabelle zusammengeführt werden müssen, sind mehr technische Fähigkeiten erforderlich, um eine Pipeline zu erstellen. Sobald ETL-Pipelines erstellt sind, ist ihre Wartung ebenfalls eine Herausforderung, da sie in der Regel sehr starr sind. Wenn Änderungen erforderlich sind, müssen sie neu entwickelt und getestet werden, was nicht nur Änderungen erschwert, sondern auch bedeutet, dass es schwierig ist, eine einzelne Pipeline für mehr als einen Zweck zu verwenden.
Angesichts der rasant steigenden Nachfrage nach Daten wird dieses Modell dem wachsenden Druck nicht standhalten. Unternehmen können nicht endlos neue Ingenieure zu ihren Datentechnikteams hinzufügen. Nicht nur, weil dies zu teuer ist, sondern auch, weil es nicht genug davon auf dem Markt gibt.
Diese Herausforderungen führen unterm Strich dazu, dass Unternehmen ihre Geschäftsentscheidungen nur langsam treffen und dadurch im Wettbewerb benachteiligt sind.
Datenvirtualisierungsdienste bilden die Grundlage für einen neuen Ansatz für den Datenzugriff. Ein Datenvisualisierungstool bietet Middleware, die eine virtuelle Darstellung der Daten erstellt, um sie für die Analyse verfügbar zu machen. Im Gegensatz zu Ansätzen mit ETL, bei denen Daten dorthin verschoben werden, wo sie analysiert werden, bleiben virtualisierte Daten an Ort und Stelle. Daten müssen nicht von ihrem Quellsystem in einen Datensee und dann zur Analyse in ein anderes System verschoben werden, wie dies häufig der Fall ist. Während die eigentlichen Daten an Ort und Stelle bleiben, werden die Metadaten getrennt und in einem zentralen Repository konsolidiert.
Mit einer Datenvirtualisierungsstrategie werden Änderungen an Datenabfragen durch die Trennung von Logik und zugrundeliegenden Daten wesentlich einfacher. Wenn Metadaten in die Datenquelle eingebettet sind und ETL-Pipelines geändert werden müssen, müssen Ingenieure nicht nur das Datenmodell verstehen, sondern auch, wie die Verbindungen eingerichtet sind und ob Abhängigkeiten berücksichtigt werden müssen. Das Hinzufügen von Datenquellen ist bei virtualisierten Daten viel einfacher. Wenn Daten virtualisiert sind, genügt es, einfach auf die Metadaten zu verweisen und die Abfrage zu optimieren. Mit größerer Flexibilität können Datenprodukte oder Datenbestände iterativ weiterentwickelt werden, um einen viel höheren Wert für Datenkonsumenten zu generieren.
Wenn wir Metadaten von den Daten entkoppeln, die sie beschreiben, und sie zentralisieren, werden zahlreiche neue Möglichkeiten möglich. Die Datenföderation ist eine davon. Dabei werden Metadaten aus mehreren Quellen so organisiert, dass die Daten über ein einheitliches Datenmodell zugänglich sind. Durch die Konsolidierung von Metadaten erleichtert ein universelles Datenmodell das Verständnis der zugrunde liegenden Daten, die über unterschiedliche Datenbanken verteilt sind, und vereinfacht den Zugriff darauf erheblich.
Eine konsolidierte Metadatenebene ermöglicht es Analysten außerdem, mit einer einzigen Abfrage Daten aus mehreren Datenbanken gleichzeitig abzurufen, unabhängig davon, wo die Daten gespeichert sind, ob in der Cloud oder vor Ort. Die Möglichkeit, auf mehrere Datenbanken zuzugreifen und Daten in Echtzeit zu aggregieren und zu transformieren, eröffnet eine ganz neue Welt an Möglichkeiten.
Mit einem einheitlichen Datenmodell, das über die Datenföderation verfügbar ist, kann eine universelle Semantikschicht darüber aufgebaut werden, um die Daten selbst zu nutzen. Wenn Sie ein einzelnes Datenmodell übernehmen, das mehrere Datenspeicher darstellt und Ihre Datenbestände in einem einzigen Datenkatalog auflistet, ist es viel einfacher, Daten zu untersuchen, um die benötigten Fakten zu ermitteln. Dies ermöglicht mehr Innovation, da Analysten ohne die verbesserte Sichtbarkeit der universellen Semantik nicht in der Lage wären, neue Daten einfach zu durchsuchen, mit ihnen zu experimentieren oder sie zu entdecken. Für eine bessere Benutzerfreundlichkeit kann eine universelle Virtualisierungsschicht zusätzliche Ressourcen enthalten, z. B. Geschäftsglossare, die Geschäftsterminologie und -metriken standardisieren. Dies macht Daten für Geschäftsbenutzer noch zugänglicher, die Datenbestände finden können, ohne viel darüber zu wissen, wie Daten organisiert oder wo sie gespeichert sind.
Unter Datenverwaltung versteht man alles, was Sie tun, um sicherzustellen, dass Daten sicher, vertraulich, genau, verfügbar und nutzbar sind. Neue moderne Datentechnologien verbessern die Datenverwaltung hinsichtlich all dieser Ziele.
Die virtualisierte Ebene ermöglicht die Durchsetzung einer zentralen Datenverwaltung und -sicherheit über ein einziges Gateway
Indem die Daten an einem Ort aufbewahrt werden, wo sie besser kontrolliert werden können, kann die Datenvirtualisierung den Zugriff über mehrere Datenquellen hinweg verwalten. Mit konsolidierten Metadaten können feinkörnige Zugriffskontrollen verwendet werden, um Daten auf Spaltenebene zu maskieren und so Identitäten zu verschleiern.
Durch die Speicherung der Daten an einem Ort können Ihre Daten genauer sein. Sie müssen keine Datenbanken synchronisieren oder Daten verschieben, wodurch potenzielle Fehler während des Vorgangs reduziert werden. Wenn keine doppelten Kopien von Daten im Unternehmen verstreut sind, werden die Daten im Quellsystem zur einzigen Quelle der Wahrheit, wodurch widersprüchliche Daten aufgrund veralteter Datensätze reduziert werden.
Durch Datenvirtualisierung sind Daten in Echtzeit verfügbar. Darüber hinaus ermöglicht sie eine föderierte Datenverwaltung, die Geschäftsbereichen mehr Autonomie bei der Autorisierung des Zugriffs für diejenigen bietet, die ihn benötigen.
Die durch die Datenvirtualisierung ermöglichte semantische Ebene bietet Geschäftsbenutzern die Möglichkeit, über alle Geschäftsdomänen hinweg über gemeinsame Definitionen auf Daten zuzugreifen und sie so besser nutzbar zu machen.
Da die Datenvirtualisierungsschicht als einziges Gateway zu den Daten fungiert, ist es viel einfacher zu kontrollieren und zu überwachen, wer auf welche Datensätze Zugriff hat. Mit dieser Übersicht kann die Autorität auf Datendomänen verteilt werden, während die IT weiterhin die Governance auf hoher Ebene behält. Föderierte Daten-Governance und universelle Semantik ermöglichen Data-Mesh-Architekturen, die domänenorientiert und auf Datenprodukte ausgerichtet sind. Lesen Sie hier mehr über Data Mesh
Data Fabrics basieren ebenfalls auf Datenvirtualisierung, Datenföderation und universellen Semantikebenen. Sie unterscheiden sich von einem Data Mesh, da sie keine föderierte Datenverwaltung in den Ansatz einbeziehen. In diesem Modell behält die IT die Verantwortung für die Daten der Organisation und die durch Wissensgraphen ermöglichte Datenermittlung.
Datenvirtualisierung und das wachsende Ökosystem der sie umgebenden Technologien stellen eine transformative Innovation dar, da sie auf den Stärken der Plattform aufbauen, auf der sie laufen – der Cloud. Data Lakes und ETL-Technologien wurden für ein On-Premise-Ökosystem entwickelt, ohne die Möglichkeiten der Cloud zu berücksichtigen. Da Daten in die Cloud verlagert wurden, sollten neue Ansätze in Betracht gezogen werden, die durch diese neue Umgebung ermöglicht werden. Die ständige Vernetzung und sofortige Skalierbarkeit der Cloud sind Funktionen, die bei der Entwicklung einer modernen Datenverwaltungsstrategie berücksichtigt werden müssen.
Warum auf Batch-Prozesse warten, wenn Sie Daten in Echtzeit abrufen können? Warum nicht eine VM starten, um Ihre Daten zu speichern, während Sie sie analysieren? Warum nicht alle Ihre Daten miteinander verbinden und von einem einzigen Ort aus darauf zugreifen?
Die Anpassung alter Vorgehensweisen an neue Plattformen ist ein gängiger Trend bei Technologietransformationen und Plattformeinführung. Als die Plattform für mobile Geräte aufkam, modifizierten Unternehmen ihre Unternehmensanwendungen und Webanwendungen, damit sie auf dem mobilen Betriebssystem laufen. Das funktionierte zwar, war aber nicht für ein mobiles Gerät mit begrenzter Leistung und Bandbreite konzipiert. Schnell wurden Anwendungen, die im nativen Betriebssystem erstellt wurden und die Einschränkungen und Möglichkeiten der Plattform berücksichtigten, zum Standard. Dasselbe gilt für die Verlagerung von Anwendungen in die Cloud. Die erste Iteration bestand darin, ganze monolithische Anwendungen in einen Container zu verschieben und dies als Cloud-nativ zu bezeichnen. Tatsächlich sind Anwendungen nur dann wirklich Cloud-nativ, wenn sie so konzipiert und erstellt wurden, dass sie in mehreren verschiedenen Containern laufen und die ständige Vernetzung und Skalierbarkeit der Cloud nutzen. Jetzt ist das Datenmanagement an der Reihe, Cloud-nativ zu werden, und Datenvirtualisierung ist die grundlegende Technologie.
Datenvirtualisierung ist eine leistungsstarke Technologie und nur die Grundlage einer unendlich komplexeren modernen Datenstrategie.