Optimierung der Datenverwaltung mit Data-Mesh- und Data-Fabric-Strategien

Listen to this blog

Disclaimer

In jeder Organisation gespeicherte Daten sind von immensem Wert und das daraus gewonnene Wissen kann ein Unternehmen von seinen Mitbewerbern unterscheiden. Es ist ein strategischer Fehler, keine solide Strategie zum Aufbrechen von Datensilos zu haben.

Während traditionelle Methoden wie ETL-Pipelines und Data Lakes weit verbreitet sind, gewinnen innovativere, verteilte Ansätze wie Data Mesh und Data Fabrics an Bedeutung. Das Endziel dieser Strategien besteht darin, den Datenzugriff zu demokratisieren, ein Self-Service-Modell zu fördern und eine stärker kollaborative, datengesteuerte Kultur zu fördern. Unternehmen müssen flexibel bleiben und sich an diese sich entwickelnden Konzepte und Technologien anpassen, um ihren Wettbewerbsvorteil zu behalten.

Enthüllung der Entwicklung von Data Mesh und Data Fabrics

Ein Data Mesh ist eine Datenarchitektur, die den Datenaustausch innerhalb einer Organisation erleichtern soll. Ein Data Mesh ist technologieunabhängig und wird durch vier Grundsätze definiert.

Domänenbesitz

Die Geschäftsfunktion, die die Daten erfasst, hat die Autorität darüber.

Datenprodukt

Daten werden in Datenprodukte gebündelt, was die gemeinsame Nutzung im gesamten Unternehmen vereinfacht.

Selbstbedienung

Daten und Datenprodukte müssen für Laien zur unabhängigen Analyse zugänglich sein, ohne dass Unterstützung durch die IT oder die freigegebene Domäne erforderlich ist.

Föderierte Governance

Die Verantwortung für die Verwaltung und Sicherung der Daten wird von der Domäne und den zentralen IT-Behörden gemeinsam getragen.

Weitere Informationen zu Data Meshes finden Sie in unserem Blogbeitrag zum Thema „Was ist ein Data Mesh?“ und „Warum brauchen Sie eines?“.

Gartner definiert Data Fabric als ein Designkonzept, das als Integrationsschicht für Daten und Verbindungsverfahren dient. Es nutzt kontinuierliche Analysen vorhandener auffindbarer und abgeleiteter Metadatenbestände, um das Design, die Bereitstellung und die Nutzung integrierter und wiederverwendbarer Daten in allen Umgebungen zu unterstützen. Tatsächlich haben das Konzept von Data Mesh und Data Fabrics ein gemeinsames Ziel: die Herausforderung von Datensilos anzugehen und den Datenzugriff innerhalb von Organisationen zu verbessern.

Strategien für verteilte Daten ändern

Seit der Einführung des Data Mesh-Konzepts hat sich die Strategie weiterentwickelt. Anfangs tendierte man dazu, Domänen die Befugnis zu erteilen, beliebige Tools zu verwenden, um gemeinsam nutzbare Datenprodukte zu erstellen. Dieses Konzept wurde weiterentwickelt, als Bedenken hinsichtlich Standardisierung und Interoperabilität aufkamen. Das Konzept der Datensilos zu verstärken und nicht zu definieren, wie Datenprodukte interoperieren, ist möglicherweise nicht der beste Ansatz, selbst wenn die Domänenleiter die Daten am besten verstehen. Heutige Data Mesh-Implementierungen legen den Schwerpunkt auf standardisierte Prozesse und Plattformen und gewährleisten so eine einfache Erstellung, gemeinsame Nutzung und Integration von Datenprodukten.

Gleichzeitig sind auch Data Fabric-Architekturen entstanden, die sich auf Technologie, Automatisierung und zentrale Governance-Kontrolle konzentrieren. Data Mesh und Data Fabric konkurrieren zwar nicht miteinander, beeinflussen sich jedoch gegenseitig und erfordern Anpassungen, um den Marktanforderungen gerecht zu werden. Moderne Datenpraktiker untersuchen, wie die Data Fabric-Architektur Data Mesh-Konzepte wie föderierte Governance, Datenprodukte und Domänenbesitz unterstützen kann. Diese Schnittstelle spiegelt eine fortlaufende Entwicklung der Datenverwaltungsstrategien wider.

Data Mesh im Vergleich zu Data Fabric

Die Datenintegration ist der Schlüssel zu beiden Ansätzen, Data Mesh und Data Fabric, wobei sich die Datendemokratisierung durch Virtualisierung als die bevorzugte Architektur herauskristallisiert. Durch Virtualisierung bleiben die Daten in ihren Quelldomänen und werden Datensätze virtualisiert, um eine Datendemokratisierung zu ermöglichen. Die Konzepte von Data Fabric und Data Mesh unterscheiden sich jedoch in Bezug auf Governance, Automatisierung und Nutzung/Erkennung.

Automatisierung

Data Fabric nutzt Automatisierung, um Selbstbedienung zu ermöglichen, während Data Mesh auf Fachexperten angewiesen ist, die ihr Fachwissen in Datenprodukte einbetten.

Führung

Data Fabric basiert auf einer zentralen Governance-Kontrolle, während Data Mesh einen föderierten Ansatz verfolgt, bei dem die Domänen für die Verwaltung ihrer eigenen Daten verantwortlich sind.

Verbrauch

Data Fabric konsolidiert Datenbestände in Datenkatalogen oder setzt Wissensgraphen ein, um Datenbestände im gesamten Unternehmen abzubilden. Ein Data Mesh-Ansatz stellt Daten über domänenerstellte Datenprodukte bereit, die normalerweise über einen Datenproduktmarktplatz veröffentlicht werden.

Mit der Weiterentwicklung dieser Data-Mesh-Konzepte und der Data-Fabric-Technologie haben sie begonnen, sich anzunähern. Praktiker experimentieren mit verschiedenen Ebenen der Kontrolle, Datenkonsolidierung und Automatisierung. KI spielt eine wichtige Rolle bei der Ermöglichung dieser Annäherung.

Mit der Entwicklung des Marktes geht es weniger um Automatisierung vs. föderierte Mitarbeiter vs. zentrale Governance oder Datenbestände vs. Datenprodukte, sondern vielmehr um Strategien, die alle besten Funktionen integrieren und das richtige Tool für die richtige Aufgabe einsetzen. Datenmanagementplattformen und Analytics-Gateways unterstützen diese integrierten Ansätze.

Automatisierung – Menschen & Maschinen

Bei modernen Data-Mesh- und Data-Fabric-Ansätzen wird in beiden Strategien ein Gleichgewicht zwischen Fachexperten und Automatisierung hergestellt, wobei diese Ressourcen auf unterschiedliche Weise integriert werden. Data Fabrics nutzen Automatisierung, um Daten in Echtzeit zu integrieren. Menschen spielen bei der Lösung von Problemen, die durch KI-Warnungen identifiziert werden, eine eher passive Rolle.

Data Mesh konzentriert sich auf Datenprodukte, die von Datenproduzenten erstellt werden. KI hilft Produzenten, sich wiederholende Aufgaben zu automatisieren, sodass keine Programmierkenntnisse erforderlich sind. Der Mensch, der die Nuancen der Daten versteht, bleibt jedoch für den Prozess von zentraler Bedeutung. Automatisierte Datenbearbeitungsprozesse und KI-gestützte Datenklassifizierung sind Beispiele für diese symbiotische Beziehung.

Die Ansätze können in derselben Strategie koexistieren, wobei verschiedene Prozessteilnehmer auf unterschiedliche Weise auf Automatisierung setzen. Der Schlüssel liegt darin, das richtige Gleichgewicht zwischen menschlichem Fachwissen und Automatisierung zu finden, um Datenprozesse effektiv zu optimieren.

Verbrauch und Entdeckung – Datenprodukte vs. Datenbestände

Beim Datenmanagement erzeugen Data Fabric-Architekturen Datenbestände, während ein Data Mesh Datenprodukte erzeugt. Sowohl Discovery- als auch Verbrauchsansätze können in einer kombinierten Strategie mit einem Data Mesh existieren und bieten mehr Kontrollen, um Datenbestände in Datenprodukte zu packen.

Der Data-Mesh-Ansatz konzentriert sich auf das Datenprodukt als Hauptmedium zum Teilen von Daten. Datenprodukte, die auf einem Datenproduktmarktplatz veröffentlicht werden, sind umfangreicher und vermutlich wertvoller. Sie bestehen in der Regel aus Datenbeständen, die unter Anleitung eines sachkundigen Fachexperten zusammengeführt und normalisiert wurden. Datenprodukte sind wiederverwendbar, dauerhafter und besser für die externe Verwendung über bestimmte Datendomänen hinaus geeignet.

Kombinierte Ansätze können konsolidierte Datenkataloge weniger technisch versierten Datenkonsumenten zugänglich machen, sodass diese Datenprodukte zum Teilen erstellen können. Die Nutzung von KI, um diese Datenbestände Datenkonsumenten zugänglich zu machen, ähnlich einem Datengewebe, reduziert die technischen Fähigkeiten, die für den Datenzugriff erforderlich sind. LLM ermöglicht es Datenkonsumenten mit eingeschränkter SQL-Expertise, Datenbestände effektiv zu erkunden und abzufragen.

Unabhängig davon, ob es sich um ein Datengewebe oder ein Mesh handelt, wird der Datenkatalog zu einem sehr wichtigen Teil der Strategie. Gateway-Plattformen erstellen einheitliche Datenkataloge, die die gesamte Organisation umfassen und Datenbestände effizient organisieren. Diese Plattformen nutzen auch GenAI-Tools, um manuelle Arbeit zu reduzieren und bei der Datenklassifizierung und -normalisierung zu helfen, um robuste Datenmodelle und Geschäftsglossare zu unterstützen.

Laufende Fortschritte in der KI werden die Effizienz der Datenproduzenten weiter steigern, indem sie Datenprodukte durch Automatisierung erstellen. Darüber hinaus haben Experten die Möglichkeit, KI zu trainieren, um Datenkonsumenten dabei zu helfen, das Beste aus ihren Daten herauszuholen. Diese Synergie zwischen qualifizierten Menschen und leistungsstarken Maschinen stellt einen Best-of-Both-Worlds-Ansatz in der sich entwickelnden Landschaft des Datenmanagements dar.

Datenverwaltung – föderiert vs. zentralisiert

Neue Plattformen und Tools ermöglichen eine stärkere Föderierung der Governance. Governance-Tools erleichtern es der zentralen IT, mehr Kontrolle abzugeben und gleichzeitig eine wirksame Übersicht aufrechtzuerhalten.

Durch die Integration von Datenverwaltungskontrollen in Datenmanagementplattformen können alle Mitglieder des Datenteams aktiv an der Verwaltung teilnehmen und dafür Verantwortung übernehmen.

Domänen-Manager-Steuerelemente	Kontrollen für IT-Manager	Kontrollen für Datenproduzenten
Kontrolliert den Zugriff auf Domänen	Kontrolliert den Zugriff auf Datenplattformen	Feinkörnige Zugriffskontrollen bis auf Tabellenebene
Kontrolliert den granularen Zugriff auf Daten	Steuert, wie Domänen organisiert werden

Die Integration der Automatisierung in die Datenverwaltung entwickelt sich mit der Entstehung einer aktiven Datenverwaltung weiter – einer Technologie, die Datenbestände überwacht und bei auftretenden Problemen Warnmeldungen an Produzenten und Konsumenten sendet.

Im Kontext von Data Mesh geht die Governance über Datenbestände hinaus und deckt den gesamten Datenlebenszyklus von der Quelle bis zum Datenprodukt ab. Die Verwaltung von Datengovernance und -qualität endet nicht mit dem Datenbestand in einem Data Mesh. Öffentliche Datenprodukte werden durch menschliche Feedbackschleifen kontinuierlich verbessert und überwacht. Dieser iterative Prozess stellt sicher, dass Datenprodukte für Verbraucher relevant und wertvoll bleiben.

Mit der Konvergenz der Fähigkeiten von Data Fabrics und Data Meshes wird der Datenzugriff flexibler. Benutzer können Daten über einen Ansatz abrufen und entdecken, der ihren technischen Fähigkeiten und ihrem Verständnis der Daten entspricht. In Zukunft werden Data Mesh- und Data Fabric-Elemente wahrscheinlich miteinander verschmelzen, was zu einzigartigen Kombinationen führt, die die Stärken von Menschen, Maschinen, Governance und Konsumtaktiken nutzen. Die Unterscheidung zwischen Data Meshes und Data Fabrics könnte verschwinden und zu personalisierteren und anpassbareren Datenverwaltungsstrategien führen.