Daten sind für die Entscheidungsfindung in jedem Unternehmen von entscheidender Bedeutung. Aber wenn Entscheidungsträger warten müssen, bis die IT eine Datenpipeline für den Zugriff auf diese Daten erstellt, werden Chancen verpasst und Entscheidungen sind suboptimal. Dies ist die Herausforderung, vor der die meisten großen Unternehmen stehen, die versuchen, datengesteuerter zu werden, um ihre Leistung zu verbessern.
Eine der größten Herausforderungen beim Datenmanagement besteht darin, dass die Technologie von gestern den wachsenden Datenbedarf von heute nicht mehr decken kann. Der ETL-Ansatz ist Jahrzehnte alt und zentralisierte Governance-Strukturen, die in einfacheren Zeiten funktionierten, können einfach nicht skaliert werden, um der Komplexität des KI-Zeitalters gerecht zu werden.
Innovative Ansätze, die stärker verteilt, agiler und flexibler sind, kommen langsam auf den Markt. Ein Beispiel hierfür ist die Data-Mesh-Strategie.
Ein Data Mesh ist eine moderne Datenintegrationsstrategie. Es basiert auf einer verteilten Datenarchitektur, die sich von konsolidierter und zentralisierter Datenspeicherung und -verwaltung zu einem stärker gemeinsamen und föderierten Ansatz bewegt. Es ist eine Alternative zu den ETL-Datenpipelines und Data Lakes, die auf monolithischen Architekturen basieren und auf zahlreichen Abhängigkeiten beruhen.
Die Data-Mesh-Architektur ist mehr als Technologie, sie ist eine umfassende Strategie, die Änderungen in den Rollen der Beteiligten im Datenmanagement und -verbrauch berücksichtigt. Es gibt 4 Mieter einer Data-Mesh-Strategie. Eine echte Data-Mesh-Strategie muss
Die Data-Mesh-Architektur verteilt mehr Befehlsgewalt und Kontrolle über Daten auf unabhängige Domänen. Domänen sind Gruppen, die eine bestimmte Geschäftsfunktion ausüben. Dies kann ein regionaler Betrieb, ein Geschäftsbereich oder eine Geschäftsfunktion wie Vertrieb, Marketing, Personalwesen oder Finanzen sein.
Diese Domänen sammeln im Rahmen ihrer täglichen Geschäftstätigkeit eine erhebliche Menge an Daten. Der domänengesteuerte Ansatz überträgt mehr Verantwortung für die Kontrolle und Verwaltung dieser Daten an diejenigen, die sie gesammelt haben, und nicht an eine zentrale Behörde.
Mit einem Data Mesh haben Domänen mehr Autonomie, aber sie können nicht tun, was sie wollen. Bei einem föderierten Data-Governance-Ansatz wird die Verantwortung für die Data Governance zwischen zentralen IT-Behörden und denen auf Domänenebene geteilt. Die IT kümmert sich um die Erstellung von Frameworks und Richtlinien, die einheitlich für alle Domänen gelten, während jede einzelne Domäne Regeln verwaltet, die nur für ihre eigenen Daten und Geschäftsprozesse gelten. Weitere Informationen zur föderierten Data Governance finden Sie hier.
Wenn Sie zu einer Data-Mesh-Architektur wechseln, wechseln Sie von einer Projektmentalität zu einem produktbasierten Ansatz. Anstatt jedes Mal, wenn ein neuer Datensatz benötigt wird, eine Ad-hoc-ETL-Pipeline zu erstellen, arbeiten Domänenteams proaktiv daran, wiederverwendbare Datenprodukte zu erstellen, die die von Entscheidungsträgern benötigten Daten liefern.
Um wirksam zu sein, müssen diese Produkte auffindbar, adressierbar, vertrauenswürdig und selbsterklärend sein. Das bedeutet:
Die Data-Mesh-Architektur muss für nichttechnische Datenkonsumenten ohne die Hilfe von technischen Fachleuten zugänglich sein. Dies könnte über einen Datenproduktmarktplatz oder über eine Technologie geschehen, die den direkten Zugriff auf Datenprodukte aus einem Analyse- oder Modellierungstool ermöglicht. Eines der größten Probleme, das das Data Mesh löst, ist der Abbau technischer Barrieren zwischen Daten und denen, die sie konsumieren. Self-Service verbessert die Qualität und Geschwindigkeit der Entscheidungsfindung. Es entlastet auch Dateningenieure, die mit der Erfüllung von Datenanforderungen überfordert sind.
In der heutigen Umgebung übersteigt die Nachfrage nach Daten die Fähigkeit der IT-Abteilungen, diese bereitzustellen. Unternehmen wissen, dass mehr datengesteuerte Entscheidungen zu besseren Ergebnissen und Leistungen führen. Allerdings ist die Herausforderung, Zugriff auf die richtigen Daten zu ermöglichen, die für den jeweiligen Zweck geeignet und vertrauenswürdig sind, eine technische und kulturelle Herausforderung.
In einer typischen Organisation werden Daten gesammelt und in Datensilos gespeichert. Egal, ob es sich um eine veraltete Transaktionsanwendung oder ein SaaS-CRM handelt. Der Datenaustausch zwischen diesen Silos ist schwierig. Um der Nachfrage nach Datenaustausch gerecht zu werden, müssen erfahrene Programmierer Pipelines erstellen, um Daten zwischen diesen Silos zu verschieben. Diese Entwickler müssen sich mit Technologien wie Python, SQL, R und Java auskennen, um Datenanforderungen erfüllen zu können. Leider gibt es einfach nicht genug qualifizierte Entwickler, um mit der Nachfrage Schritt zu halten. In vielen Fällen besteht der Bedarf nicht mehr, wenn die Datenanforderungen erfüllt sind, was zu verpassten Gelegenheiten führt. Da Geschäftsentscheidungen bereits in rasender Geschwindigkeit getroffen werden und KI in der Lage ist, dieses Tempo exponentiell zu steigern, wird dieser Ansatz in Zukunft nicht funktionieren.
Ein Datennetz ermöglicht die Zusammenarbeit von Menschen und hochentwickelter Technologie, sodass Entscheidungsträger im gesamten Unternehmen bei Bedarf auf die Daten zugreifen können, die sie benötigen.
Aus kultureller Sicht stärkt eine Data-Mesh-Strategie den Einzelnen, indem sie ihm mehr Eigentum und Verantwortung für die Verwaltung der Daten in seinem Bereich verleiht. Dadurch sind sie stärker daran beteiligt, sicherzustellen, dass die Daten zugänglich und vertrauenswürdig sind. Jeder Beteiligte im Prozess hat eine Rolle.
Mithilfe der Self-Service-Funktionen des Data Mesh und robuster Datenkataloge können Datenanalysten die benötigten Daten mithilfe von Datenprodukten erkunden und bereitstellen. Diese Analysten müssen sich nicht mehr mit manuellen Aufgaben herumschlagen oder darauf warten, dass die IT auf die Daten zugreift. Mit ihren Fähigkeiten können sie Entscheidungsträgern mehr Erkenntnisse und Analysen liefern.
Domänenmanager, die die von ihnen erfassten Daten besser verstehen als eine zentrale Verwaltungsbehörde, sind in der Lage, diese zu verwalten. Durch dieses bessere Verständnis des Kontexts ihrer Daten sind sie in der besten Position, diese zu verwalten und ihren Wert zu steigern.
Durch die Umstellung auf ein Data Mesh können IT-Experten und Dateningenieure den von ihnen bereitgestellten Wert steigern, indem sie strategischere Dienste bereitstellen. Dateningenieure müssen weniger Zeit mit der Codierung von ETL-Prozessen verbringen und können enger mit Datenproduktherstellern zusammenarbeiten, um effizienter auf Qualitätsdaten zuzugreifen. Sie können bei Governance-Regeln auf Domänenebene beraten und Qualitätsmetriken durchsetzen. Dateningenieure können auch eine größere Rolle bei der Verwaltung der Infrastruktur spielen, um ihre Kollegen zu unterstützen.
Ein Data Mesh läuft auf einer verteilten Architektur. Anstatt Daten in einen Data Lake zu laden, verbleiben sie in dem System, das sie gesammelt hat. Wenn Daten benötigt werden, werden sie aus der Quelle abgerufen, anstatt in eine andere Datenbank kopiert zu werden, wo sie analysiert werden. Dies bedeutet, dass die Speicherkosten gesenkt und Abweichungen zwischen verschiedenen redundanten Datenspeichern minimiert werden.
Ein verteiltes System ist zudem skalierbarer, flexibler und zugänglicher. Während die eigentlichen Daten an ihrem Platz bleiben, werden die Metadaten in einer einzigen Datenbank konsolidiert. Durch die Trennung der Metadaten von den Daten, die sie beschreiben, können Datenbestände in einem einzigen Katalog gefunden und Datenabfragen unabhängig von den Daten erstellt werden. Dies ermöglicht:
Es können einzelne Datenabfragen erstellt werden, die mithilfe desselben Datenmodells gleichzeitig auf Daten in mehreren verschiedenen Systemen zugreifen können.
Daten müssen außerdem nicht durch einen Stapelprozess verschoben werden, sondern können in Echtzeit zusammengeführt und Änderungen im laufenden Betrieb vorgenommen werden.
Durch die Trennung der Daten von der Logik können die durch endlose Datenpipelines entstehenden Abhängigkeiten reduziert und so eine höhere Skalierbarkeit erreicht werden.
Eine höhere Autorität bedeutet nicht immer mehr Sicherheit. Die Fachleute, die Daten sammeln, sind in einer viel besseren Position, um deren Sensibilität zu verstehen. Dadurch sind sie in der Lage, intelligentere Richtlinien zur Datenverwaltung umzusetzen als eine zentrale Behörde.
Eine flexible Framework-Governance-Hierarchie kann auch wesentlich effektiver sein, um sicherzustellen, dass Daten genau, sicher und zugänglich sind. Indem Domänen die Autonomie erhalten, in einem breiteren Rahmen zu arbeiten, können sie Richtlinien erstellen, die für sie am besten funktionieren, aber dennoch den Governance-Standards der Organisation entsprechen. Da sie näher an den Daten sind, sind sie auch in einer besseren Position, Änderungen vorzunehmen, wenn sich Bedrohungen und Anforderungen ändern.
Mehr Autonomie verringert auch die Tendenz der Analysten, auf nicht genehmigte Lösungen zurückzugreifen. Wenn Regeln zu restriktiv und/oder für einen bestimmten Anwendungsfall nicht anwendbar sind, werden die Betreiber Wege finden, sie zu umgehen. Dadurch entstehen undurchsichtige Schwachstellen, die zu ernsthaften Sicherheitsbedrohungen führen können.
Mit zunehmender Weiterentwicklung von Technologien und Systemen werden diese in der Regel anspruchsvoller, komplexer und verteilter. Mit weniger zentraler Kontrolle können sich Datensysteme schnell weiterentwickeln und flexibler und widerstandsfähiger werden. Indem man Menschen Daten anvertraut, aber gleichzeitig geeignete Schutzmaßnahmen einführt, um Ordnung zu gewährleisten, werden Daten zugänglicher und nützlicher.