Was ist Datenherkunft?



Listen to this blog
Disclaimer

Die Datenherkunft ist der Prozess der Aufzeichnung und Nachverfolgung von Daten während ihres gesamten Lebenszyklus und ist für die Datenqualität von entscheidender Bedeutung. Um sicherzustellen, dass die zur Unterstützung kritischer Geschäftsentscheidungen verwendeten Daten vertrauenswürdig sind, muss man ihren Ursprung kennen. Daten ändern, aktualisieren, zusammenführen und transformieren sich ständig. Die Datenherkunft dokumentiert all diese Prozesse, einschließlich der Frage, wer die Daten geändert hat, woher die Daten stammen und warum die Daten geändert wurden. Während Daten durch Pipelines fließen, werden Metadaten erstellt, um Datenherkunftstools zu versorgen, die Verbindungen abbilden und Visualisierungen erstellen, wie sich Daten durch ihren Lebenszyklus bewegen. Das Zuordnen von Datenverbindungen bietet Einblicke in die Verbindung von Upstream- und Downstream-Daten. Die Datenherkunft bietet einen Prüfpfad für Daten.

Herkunft über den gesamten Datenlebenszyklus hinweg verfolgen

Herkunftsdaten werden durch mehrere Phasen des Datenlebenszyklus verfolgt, einschließlich Erfassung, Verarbeitung, Zugriff, Speicherung, Datenabfrage und Datenanalyse. Wenn Sie verstehen, wie und warum Herkunftsdaten in jeder Phase erfasst werden, erhalten Sie ein umfassenderes Verständnis der Datenherkunft.

Sammlung

Die erste Phase der Datenherkunft beginnt mit der Datenerfassung. Sobald Daten in ein System gelangen, muss die Datenquelle dokumentiert werden. Systeme müssen nachverfolgen, woher die Daten stammen und wie vertrauenswürdig die Quelle ist. Es sollte vermerkt werden, wie gültig und genau die Daten sind und welche Transformationen oder Manipulationen an einem Datensatz vorgenommen wurden, bevor sie in ein neues System gelangen.

Verarbeitung

Sobald Daten erfasst wurden, muss die Datenherkunft nachverfolgen, wie sie aggregiert, transformiert und bearbeitet werden. Bei der Verarbeitung, Zusammenführung oder Filterung von Daten ist die Wahrscheinlichkeit von Fehlern, die zu fehlerhaften Daten führen, hoch. Diese Fehler werden möglicherweise erst erkannt, wenn nachgelagerte Benutzer auf die Daten zugreifen und sie analysieren. Daher ist eine ordnungsgemäße Dokumentation zur Verfolgung aller Fehlerquellen unerlässlich. Für eine effektive Herkunft müssen Metadaten für jeden Verarbeitungsschritt erstellt und gespeichert werden.

Zugriff und Speicherung

Sobald Daten verarbeitet und gespeichert sind, müssen noch Herkunftsdaten erfasst werden. Daten darüber, wer auf die Daten zugreift, sind erforderlich, um Compliance-Audits zu unterstützen. Daten können gefährdet sein, wenn sie nicht richtig gespeichert werden. Daher ist die Nachverfolgung, wie und wo sie gespeichert werden, auch für eine durchgängige Datenherkunft von entscheidender Bedeutung.

Datenabfrage und -analyse

Das Erfassen von Daten, die detailliert beschreiben, wie Daten abgefragt und analysiert werden, ist ebenfalls eine wichtige Funktion bei der Verfolgung einer vollständigen Datenherkunftsstrategie. Bei der Datenherkunft geht es nicht immer darum, die Datenintegrität zu verfolgen, sondern auch die Systemleistung. Daten darüber, wie schnell und effizient Abfragen ausgeführt werden, können analysiert werden, um zu verstehen, wo möglicherweise Optimierungsmöglichkeiten für die gesamte Pipeline bestehen. Administratoren können diese Metadaten auch verwenden, um besser zu verstehen, wie Daten verwendet werden, und zukünftige Nutzungsmuster vorherzusagen, um die Bedürfnisse der Benutzer vorherzusehen.

Warum die Datenherkunft wichtig ist

Die Verfolgung der Datenherkunft ist eine Schlüsselkomponente bei der Bereitstellung vertrauenswürdiger Daten. Das Verständnis, wie Daten durch verschiedene Systeme und Prozesse wandern und wie Datensätze miteinander verbunden sind, hilft Administratoren dabei, Daten und Systeme gesund zu halten. Die Fähigkeit, jede Phase der Entwicklung eines Datensatzes zu verfolgen, ist auch entscheidend, um die Grundursachen von Datenfehlern zu identifizieren.

Indem sie Änderungen in jeder Phase des Lebenszyklus verfolgen und die Zusammenhänge zwischen diesen Änderungen abbilden, können Problembearbeiter Fehler weiter vorn verfolgen und so die Fehlerursache ermitteln. In vielen Fällen werden Fehler in den Daten erst erkannt, wenn der Datensatz zur Analyse weiter nach unten verschoben wurde. Anomalien in den Daten können auf einen veränderten Trend hinweisen oder einfach nur ein Fehler in den Daten sein. Den Unterschied zu kennen ist von größter Bedeutung, um keine Gelegenheit zu verpassen oder Entscheidungen auf Grundlage falscher Daten zu vermeiden. Die Rückverfolgung eines Datensatzes vom Analyseprozess bis zu seiner ersten Erfassung gibt viel mehr Vertrauen in die Integrität von Datenpipelines. Die Ermittlung der Grundursachen und die Implementierung von Lösungen tragen auch dazu bei, die Möglichkeit auszuschließen, dass sich dieselben Fehler wiederholen.

Wenn man versteht, wie verschiedene Datensätze miteinander verbunden sind, kann man auch Fehler von vornherein vermeiden. Die Fähigkeit, nachgelagerte Abhängigkeiten zu verfolgen, ermöglicht es Entwicklern und Dateningenieuren, die Auswirkungen von Änderungen auf abhängige Anwendungen und Modelle vorherzusagen. Ein Dateningenieur wird beispielsweise die Auswirkungen einer Änderung des Tabellenschemas verstehen, bevor er eine Anpassung vornimmt. Dieses Wissen kann ihm helfen, einen anderen Pfad zu finden oder nachgelagerte Apps zu bearbeiten, um die vorgelagerte Änderung widerzuspiegeln und Fehler oder Ausfälle zu vermeiden.

Mit einer Möglichkeit, Ihre Datenprozesse über Ihren gesamten Datenstapel hinweg zu überwachen, verfügen Sie über einen Mechanismus zur Validierung der Genauigkeit und Integrität Ihrer Daten. Die Möglichkeit, Daten bis zu ihrer Quelle zurückzuverfolgen, ermöglicht es Entscheidungsträgern, ihre Gültigkeit zu beurteilen. Dieses Wissen ist besonders wichtig, wenn die Daten außerhalb der Organisation stammen. Legt die Gruppe, die einen Datensatz erstellt hat, genauso viel Wert auf die Datenqualität wie die Benutzer? Dies sind wertvolle Informationen, wenn Sie auf der Grundlage dieser Daten wichtige Geschäftsentscheidungen treffen.

Data Lineage hilft bei der Einhaltung von Vorschriften, indem es nachverfolgt, wie und wo Daten gespeichert und abgerufen werden. So können Sie beispielsweise die Regeln zur Datenhoheit und zum Datenschutz einhalten, da Data Lineage erkennen kann, ob Daten über Ländergrenzen hinweg übertragen wurden. Robuste Data Lineage-Programme sind auch wichtig, um schnelle Compliance-Audits zu ermöglichen. Mithilfe von Data Lineage können Administratoren überprüfen, ob die Daten in der gesamten End-to-End-Datenpipeline angemessen verwaltet wurden.

Verschiedene Ansätze zur Verwaltung der Datenherkunft

Obwohl der Wert einer durchgängigen Datenherkunft offensichtlich ist, ist der Zugriff auf alle relevanten Metadaten nicht immer möglich. Es gibt verschiedene Ansätze für die Datenanalyse zur Erstellung einer Herkunft. Musterbasiert, Tag-basiert, in sich geschlossen und Parsing.

Musterbasiert

Bei der musterbasierten Datenherkunftsverfolgung wird durch die Analyse von Mustern in Metadaten die Historie eines Datensatzes enthüllt. Dieser Ansatz analysiert Metadaten über Tabellen, Spalten und Berichte hinweg, um Verbindungen herzustellen. Wenn zwei Tabellen ähnliche Namen und Datenwerte aufweisen, kann davon ausgegangen werden, dass es sich um unterschiedliche Versionen derselben Tabelle handelt, und in einer Datenherkunftskarte kann ein Link vermerkt werden. Dieser Ansatz ist technologieunabhängig, da er sich auf Datenmuster konzentriert und auf jedem System funktionieren kann. Während die musterbasierte Datenherkunft bei einer kleineren Anzahl von Datensätzen gut funktioniert, ist sie bei komplexen Datenbeziehungen möglicherweise nicht so effektiv.

Tag-basiert

Ein tagbasierter Ansatz nutzt eine Transformations-Engine zum Taggen von Daten, sodass diese auf ihrem Weg durch die Pipeline verfolgt werden können. Dieser Ansatz ist sehr effizient, funktioniert aber nur, wenn ein einheitliches Tool zum Verarbeiten und Taggen von Daten verwendet wird.

Eigenständig

Bei diesem Ansatz werden Master Data Management (MDM)-Tools verwendet, um Metadaten zentral zu verwalten. Metadaten, die von verschiedenen Prozessen im System erstellt werden, werden in einem MDM-Tool zentralisiert, das Herkunftsdaten erfassen kann. Die Herausforderung besteht darin, dass Prozesse, die außerhalb des Systems ausgeführt werden und nicht mit dem MDM-Tool interagieren, nicht verfolgt werden können.

Herkunft durch Parsing

Dieser Prozess funktioniert durch Reverse Engineering von Datentransformationen. Durch Lesen der Logik, die zur Datentransformation verwendet wird, lässt sich die Herkunft der Daten erraten. Dies ist ein komplexer Prozess, und alle Sprachen und Prozesse, die zur Verwaltung der Daten in Ihrem Datenstapel verwendet werden, müssen gut verstanden werden. Obwohl dieser Prozess komplex ist, eignet er sich am besten für die Verfolgung der Datenherkunft über alle Systeme hinweg.

Best Practices für die Verwaltung der Datenherkunft

Es ist wichtig, sich bei Ihrer Datenherkunftsstrategie auf die Technologie und Metadaten zu konzentrieren. Ihre Bemühungen sind jedoch vergeblich, wenn die Entscheidungsträger sie nicht verstehen. Herkunftsdaten sollten sowohl für geschäftliche als auch für technische Benutzer verständlich sein.

Auch die Geschäftsherkunft sollte als Teil Ihrer Strategie berücksichtigt werden. Organisieren Sie Ihre Datenherkunft im richtigen Geschäftskontext, damit Geschäftsbenutzer verstehen können, wie Daten durch Geschäftsprozesse fließen. Das Verständnis, welche Daten durch Ihre Pipelines fließen, ist ebenso wichtig wie die technische Herkunft, die das Wie verfolgt.

Datenherkunft beim Erstellen und Verwenden von Datenprodukten

Die Datenherkunft ist für die Erstellung und Verwendung von Datenprodukten von entscheidender Bedeutung. Datenproduzenten können die Datenherkunft prüfen, um die Vertrauenswürdigkeit der in ihr Datenprodukt einfließenden Daten sicherzustellen. Die Herkunft kann Datenproduktproduzenten auch dabei helfen, Abhängigkeiten und Beziehungen zwischen verschiedenen Datensätzen in ihren Datenprodukten zu verstehen.

Geschäftsbenutzer von Datenprodukten können die Datenherkunft auch nutzen, um den Datenfluss und seine Quelle zu verstehen. Diese Informationen helfen ihnen, die Gültigkeit der Daten und ihre Anwendbarkeit auf bestimmte Anwendungsfälle zu beurteilen. Das Herzstück großartiger Datenprodukte ist ein umfangreicher Datenkatalog mit integrierten, robusten Datenherkunftsfunktionen. Datenkataloge helfen Datenproduktherstellern, die benötigten Daten zu finden und darauf zuzugreifen, und Datenherkunftsdaten liefern wertvolle Informationen über diese Daten.

Data-Lineage-Strategien sind wesentliche Merkmale des modernen Datenstapels. Da Datenpipelines immer komplexer werden, ist ein solides Data-Lineage-Programm zur Gewährleistung der Datenqualität unerlässlich.

Discover the Latest in Data and AI Innovation

  • Blog

    Förderung einer datengesteuerten Kultur

    Read More

  • E-book

    Unstrukturierte Daten mit dem modernen Datenstack

    Read More

  • Blog

    Aufbau einer zuverlässigen Datenqualitätsstrategie im Zeitalter der KI

    Read More

Request a Demo TODAY!

Take the leap from data to AI