数据沿袭是记录和跟踪数据生命周期的过程,对数据质量至关重要。为了确保用于支持关键业务决策的数据是可信的,需要了解其来源。数据在不断变化、更新、合并和转换。数据沿袭记录了所有这些过程,包括谁更改了数据、数据来源以及修改数据的原因。当数据流经管道时,会创建元数据以提供数据沿袭工具,这些工具可以映射连接并创建数据在其生命周期中移动方式的可视化效果。映射数据连接可以深入了解上游和下游数据是如何连接的。数据沿袭为数据提供了审计跟踪。
沿袭数据在数据生命周期的多个阶段进行跟踪,包括收集、处理、访问、存储、数据查询和数据分析。了解每个阶段收集沿袭数据的方式和原因将有助于更全面地了解数据沿袭。
数据沿袭的第一阶段从数据收集开始。一旦数据进入系统,就需要记录数据的来源。系统必须跟踪数据的来源和来源的可信度。它应该记录数据的有效性和准确性,以及在进入新系统之前对数据集执行的任何转换或操作。
收集数据后,数据沿袭需要跟踪数据如何聚合、转换和操作。在处理、合并或过滤数据时,产生不良数据的错误概率很高。这些错误可能直到下游用户访问和分析数据时才会被发现,因此适当的文档对于跟踪任何错误源都至关重要。有效的沿袭需要创建和存储每个处理步骤的元数据。
处理和存储数据后,仍需要捕获沿袭数据。需要有关谁在访问数据的数据来支持合规性审计。如果存储不正确,数据可能会受到损害,因此跟踪数据的存储方式和位置对于端到端数据沿袭也至关重要。
在实施完整的数据沿袭策略时,捕获详细说明数据查询和分析方式的数据也是一项重要功能。数据沿袭并不总是与跟踪数据健康状况有关,还与跟踪系统性能有关。可以分析查询执行速度和效率的数据,以了解哪里有机会优化整个管道。管理员还可以使用这些元数据来更好地了解数据的使用方式,并预测未来的使用模式,以预测用户的需求。
跟踪数据沿袭是提供可靠数据的关键要素。了解数据如何在不同系统和流程中移动以及数据集如何连接有助于管理员保持数据和系统健康。跟踪数据集演变的每个阶段的能力对于确定数据错误的根本原因也至关重要。
通过跟踪生命周期每个阶段的变化并映射每个变化之间的关系,故障排除人员可以向上游跟踪错误以确定错误的根源。在许多情况下,直到数据集进一步向下游移动进行分析时,才会发现数据中的错误。数据中的异常可能预示着变化趋势,也可能只是数据中的错误。了解差异对于不错过机会或避免根据错误数据做出决策至关重要。从分析过程追溯数据集到首次收集时,可以对数据管道的健康状况有更大的信心。确定根本原因并实施解决方案也有助于消除重复出现相同错误的可能性。
了解不同数据集的连接方式也有助于避免错误。跟踪下游依赖关系的能力使开发人员和数据工程师能够预测更改对依赖应用程序和模型的影响。例如,数据工程师在进行调整之前会了解更改表架构的影响。这些知识可以帮助他们找到不同的路径或编辑下游应用程序以反映上游更改并避免错误或故障。
通过一种监控整个数据堆栈中数据处理的方法,您就拥有了一种验证数据准确性和完整性的机制。追踪数据来源的能力使决策者能够判断其有效性。如果数据来自组织外部,这种知识就尤为重要。创建数据集的团队是否像用户一样关注数据质量?如果您根据这些数据做出重要的业务决策,那么这些信息就是有价值的。
数据沿袭通过跟踪数据的存储和访问方式和位置来帮助遵守法规。例如,遵守数据主权和隐私规则,因为数据沿袭可以判断数据是否跨越了国界。强大的数据沿袭程序对于促进快速合规性审计也很重要。借助数据沿袭,管理员可以验证数据是否在整个端到端数据管道中得到了适当的管理。
虽然端到端数据沿袭的价值显而易见,但并不总是能够访问所有相关元数据。有几种不同的方法可以分析数据以创建沿袭。基于模式、基于标签、自包含和解析。
通过基于模式的数据沿袭跟踪,对元数据中的模式进行分析可以揭示数据集的历史记录。此方法分析跨表、列和报告的元数据以建立联系。如果两个表具有相似的名称和数据值,则可以假定它们是同一张表的不同版本,并且可以在数据沿袭图中注意到链接。这种方法与技术无关,因为它专注于数据模式并且可以在任何系统上工作。而基于模式的数据沿袭在较少数量的数据集上效果很好,在复杂的数据关系中可能不那么有效。
基于标签的方法利用转换引擎来标记数据,从而可以在数据通过管道时对其进行跟踪。这种方法非常高效,但只有使用统一的工具来处理和标记数据时才有效。
这种方法使用主数据管理 (MDM) 工具来集中管理元数据。系统中各种流程创建的元数据集中在可以捕获沿袭数据的 MDM 工具中。挑战在于,无法跟踪在系统外部执行的、不与 MDM 工具交互的流程。
此过程通过逆向工程数据转换来实现。通过读取用于转换数据的逻辑,可以推断出数据的沿袭。这是一个复杂的过程,必须充分了解用于管理整个数据堆栈中的数据的所有语言和流程。虽然很复杂,但此过程最适合跟踪跨系统的端到端数据沿袭。
关注数据沿袭策略的技术和元数据很重要,但如果决策者不理解它,您的努力就会白费。业务和技术用户都应该能够理解沿袭数据。
业务沿袭也应被视为战略的一部分。使用正确的业务背景来组织数据沿袭,以便业务用户能够了解数据如何流经业务流程。了解哪些数据流经您的管道与跟踪数据流的技术沿袭同样重要。
数据沿袭在构建和使用数据产品时至关重要。数据生产者可以审核数据沿袭,以确保流入其数据产品的数据的可靠性。数据沿袭还可以帮助数据产品生产者了解其数据产品中不同数据集之间的依赖关系和关系。
数据产品的业务用户还可以利用数据沿袭来了解数据流及其来源。这些信息有助于他们判断数据的有效性及其对某些用例的适用性。优秀数据产品的核心是具有内置强大数据沿袭功能的广泛数据目录。数据目录可帮助数据产品生产者查找和访问他们需要的数据,而数据沿袭数据则提供有关该数据的宝贵信息。
数据沿袭策略是现代数据堆栈的基本功能。随着数据管道变得越来越复杂,可靠的数据沿袭程序对于确保数据质量至关重要。