数据产品的可观察性



Listen to this blog
Disclaimer

无法管理和优化无法看到的东西。您需要可观察性来了解系统的工作方式以及系统是否有效运行。数据产品正在提供一种新的数据访问模式,而创建数据产品的人需要跟踪其质量和实用性。

优质的原材料是优质产品的必要组成部分。数据产品中数据的质量对于成功的数据产品战略至关重要。要获得卓越的成果,就需要从源头到消费跟踪数据质量,并观察管理该过程的数据系统。

数据产品可观察性

许多组织正在采用数据产品策略,即构建可重复使用的数据产品,而不是为每个用例创建一次性的数据管道。数据产品是易于访问的数据集,只需创建一次即可适应多种用例。

数据产品方法要求数据工程师更积极地思考,并将数据交付物视为产品。这一策略依赖于创作者考虑用户的需求和痛点。为了为产品功能决策提供信息,生产者需要了解其数据产品的使用方式。这种反馈使创作者能够改进其现有产品组合并为未来打造更好的数据产品。

数据产品可观察性可以追踪谁在使用不同的数据产品以及他们如何使用这些产品。了解用户的角色可以帮助生产者更好地了解哪些群体从他们的数据产品中获得了最大的价值,哪些群体的服务不足。了解数据产品如何用于支持模型、仪表板和分析也有助于激发新数据产品的创新想法。通过了解这些趋势,数据产品创建者将能够更加积极主动,以便在用户需要时为他们准备好数据。

数据产品生产商还可以通过收集数据产品的直接反馈来改进其产品。创建团队合作文化并实施正式的用户反馈渠道是增加价值的绝佳策略。实施用户和生产商可以互动、提供反馈、发现问题和建议新数据产品的论坛可以提高数据产品生态系统的价值。

跟踪成本和 FinOps 是数据产品可观察性的另一个重要组成部分。数据产品是否有效地利用了云资源?它们是否可以进行优化以减少资源?这种类型的数据跟踪对于盈利的数据产品策略至关重要。确定哪些数据产品消耗最多的内存是成本可观察性的一个例子。

提供数据产品可视性的机制也必须扩展到各个业务领域。通常,生产者和用户可能不会定期与不同业务部门的经理和分析师互动。这种分离限制了数据产品可以提供的价值和广度。一个供所有人虚拟聚集的中央论坛对于提高数据产品的参与度和可视性至关重要。

数据生产者是数据产品战略的重要组成部分,他们的生产力也应该受到跟踪。谁在创造最多的数据产品?在哪个领域可以更好地了解你的员工的效率?

虽然跟踪数据产品的使用情况对于成功至关重要,但确保数据产品的可信度也同样重要。要使数据产品值得信赖,分析师和用户需要能够观察其质量。这些可能包括跟踪模糊匹配、数据敏感性和引用身份的指标。

模糊匹配

此测试测量数据产品中不同行的相似性。此测试跟踪数据产品中存在重复行的概率。此测试不会识别完全匹配,但会标记需要额外调查以避免重复的相似性。当连接数据产品中可能具有相似重复数据的多个数据集时,此测试很有用。

数据敏感性

此测试衡量数据产品中数据的完整性。此测试计算数据产品中表格的行数,并将其与参考标准进行比较。完整性测试将确定此数字是否在指定范围内。如果数字不准确,则可能缺少数据,或者可能插入或重复了错误数据。

参照身份

此测试检查子表的键是否与父表的主键匹配。如果父表中的键发生变化,此测试还将确保该变化反映在子表中。

谱系数据还能更好地洞察数据产品的可信度。用户可以查看数据产品中的数据来源并判断其质量。如果数据来自信誉良好的来源,决策者就可以确信他们正在访问数据产品中的高质量数据。

通过这种方式观察和测试数据产品有助于确保您只为用户提供最优质的数据产品。汇总质量指标和用户反馈的信任分数是数据产品用户了解数据产品质量的好方法。

数据可观测性

观察数据产品的运作很重要,但了解为数据产品生成数据的系统也是必不可少的。组织需要制定策略来监控、理解和排除数据以及生成和存储数据的系统的故障。组织需要能够观察到支持数据完整性的几个重要因素。这些因素包括新鲜度、质量、数量、模式和谱系。

新鲜

新鲜度表示数据更新的时间。过时的数据是低质量的数据,不可信。

质量

质量跟踪价值和正确性。质量数据测试可以帮助您更好地观察数据。指标包括:

  • 完整性——该指标跟踪数据集中有多少个空值或“0”值
  • 唯一性 – 此指标跟踪特定列中唯一值的百分比。如果唯一性较高,则重复项最少。
  • 有效性——此测试通过将数据集中的数据模式与预期数据模式进行比较来确保数据有效。例如,如果不可能出现负数,则有效性测试将测量非负数的数量。
体积

容量测试会计算数据集中的行数。太少或太多都可能表示存在问题。测量容量的测试包括:

  • 数据敏感度——将表中的行数与参考值进行比较,并测量其是否在范围内。
  • 有效列长度 – 此测试确保您具有正确的列长度或在指定范围内。
架构

架构定义了数据的组织方式。如果更改了此组织方式,则可能导致错误。跟踪谁在何时更改了数据架构对于跟踪数据健康状况至关重要。

血统

谱系详细说明了数据资产如何连接以及数据表如何关联。它还跟踪从数据源到消费的流程。当出现问题时,您需要能够观察数据谱系以追踪根本原因。

为什么它很重要?

观察整个数据堆栈中的数据对于保持数据清洁至关重要。及时识别错误可以降低造成危害的可能性。如果决策者收到不良数据,管理人员就会对公司数据的完整性失去信任。这种信任的丧失会降低组织的决策能力。一旦失去信任,就很难恢复。

良好的数据可观测性解决方案不仅可以识别错误,还可以帮助您识别这些错误的来源。这些工具可以帮助减少错误解决的平均时间并识别瓶颈以优化系统功能。

挑战

在整个数据堆栈中获得端到端的可观察性可能是一项挑战。复杂的数据管道和分布式数据孤岛使得观察数据在整个数据系统中移动时变得困难。不同的部门和数据团队可能使用各种工具来观察其领域中的数据,这使得在所有这些孤岛之间实现一致的可观察性变得更加困难。这种碎片化也使得很难追踪不同系统和管道之间错误的根本原因。

数据联合和元数据管理

数据联合和强大的整合元数据管理工具的出现有助于跨数据孤岛实现数据可见性。数据联合将每个数据孤岛链接到集中式元数据管理数据库。元数据跟踪数据集的信息,例如模式、新鲜度和数量,这些都是数据可观察性的关键组成部分。集中这些数据可以实现跨数据孤岛的可观察性,这在 ETL 管道中要困难得多,因为数据可能会多次停止,并且原始源元数据可能不会加载到目标数据库中。

元数据管理的创新还融入了自动化功能,当源数据发生变化时,可以自动记录元数据变化。这些数据在中央平台进行跟踪,从而可以更好地报告和解决错误。

可观察性对于高质量和高价值的数据产品至关重要。在数据越来越多地推动我们的决策和推动人工智能发展的时代,跟踪数据和系统的健康状况对于充分利用这一资产至关重要。

Discover the Latest in Data and AI Innovation

  • Blog

    AWS re:Invent 回顾

    Read More

  • Blog

    数据分析中的生成式人工智能——人工智能如何让数据访问变得更容易

    Read More

  • E-book

    使用现代数据堆栈的非结构化数据

    Read More

Request a Demo TODAY!

Take the leap from data to AI