设计优雅数据产品的最佳实践


什么是数据产品?

组织对数据的看法以及他们如何获取可靠信息的方式正在迅速改变。对洞察力的需求呈指数级增长,更有效地管理数据的策略也正在涌现。这种变化的核心是思维方式的逐渐转变。组织开始将数据视为一种产品,一种可重复使用和精炼的打包产品。这种方法摆脱了基于项目的思维方式,即每个数据请求都通过新的一次性数据管道来满足。

数据产品的主要优势是:

可重用性
可重用性
轻松访问
轻松访问
可共享性
可共享性

与任何产品一样,数据产品的设计和呈现方式对用户来说也有很大的影响。现在让我们看看如何设计出优雅的数据产品。

当我们谈论数据产品时,我们是在更大的 IT 战略或数据网格的背景下谈论它们。这与作为核心业务战略一部分的数据产品不同,后者是面向客户的数据产品,也是组织的主要收入来源。我们谈论的不是 Google Analytics 或 Bloomberg 之类的数据产品。

Gartner 将数据产品定义为:
“数据、元数据、语义和模板的精心策划和独立组合。它包括经过认证的访问和实施逻辑,可用于处理特定业务场景和重用。数据产品必须可供消费(消费者信任)、保持最新(工程团队)并获准使用(受管理)。数据产品支持各种数据和分析 (D&A) 用例,例如数据共享、数据货币化、领域分析和应用程序集成。”

这个非常详细和复杂的定义可能是准确的;然而,一个更优雅的定义可能来自 J. Majchrzak,他将数据产品定义为“一个自主的、读取优化的、标准化的数据单元,包含至少一个数据集(域数据集),为满足用户需求而创建”。

虽然两个定义都是准确的,但其中一个更简单,更容易理解。同样,精致的数据产品更容易理解,因此更有价值。

什么是优雅的设计?

我们如何知道一个设计是否优雅?爱因斯坦曾说过:“一切都应该尽可能简单,但不能过于简单。”因此,优雅的数据产品必须尽可能简单,才能获得最佳结果。

让我们看看优雅解决方案的其他必备条件:

  • 足够专注和高效,能够利用有限的资源实现确定的结果
  • 足够连贯以处理核心逻辑中的边缘情况,而不是认为没有附加能力
  • 功能强大,适用于多种应用程序

为什么优雅的设计很重要?更少的复杂性使事情变得更容易和更令人愉快,从而带来更大的价值。简单而有效的解决方案将胜过复杂性。

数据产品思维

设计和创建优质数据产品的第一步是采用数据产品思维。这往往是最大的障碍。

要采用数据产品思维,您需要摆脱项目思维。项目思维是指每次数据工程组收到数据请求时,都会创建并执行一个新项目。这种项目思维更具反应性,数据工程师不断忙于根据利益相关者的要求构建数据管道。一旦一个项目完成,就该忘掉它,继续下一个项目。

产品思维模式已发生改变。数据工程师、分析师和数据管理员更积极地思考数据。分析师、工程师和经理不会等待临时数据请求,而是在需要之前共同创建数据产品。这种方法需要彻底的研究和洞察力,以创建对更大范围的用户最有用的数据产品,从而提高每个输出的价值。

数据产品也是可重复使用的,因此它们在其生命周期中始终保持相关性,此生命周期包括持续的维护和改进。随着数据产品拥有自己的生命,反馈可以轻松地纳入新版本中。

实施和构建有效而精致的数据产品的最大挑战是树立正确的心态。当您转向数据产品而非数据项目策略时,衡量成功的标准是结果而非产出。虽然数据产品确实在不断发展,但有效的规划和预先设计将有助于为精致的数据产品奠定基础。

优质数据产品的关键特征

有效且强大的数据产品通常具有某些特征。设计师在创建数据产品时应牢记这些特征:

可发现

数据产品要想产生影响力,就必须能够被发现。即使是很棒的产品,如果没有人知道它的存在,也无法发挥其潜力。数据产品市场是将数据产品交到用户手中的好方法。一些数据产品市场将使用人工智能和预测分析向用户推荐数据产品,类似于 Netflix 向观众推荐新电影或节目的方式。优雅并不总是关于你如何设计产品,还包括你如何将其推向市场并让用户能够使用它。

质量

干净准确的数据是任何数据产品的必备属性。如果数据分析师无法信任您的数据产品,决策者将不会重视它。设计和构建数据产品必须包括一个可靠的流程,用于在合并和集成数据时对其进行清理和规范化。

一旦流程设置完毕,您需要确保并向受众证明其有效。这涉及跟踪和共享数据质量指标,以衡量可变性和完整性以及其他几个品质。

安全的

确保数据安全是任何 IT 战略的要求,但将安全性融入数据产品中却可能非常微妙。设计精良的数据产品可以提供对数据资产的精细访问。设计考虑用户角色和数据属性的访问规则可以平衡访问和安全性。这些访问控制和数据屏蔽还可以提高数据表的使用效率。

另一个重要特征是包含复杂的加密,确保数据在从数据库移动到分析时受到保护。

可观察的

为了确保持续的质量,优秀的数据产品具有内置的可观察性功能。数据产品的好坏取决于其提供的数据的质量。如果决策者不信任数据产品产生的数据,它们就会失去价值。数据产品应设计有集成的监控功能,以检测异常和错误。这降低了坏数据进入高管分析或用于训练 AI 模型的可能性。

可扩展

采用基于产品的方法的另一个好处是,数据产品的使用越多,它为组织贡献的价值就越多。数据产品非常灵活,可以应用于多种用例,从而提高其实用性。因此,数据产品必须设计为可扩展并满足不断增长的用户需求。

协作

获取来自各种来源的输入对于数据产品来说至关重要,这样数据产品才能足够强大,能够解决多种问题。

组建一支多元化的团队来构建数据产品和支持框架至关重要。多个利益相关者在创建成功的数据产品方面发挥着作用,包括数据产品生产者、域所有者和消费者。

数据产品生产商最重视数据产品的成功,因此占据主导地位。他们可能拥有数据工程技能或数据分析师技能,但主要关注点是了解消费者的需求。具有产品管理或产品所有权背景的人了解产品思维。

域名所有者也发挥着至关重要的作用,通常负责确保适当的治理。治理有助于制定正确的控制和政策,从而决定数据产品的成败,这使得域名所有者的作用变得重要。

数据产品消费者也是数据产品持续生命周期的关键部分。他们的参与和反馈为提高数据产品的实用性提供了输入。他们可以评估对单个数据产品的满意度以及它们满足他们需求的程度。跟踪数据产品消费者的行为也是将消费者纳入流程的重要组成部分。

无障碍

与可发现性一样,有效的可访问性也是优质数据产品的重要特征。易于访问性可以改善获取数据产品的过程,并尽可能简单地使用它们进行分析,从而加快洞察时间。快速访问的障碍之一是将数据产品导入您的 BI 工具或 AI 模型构建器工具。优雅的数据产品设计使您可以从任何首选的分析包中访问数据产品。

第二个障碍或许更难逾越,那就是获得访问数据的权限。设置正确的协议以启用访问权限可使该过程更安全、更高效。明确定义谁负责启用访问权限是定义优雅协议的重要部分。在更加分布式的框架中,负责监督其组中数据收集的域管理员有权提供访问权限。

订阅和数据合同定义了访问期限以及可以使用和不能使用数据的方式。通过预先标准化这些协议,用户无需在每次想要访问数据产品时都经过该过程,从而简化了流程。

可定制且可互操作

满足用户的需求的数据产品应该适应特定的业务需求和用户偏好。

优秀的数据产品不应强行添加笨拙的数据功能,而应设计成能够与其他数据产品互操作。设计中融入互操作性后,数据产品便可轻松组合,打造更丰富、更有价值的超级数据产品。

可审计

随着数据产品的发展,一些变化将是一种改进,但并非全部。更改数据产品还可能暴露漏洞,例如安全性和合规性风险。为了确保数据产品具有最高质量,它们必须包括审计试验和版本控制数据。快速识别错误并查明来源将有助于确保您的数据产品安全高效地运行。

用例驱动

为了全面和一致,数据产品应该能够每次都有效地解决用户的问题。为了实现这一点,它们应该像其他产品一样设计,让最终用户处于流程的中心。无论用户是数据工程师、数据分析师、业务分析师、业务主管、客户还是合作伙伴,全面了解他们的需求都是成功的关键。

综合数据产品融合了广泛的数据源,以确保用例的广泛性和一致性。利用合作伙伴或第三方来源丰富数据可以为数据产品增加额外的深度。例如,使用邮政编码数据库来填充缺失的地址数据并对其进行标准化可以使数据产品更加全面和一致。

用户必须能够清楚地了解数据产品中的数据代表什么,才能将其应用于他们的用例。这可能是一个挑战,因为数据来自整个组织。适当的元数据管理对于创建强大的数据产品和确保上下文得到保留非常重要。确保用户理解用于描述数据产品中数据的术语也很重要。合并业务术语表是帮助标准化术语的一种方法。

生命周期管理

数据产品和数据项目之间的一个关键区别是数据产品的性能及其不断改进和增强的能力。即使我们尽最大努力设计一款数据产品来满足受众的需求,它也并不总是能达到目标或只是需要改变。建立一种收集用户反馈的机制对于持续提供优秀的数据产品至关重要。

跟踪数据产品并了解它们如何引起用户的共鸣对于将产品与用户联系起来至关重要。数据产品市场充斥着老化和不相关的数据产品,这不利于优雅的流程。数据产品在其生命周期结束时应归档并退役,以减少噪音。确保您精心策划数据产品市场以优化用户体验。

过程

优雅的数据产品不会自然而然地出现,它们需要正确的流程来支持其创建。如果没有正确的流程,就会出现添加更多数据而增加复杂性的趋势。流程确保数据是经过深思熟虑后添加的。优雅的设计是通过迭代和协作过程产生的。

迭代设计流程支持优雅的设计,因为每个步骤或周期都使您更接近更简单、更强大的解决方案。数据产品的第一个版本可能不是最佳解决方案,因此它们需要不断发展。未使用或破坏最佳结果路径的功能可以通过迭代消除。新用户可以找到数据产品的创新应用程序,这些应用程序会产生新功能或从原始数据产品中分离出来,形成新的、更有影响力的产品。您的流程应该接受并制度化反馈,以更好地了解您的数据产品如何实现其目标。随着数据产品的发展和反馈的收集,新数据产品的想法就会出现。

构建出色的数据产品绝非易事。如果没有坚实的技术基础,从头开始创建数据产品会更加困难。数据产品平台可以让这个过程变得容易得多。Extrica 是一个现代数据分析平台,它从底层开始设计,以简化数据产品的创建。要了解有关 Extrica 功能的更多信息以及该平台如何帮助您创建优雅的数据产品,请安排演示

Discover the Latest in Data and AI Innovation

  • Blog

    AWS re:Invent 回顾

    Read More

  • Blog

    数据分析中的生成式人工智能——人工智能如何让数据访问变得更容易

    Read More

  • E-book

    使用现代数据堆栈的非结构化数据

    Read More

Request a Demo TODAY!

Take the leap from data to AI