数据网格释放潜力——与专家一起丰富数据


任何组织存储的数据都具有巨大的价值,从中获取的知识可以使一家公司从竞争对手中脱颖而出。没有制定打破数据孤岛的稳固策略是一个战略错误。

虽然 ETL 管道和数据湖等传统方法很常见,但数据网格和数据结构等更具创新性的分布式方法正在获得关注。这些策略的最终目标是实现数据访问民主化,培养自助服务模式并促进更具协作性、数据驱动的文化。组织必须保持敏捷,适应这些不断发展的概念和技术,以保持竞争优势。

揭开数据网格和数据结构的演变

数据网格是一种数据架构,旨在促进整个组织的数据共享。数据网格与技术无关,由四个原则定义。

域名所有权

收集数据的业务功能对数据拥有权限。

数据产品

数据被打包成数据产品,简化了整个组织内的共享。

自助服务

非技术人员必须能够访问数据和数据产品以进行独立分析,而无需 IT 或共享域的协助。

联邦治理

管理和保护数据的责任由域和中央 IT 机构共同承担。

要了解有关数据网格的更多信息, 请阅读我们的博客,了解什么是数据网格以及为什么需要数据网格。

Gartner 将数据结构定义为一种设计概念,作为数据和连接流程的集成层。它使用对现有可发现和推断元数据资产的持续分析来支持所有环境中集成和可重用数据的设计、部署和利用。事实上,数据网格和数据结构的概念都有一个共同的目标:解决数据孤岛的挑战并增强组织内对数据的访问。

改变分布式数据策略

自数据网格概念诞生以来,该策略一直在演变。在早期,人们倾向于授予域使用任何工具来创建共享数据产品的权力。随着对标准化和互操作性的担忧出现,这一概念已经成熟。强化数据孤岛的概念而不定义数据产品如何互操作可能不是最好的方法,即使域领导者对数据有最好的理解。当今的数据网格实现强调标准化流程和平台,确保轻松创建、共享和集成数据产品。

与此同时,数据结构架构也应运而生,专注于技术、自动化和中央治理控制。虽然数据网格和数据结构可能并不竞争,但它们会相互影响,促使人们做出调整以满足市场需求。现代数据从业者探索数据结构架构如何支持数据网格概念,例如联合治理、数据产品和域所有权。这种交集反映了数据管理策略的不断发展。

数据网格与数据结构

数据集成是数据网格和数据结构这两种方法的关键,通过虚拟化实现数据民主化正成为首选架构。虚拟化允许数据保留在其源域中,并虚拟化数据集以实现数据民主化。然而,数据结构和数据网格的概念在治理、自动化和消费/发现方面存在分歧。

自动化

数据结构利用自动化实现自助服务,而数据网格依靠领域专家将他们的专业知识嵌入数据产品中。

治理

数据结构依赖于中央治理控制,而数据网格采用联合方法,各域负责管理自己的数据。

消耗

数据结构将数据资产整合到数据目录中,或部署知识图谱以映射整个组织的数据资产。数据网格方法通过域创建的数据产品(通常通过数据产品市场发布)公开数据。

随着数据网格概念和数据结构技术的发展,它们开始融合。实践者正在尝试各种级别的控制、数据整合和自动化。人工智能在实现这种融合方面发挥着重要作用。

随着市场的发展,自动化、人力联合、中央治理或数据资产与数据产品之间的竞争越来越少,而整合所有最佳功能并利用合适工具完成合适工作的策略则越来越重要。数据管理平台和分析网关支持这些集成方法。

自动化——人与机器

在现代数据网格和数据结构方法中,两种策略都在领域专家和自动化之间取得平衡,以不同的方式整合这些资源。数据结构使用自动化来实时集成数据。人类在解决 AI 警报发现的问题时扮演着更被动的角色。

数据网格专注于数据生产者创建的数据产品。人工智能帮助生产者自动执行重复性任务,无需编码技能;然而,了解数据细微差别的人仍然是这一过程的核心。自动化数据整理流程和人工智能辅助数据分类就是这种共生关系的例子。

这些方法可以共存于同一战略中,流程中的不同参与者以不同的方式依赖自动化。关键是在人力专业知识和自动化之间找到适当的平衡,以有效优化数据流程。

消费与发现——数据产品与数据资产

在数据管理中,数据结构架构产生数据资产,而数据网格产生数据产品。发现和消费方法都可以与数据网格结合,增加更多控制以将数据资产打包成数据产品。

数据网格方法侧重于将数据产品作为共享数据的主要载体。在数据产品市场上发布的数据产品更丰富,而且可以说更有价值。它们通常由在知识渊博的领域专家的指导下合并和规范化的数据资产组成。数据产品可重复使用、更持久,并且更适合在特定数据域之外的外部使用。

组合方法可以将整合的数据目录展示给技术水平较低的数据消费者,使他们能够创建数据产品以供共享。利用 AI 将这些数据资产展示给数据消费者(类似于数据结构)可以减少访问数据所需的技术技能。LLM 使 SQL 专业知识有限的数据消费者能够有效地探索和查询数据资产。

无论是数据结构还是网格,数据目录都是该策略中非常重要的一部分。网关平台正在创建涵盖整个组织的统一数据目录,并有效地组织数据资产。这些平台还利用 GenAI 工具减少手动工作,帮助进行数据分类和数据规范化,以支持强大的数据模型和业务词汇表。

人工智能的持续进步将继续提高数据生产者的效率,利用自动化技术创造数据产品。此外,专家们有机会训练人工智能,帮助数据消费者充分利用他们的数据。熟练的人类和强大的机器之间的这种协同作用代表了不断发展的数据管理格局中两全其美的方法。

数据治理——联合与集中

新兴平台和工具正在推动治理的进一步联合。治理工具使中央 IT 部门能够更轻松地放弃更多控制权,同时保持有效的监督。

将数据治理控制集成到数据管理平台中,使所有数据团队成员能够积极参与治理并承担责任。

域管理器控件IT 经理控制数据生产者控制
控制对域的访问控制对数据平台的访问表级别的细粒度访问控制
控制对数据的细粒度访问控制域的组织方式

随着主动数据治理的出现,自动化与数据治理的融合正在不断发展。主动数据治理是一种监控数据资产并在出现问题时向生产者和消费者发出警报的技术。

在数据网格的背景下,治理超越了数据资产,涵盖了从源头到数据产品的端到端数据生命周期。数据治理和质量管理并不会随着数据网格中的数据资产而结束。公共数据产品通过人工反馈循环不断改进和监控。这一迭代过程确保数据产品对消费者而言始终具有相关性和价值。

随着数据结构和数据网格功能的融合,访问数据的灵活性越来越高。用户可以通过符合其技术技能和数据理解的方法来访问和发现数据。未来可能会看到数据网格和数据结构元素的融合,从而产生独特的组合,充分利用人员、机器、治理和消费策略的优势。数据网格和数据结构之间的区别可能会逐渐消失,从而产生更加个性化和适应性更强的数据管理策略。

Discover the Latest in Data and AI Innovation

  • Blog

    AWS re:Invent 回顾

    Read More

  • Blog

    数据分析中的生成式人工智能——人工智能如何让数据访问变得更容易

    Read More

  • E-book

    使用现代数据堆栈的非结构化数据

    Read More

Request a Demo TODAY!

Take the leap from data to AI