数据对于任何企业的决策都至关重要。但是,当决策者必须等待 IT 部门建立数据管道来访问数据时,机会就会错失,决策也会不理想。这是大多数大型企业面临的挑战,它们试图通过数据驱动来提高绩效。
数据管理面临的最大挑战之一是,过去的技术无法满足当今日益增长的数据需求。ETL 方法已有数十年历史,在较为简单的时代行之有效的集中式治理结构无法扩展以满足 AI 时代的复杂性。
更加分布式、敏捷性和灵活性的创新方法开始进入市场。数据网格策略就是一个例子。
数据网格是一种现代数据集成策略。它基于分布式数据架构,从统一和集中的数据存储和管理转向更加共享和联合的方法。它是建立在单片架构上并依赖众多依赖项的 ETL 数据管道和数据湖的替代方案。
数据网格架构不仅仅是一种技术,它是一种综合战略,涵盖了数据管理和数据消费中贡献者角色的变化。数据网格战略有 4 个原则。真正的数据网格战略必须
数据网格架构将对数据的更多命令和控制重新分配给独立域。域是从事特定业务功能的组。这可能是区域运营、业务线或业务功能,例如销售、营销、人力资源或财务。
这些领域在开展日常业务运营时会收集大量数据。领域驱动方法将控制和管理这些数据的责任更多地交给了数据收集者,而不是集中的权威机构。
有了数据网格,域就有了更大的自主权,但它们不能为所欲为。在联合数据治理方法中,数据治理的责任由中央 IT 主管部门和域级主管部门共同承担。IT 负责创建统一适用于所有域的框架和策略,而每个单独的域则管理仅适用于其自己的数据和业务流程的规则。 在此处了解有关联合数据治理的更多信息
当您转向数据网格架构时,您就从项目思维转变为基于产品的方法。领域团队不会在每次需要一组新数据时创建临时 ETL 管道,而是会主动构建可重复使用的数据产品,以提供决策者所需的数据。
为了有效,这些产品必须是可发现、可寻址、值得信赖和可自我描述的。这意味着;
数据网格架构必须能够让非技术数据消费者无需技术专业人员的协助即可访问。这可以通过数据产品市场或通过能够从分析或建模工具直接访问数据产品的技术来实现。数据网格解决的最大痛点之一是打破数据与数据使用者之间的技术障碍。自助服务提高了决策的质量和速度。它还减轻了数据工程师因满足数据请求而应接不暇的负担。
在当今环境中,对数据的需求超出了 IT 运营提供数据的能力。组织知道,更多以数据为主导的决策会带来更好的结果和绩效,但提供适合目的且值得信赖的正确数据的访问权限在技术和文化上都具有挑战性。
在典型的组织中,数据被收集并存储在数据孤岛中。无论是传统的交易应用程序还是 SaaS CRM。在这些孤岛之间共享数据非常困难。为了满足共享数据的需求,知识渊博的程序员必须构建管道以在这些孤岛之间移动数据。这些开发人员必须精通 Python、SQL、R 和 Java 等技术才能满足数据请求。不幸的是,根本没有足够的熟练开发人员来满足需求。在许多情况下,等到数据请求得到满足时,需求已经不复存在,从而错失了机会。由于业务决策已经以闪电般的速度做出,而人工智能将以指数级的速度加快这一速度,这种方法在未来将行不通。
数据网格使人们和先进的技术能够协同工作,以便整个组织的决策者能够在需要时获取所需的数据。
从文化角度来看,数据网格策略赋予个人更多所有权和责任,让他们管理自己领域内的数据。这使他们更积极地确保数据的可访问性和可靠性。流程中的每个利益相关者都有自己的角色。
数据网格的自助服务功能和强大的数据目录使数据分析师能够通过数据产品探索和部署所需的数据。这些分析师不再被迫处理手动任务或等待 IT 访问数据。他们可以利用自己掌握的技能为决策者提供更多见解和分析。
域管理员比中央管理机构更了解他们收集的数据,因此有权管理这些数据。对数据环境的深入了解使他们能够更好地管理数据并提升其价值。
在转向数据网格的过程中,IT 专业人员和数据工程师能够通过提供更具战略性的服务来提升他们所提供的价值。数据工程师可以花更少的时间来编写 ETL 流程,并与数据产品生产商更紧密地合作,以更有效地访问高质量数据。他们可以就域级治理规则提供建议并执行质量指标。数据工程师还可以在管理基础设施方面发挥更大的作用,从而增强同事的能力。
数据网格在分布式架构上运行。数据不会转储到数据湖中,而是保留在收集数据的系统中。当需要数据时,它会从源中提取数据,而不是复制到另一个数据库中进行分析。这意味着存储成本降低,并且各种冗余数据存储之间的差异最小化。
分布式系统也更具可扩展性、灵活性和可访问性。虽然实际数据保持不变,但元数据被整合到单个数据库中。通过将元数据与其描述的数据分开,可以在单个目录中发现数据资产,并且可以独立于数据构建数据查询。这可以实现:
可以创建单一数据查询,使用相同的数据模型同时访问多个不同系统中的数据。
数据也不需要通过批处理来移动,而是可以实时合并并随时进行更改。
通过将数据与逻辑分离,可以减少无限数据管道产生的依赖性,从而实现更高的可扩展性。
更高的权限并不总是意味着更好的安全性。收集数据的专业人员更了解数据的敏感性。这使他们能够实施比中央权威更智能的数据治理政策。
灵活的框架治理层次结构还可以更有效地确保数据的准确性、安全性和可访问性。通过赋予域在更广泛的框架内工作的自主权,他们可以制定最适合自己的政策,但仍符合组织治理标准。由于更接近数据,他们也能够随着威胁和需求的变化而做出更好的改变。
更多的自主权也降低了分析师诉诸未经批准的解决方案的倾向。如果规则过于严格或不适用于某个用例,操作员就会想方设法绕过它们。这会产生不透明的漏洞,从而导致严重的安全威胁。
随着技术和系统的成熟,它们通常会变得更加复杂和分散。通过减少集中控制,数据系统可以快速发展,变得更加灵活和有弹性。通过委托人们处理数据,但创建适当的护栏以确保秩序,数据将变得更易于访问和有用。