每个组织都在竞相变得更加数据驱动。为什么?因为更有可能使用数据来指导决策的公司表现更好。但当今的数据管理技术在打破数据孤岛和让所有人都能访问数据方面还有很长的路要走。基于数据虚拟化构建的新兴技术生态系统可以改善数据访问和可用性。
分析师要想获取所需数据,通常必须联系一位拥有 SQL、Python 或 Java 技能的繁忙数据工程师,以构建数据库查询并提取数据集。工程师还必须熟悉相关的元数据和数据模型,以便知道要查询哪些数据。由于不同部门使用各自独特的数据模型,因此需要管理额外的复杂性。如果需要转换数据并将其与另一个数据表合并,则需要更多技术技能来构建管道。一旦构建了 ETL 管道,维护它们也是一个挑战,因为它们往往非常死板。当需要进行更改时,必须重新设计和测试它们,这不仅使更改变得困难,而且意味着很难将单个管道用于多种用途。
随着数据需求的快速增长,这种模式将无法承受建设压力。组织无法继续无休止地向其数据工程团队添加新工程师。这不仅是因为成本过高,还因为市场上没有足够的工程师。
这些挑战的最终结果是,企业在制定商业决策时进展缓慢,从而处于竞争劣势。
数据虚拟化服务为新的数据访问方法奠定了基础。数据可视化工具提供了中间件,可创建数据的虚拟表示,使其可供分析。与使用 ETL 将数据移动到分析位置的方法不同,虚拟化数据会保留在原处。数据不必从其源系统移动到数据湖,然后再移到另一个系统进行分析,这是一种常见的做法。虽然实际数据保留在原处,但元数据被分离并合并到中央存储库中。
通过数据虚拟化策略,将逻辑与底层数据分离使得数据查询的更改变得更加容易。当元数据嵌入数据源并且 ETL 管道需要更改时,工程师不仅必须了解数据模型,还必须了解连接的设置方式,以及是否需要考虑依赖关系。在数据虚拟化时添加数据源要简单得多。在数据虚拟化时,只需引用元数据并调整查询即可完成工作。凭借更大的灵活性,数据产品或数据资产可以迭代发展,为数据消费者创造更多价值。
当我们将元数据与其描述的数据分离并将其集中起来时,许多新功能便会启用。数据联合就是其中之一。即组织来自多个来源的元数据,以便通过统一的数据模型访问数据。通过整合元数据,通用数据模型可以更轻松地理解分布在不同数据库中的底层数据,从而使访问过程变得更加简单。
整合的元数据层还允许分析师创建单个查询,同时从多个数据库中提取数据,无论数据存储在何处,无论是在云端还是在本地。访问多个数据库并实时聚合和转换数据的能力开辟了一个全新的功能世界。
通过数据联合提供统一的数据模型,可以在其上构建通用语义层,使数据更加自助。当您采用代表多个数据存储并在单个数据目录中列出数据资产的单一数据模型时,探索数据以查明所需事实会容易得多。这可以实现更大的创新,因为如果没有通用语义的增强可见性,分析师将无法轻松浏览、试验或发现新数据。为了提高可用性,通用虚拟化层可能包含其他资源,例如标准化业务术语和指标的业务词汇表。这使业务用户更容易访问数据,他们几乎不了解数据的组织方式或存储位置,但可以找到数据资产。
数据治理是指为确保数据安全、私密、准确、可用和可用而采取的一切措施。新兴的现代数据技术可以改善数据治理,实现所有这些目标。
虚拟化层使单个网关能够实施集中数据治理和安全
通过将数据保存在可以更好地控制的位置,数据虚拟化可以管理跨多个数据源的访问。借助整合的元数据,可以使用细粒度的访问控制来屏蔽列级别的数据以隐藏身份。
通过将数据保存在一个地方,您的数据可以更加准确。无需同步数据库或移动数据,从而减少过程中发生的潜在错误。当数据的重复副本不分散在组织中时,源系统中的数据将成为唯一的事实来源,从而减少因数据集老化而导致的数据冲突。
数据虚拟化使数据可以实时获取。它还支持联合数据治理,为业务领域提供了更多自主权,可以授权需要访问数据的人访问。
数据虚拟化实现的语义层使业务用户能够跨业务领域通过通用定义访问数据,从而提高数据的可用性。
数据虚拟化层充当数据的单一网关,因此可以更轻松地控制和监视谁有权访问哪些数据集。通过这种监督,可以将权限分配给数据域,同时 IT 仍保留高级治理。联合数据治理和通用语义使面向领域并以数据产品为中心的数据网格架构成为可能。在此处阅读有关数据网格的更多信息
数据结构也建立在数据虚拟化、数据联合和通用语义层之上。它们与数据网格不同,因为它们没有将联合数据治理纳入方法中。在此模型中,IT 负责组织的数据和知识图谱实现的数据发现。
数据虚拟化及其周边不断发展的技术生态系统构成了一项变革性创新,因为它们建立在它们运行的平台(云)的优势之上。数据湖和 ETL 技术是为本地生态系统设计的,没有考虑到云的功能。随着数据转移到云中,应该考虑由这种新环境支持的新方法。云的始终在线互连和即时可扩展性是设计现代数据管理策略时需要考虑的功能。
当您可以实时获取数据时,为什么要等待批处理?为什么不在分析数据时启动虚拟机来存储数据?为什么不将所有数据互连并从单个位置访问数据?
将旧的做事方式适应新平台是技术转型和平台采用的常见趋势。当移动设备平台出现时,企业修改了其企业应用程序和 Web 应用程序以在移动操作系统上运行。虽然这种方法可行,但它们并非为功率和带宽有限且移动的设备而设计的。标准很快就变成了在本机操作系统中构建的应用程序,这些应用程序考虑到了平台带来的约束和机会。将应用程序迁移到云中也是一样。第一次迭代是将整个整体应用程序迁移到容器中,并称之为云原生。现实情况是,只有当应用程序被设计和构建为在多个不同的容器中运行,并利用云的始终在线的互连性和可扩展性时,它们才是真正的云原生。现在轮到数据管理实现云原生了,而数据虚拟化是基础技术。
数据虚拟化是一项强大的技术,它只是无限复杂的现代数据策略的基础。