如何利用语义和虚拟化使数据管理面向未来


数据需要背景;没有背景,数据就只是文字和数字。要使数据有价值,人们需要了解它代表什么。人们需要背景。为了更好地理解数据,分析师还需要了解数据收集的时间、地点和方式。在许多情况下,这可能是微妙且相互矛盾的。数据是在马萨诸塞州还是美国收集的?是在日历 Q1 还是财政 Q1 收集的?

数据语义提供了这种上下文,是数据堆栈的重要组成部分。语义层提供了数据的逻辑视图,使业务人员更容易使用它。它将技术数据结构转化为业务用户可以理解的术语。

语义层的关键组件包括:

数据目录
数据目录

数据目录是组织数据资产的清单,对其进行描述,以便数据专业人员可以轻松找到所需内容。

数据字典
数据字典

数据字典定义了组织的数据结构、数据元素的含义和用法。

商业词汇表
商业词汇表

业务词汇表定义了常用的业务术语、概念和规则。

语义碎片化

由于语义非常重要,因此它们遍布整个组织。多年来,语义层不断发展,并已在不同的地方实施,每个地方都有独特的标准。由于缺乏统一的定义和上下文,数据消费者很难以标准化的方式访问所需的数据,从而形成了壁垒和数据孤岛。

语义层通常是为其部署环境而创建的。虽然语义层可能能够很好地实现其创建目的,但语义碎片化是一个日益扩大的鸿沟,阻碍了数据共享。

例如,BI 工具具有独特的语义层,每个层都有自己的数据定义。典型的组织使用近四种不同的 BI 工具,这使得跨部门协作颇具挑战性。

语义层也被编入非常严格的数据管道中,需要开发人员执行任何更改。随着管道需求的变化,通常不完全了解数据上下文的程序员需要实施更新。数据上下文在此过程中经常被扭曲,使其与其他管道和工具越来越不一致。

数据仓库还具有自己的语义层,并与位于其上的数据集市集成在一起。这些语义层通常对于每个数据仓库或维护数据集市的团队都是唯一的。这种碎片化使得与其他部门的同事共享数据变得具有挑战性,因为他们可能不了解数据模型的细微差别。

数据仓库

组织已使用数据湖将数据集中到一处,使其更易于访问。然而,数据模型之间的差异仍然是数据集成和共享的障碍。即使数据可能位于数据湖中的同一位置,但如果没有相同的数据定义,就很难进行同类比较。例如,一些数据集可能将客户视为个人,而其他数据集可能将客户归类为公司。这实际上取决于数据收集方式和原因的背景。每个数据集的语义必须规范化,才能正确分析共享数据。

随着数据变得越来越重要以及世界继续尽可能多地收集数据,管理分散的语义生态系统的挑战只会越来越大。

利用数据虚拟化和通用语义层解决碎片化问题

数据虚拟化和通用语义层可以驯服语义碎片,实现更大的数据共享和自助服务。

通用语义层是将数据统一转换为业务术语的单一事实来源。它独立于平台,不附加到管道、工具或仓库,而是设计为位于原始数据资产和分析工具之间。为了使通用语义发挥作用,数据虚拟化工具必须将元数据和语义与数据平面分开。这种方法允许分析师使用数据表示,而原始数据保留在源系统中,分析师通过统一的数据模型与其交互。在数据保留的同时,元数据被合并为单一来源并组织成一组语义。当数据虚拟化启用通用语义层时,分析师突然拥有一个易于理解的业务数据的单一视图,无论它在哪里,他们都可以查询它。这种统一性允许单个数据查询同时访问多个数据存储,从而将数据发现提升到一个新的水平。通过抽象数据存储的复杂性和数据语法的不一致性,技术水平较低的用户可以访问他们需要的数据,而无需依赖专家来查找数据并解释其含义。

数据虚拟化还消除了许多导致语义碎片化的技术。可以直接从源头查询数据,因此对具有内置语义的数据管道的依赖性降低。通过利用虚拟化和统一的数据模型,BI 平台可以从源头访问数据,绕过原生语义。数据集市也不再需要。

当数据目录、数据字典和业务词汇表整合到一个平台中时,数据消费者可以发现和访问整个组织的数据集。此功能为改进数据驱动的决策创造了许多新机会。

语义和数据管理的未来

统一语义和虚拟化数据是数据网格和数据结构等新兴现代数据管理策略的关键组成部分。这些策略和技术通过让数据消费者更容易访问数据来连接最后一英里。它们支持新的消费和发现渠道,例如数据产品或知识图谱。

有了整合的语义层,人类不仅能够更好地理解组织内部和周围的所有数据,而且机器也更容易理解。语义搜索功能允许您根据业务语言和术语搜索数据产品。当 Gen AI 可以分析单个可访问的元数据存储库时,它可以学习使用简单的语言命令检索数据。将其与可以自动创建可视化的 AI 相结合,减少繁琐分析工作的机会是革命性的。

Discover the Latest in Data and AI Innovation

  • Blog

    AWS re:Invent 回顾

    Read More

  • Blog

    数据分析中的生成式人工智能——人工智能如何让数据访问变得更容易

    Read More

  • E-book

    使用现代数据堆栈的非结构化数据

    Read More

Request a Demo TODAY!

Take the leap from data to AI