数据民主化的日益普及正在创造新的框架和技术,用于跨数据孤岛共享数据。这些策略正在减少业务领域之间数据共享的摩擦,并且数据访问变得毫不费力。集成数据的主要挑战之一是使用以独特方式描述不同数据库和数据集的不同数据模型。
合并数据集的传统方法是从数据库中提取一个数据集,对其进行转换,然后将其加载到另一个数据库中,以匹配该数据库的数据结构。为了执行 ETL 过程,数据工程师需要了解移动和转换数据以及组织和标记每个数据集的技术方面。他们对两个数据集如何建模的理解非常重要,以确保它们可以映射到一个数据集中。
现代数据虚拟化技术通过将数据从其底层数据结构中抽象出来,简化流程并消除 ETL 需求,提供了对不同数据源的更大访问权限。虽然这项技术功能强大,但它并没有提供统一的数据访问方式。
数据虚拟化提供了单一接口或连接层,允许从一个地方访问分布式数据。但要理解数据的含义,分析师仍然必须依赖每个数据库的每个单独数据模型来获取上下文。为了进行有效的分析,我们需要了解每个系统中的数据代表什么以及它们彼此之间的关系。这些见解需要有效的数据联合策略,以标准化我们访问不同数据存储的方式。跨数据孤岛映射数据和关系的统一数据模型是一个关键组成部分。为了更轻松地访问,将这些关系映射到业务术语的业务词汇表可以提高该数据模型对业务领导者和决策者的可访问性,从而使其更有价值。
联合数据模型基于从连接的源系统中提取的元数据,并合并为统一的逻辑数据结构。当数据围绕单一数据模型组织时,数据平台可以与所有异构数据库进行交互,就像它们是一个数据库一样。使用这种方法,您可以通过一个联合查询从多个系统中提取数据。此功能在集成数据和创建数据资产和数据产品时为数据工程师和熟练的分析师节省了大量时间。
从物理层抽象出逻辑也使得自助数据分析更容易,因为工具不太复杂并且不需要与多个底层数据库结构交互。
在联合数据策略中,元数据用于创建全局或联合数据目录以访问数据。此数据目录利用中央元数据存储库为分析师创建可搜索的数据资产清单,以构建联合数据查询。
联合数据目录支持搜索所有数据资产。它还可以整合沿袭,以便用户和数据管理员了解数据在过去是如何变化的。
联合数据策略还可以管理谁有权访问哪些数据。联合数据目录可以充当安全网关,在一个地方管理身份,而不是单独管理每个数据库的访问权限或对所有数据库应用统一规则。此外,它还支持对所有数据资产的授权访问。
有了标准化的数据目录,创建自助服务功能就简单多了。自助服务平台可以自动化访问数据的过程,但使用更统一的术语。由于业务用户知道他们正在寻找什么数据,因此他们更加自给自足。更简单的模型还可以帮助 AI 更好地理解如何访问数据。统一定义数据元素的统一标准化数据语义集使 LLM 模型更容易使用业务术语将数据请求转换为 SQL 查询。
虽然联合数据模型非常适合跨数据源创建单一数据查询,但这些模型通常不适合业务用户。在跨域和跨地区联合数据时,业务术语表尤为重要,因为每个业务领域的业务术语定义有时不同。不同地区的术语也不同。
例如,英国的“营业额”与美国的“收入”。这两个术语在数据模型中含义相同,但每个地区使用的词汇不同。详细的业务词汇表可以精确定义业务术语及其同义词,从而更轻松地查找数据并理解其含义,尤其是对于以业务为导向的决策者而言。
过去,业务术语表以定义每个术语的独立文档形式存在。如今,业务术语表与数据字典和数据目录相连,用户只需使用业务术语即可自动获取数据。这一改进使业务用户只需了解描述他们所寻求数据的业务术语,即可在组织中自由访问数据。
此功能为业务术语、定义和相关元数据创建了单一真实来源。
此功能将业务术语组织成结构化的分类法或层次结构。层次分类允许用户探索相关术语和概念,从而加深对组织领域的了解。
有时,词汇表中的业务术语可以自动分配给数据资产,将技术元数据与相关业务背景联系起来。此自动分配过程有助于通过向每个数据资产添加业务本质来规范技术元数据,从而增强其相关性和可用性。
此功能将业务术语与技术元数据连接起来。业务术语表有助于跨数据集标准化术语。规范化技术元数据可确保数据描述的一致性,使用户更容易解释和分析信息。
业务术语表应自上而下构建,以符合业务需求。创建业务术语表的最佳方法是使用现有的标准行业术语。这种方法将为您提供坚实的基础,并促进与第三方更好的数据共享。您还可以利用分层分类结构来构建业务术语表,这将有助于更有效地组织和分类数据。
由于每个领域都有自己的业务词汇表和逻辑模型,因此在合并时,不同业务组可能会对术语和数据的解释方式产生冲突。拥有管理这些分歧的资源是功能良好的通用数据词汇表不可或缺的一部分。
数据管理员还可以帮助标记数据资产以指定其价值或标记数据质量问题。虽然数据管理员可以带头进行数据分类,但正确分类数据以使其更易于访问和发现是与数据资产交互时每个人的责任。人工智能可以帮助支持整个组织的这一过程。如果确实出现冲突或不确定性,人工智能可以从现有数据模型中学习并建议分类指定。
统一的数据模型和业务术语表对于协调业务数据和业务本身而言是一笔巨大的财富。随着不同领域对数据的思考更加统一,沟通更加一致,随着业务术语和指标标准化,决策可以更具协作性和效率。
人工智能在促进高效数据目录和业务词汇表方面将发挥越来越重要的作用。随着人工智能模型变得更加有效,它们将更好地了解整个组织的数据资产。在人工智能的帮助下,分析师将拥有一个副驾驶,帮助他们找到准确的数据集,使他们能够获得所需的答案。
统一数据访问并从实际数据中提取元数据可以提高数据利用的灵活性。统一的数据目录使查找和访问数据更快、更高效。借助此功能,可以更快、更有效地回答业务问题。组织做出高质量决策的速度越快,他们在市场上的竞争力就越强。
数据需求的不断增长创造了一种环境,即通过 ETL 管道在需要的地方复制数据是不可持续的。整合数据存储位置和访问方式信息的模型更具可扩展性。管理元数据和数据上下文的联合数据策略提供了未来所需的灵活性和敏捷性。