理解信息是人类永恒的追求。自从史前人类开始在洞穴墙壁上作画以来,用于管理数据的技术一直在不断发展。今天,我们正在见证范式转变,技术进步的速度正在改变我们分析数据和支持决策的方式。
数字存储和数据传输发展迅速。过去几十年来,技术已经提高了捕获、存储和管理日益庞大且形式多样的数据的能力。
现代数据分析是随着商业智能应用程序和数据仓库的出现而出现的。在这个发展阶段,数据被捕获并存储在一个结构化程度很高的关系数据库中。数据表之间的映射定义明确,以支持轻松访问商业智能应用程序。结果是数据分析的输出非常具有描述性和诊断性。基于这些数据,业务经理可以了解历史绩效,识别潜在的模式和问题。
云计算的可扩展性、移动和物联网设备的数据收集能力以及开源技术的支持创新能力的出现,都开启了大数据时代。传统数据仓库和结构化数据库无法扩展以满足容纳不断生成的大量数据的需求——从 2010 年到 2017 年,每年的数据产量从 2 ZB 增长到 26 ZB。
在此期间创建的大部分数据都是非结构化的;因此,将其存储在结构化关系数据库中非常困难。数据湖的创建就是为了解决这个问题,它将这些数据存储在平面文件中。如今,数据湖中 80-90% 的数据都是非结构化的。存储了所有这些数据后,下一个挑战就是访问和使用这些数据。
为了解决这个问题,出现了一批新的分析师和数据工程师,他们致力于培养利用非结构化数据所需的技能和工具。这包括开源项目、构建数据转换技能以及创建更复杂的分析技术。采用元数据管理来支持在组织性较差的世界中更方便地访问数据也变得更加重要。
随着获得更多数据、新技能和创新工具,分析变得更具预测性,并且出现了可以为未来事件提供更多见解的模型。
数据收集的增长和对数据分析技能培养的日益重视促使市场将重点转移到学习如何利用这些能力来获得新的竞争优势。将科学方法与统计学、算法开发和系统知识相结合导致了数据科学的出现。这使组织能够利用其数据不仅构建预测模型,而且还能创建系统来为任何决策提供最佳替代方案。这一进步带来了更多的自动化,公司变得更加敏捷和反应灵敏。
多年来,数据收集、存储和分析发生了巨大变化,但访问和集成数据却进展甚微。ETL 等技术和方法是在云、开源技术和 AI 普及之前开发的。
人们迫切希望应用数据、分析和数据科学的功能来快速解决实际业务问题,因此需要重新思考如何更有效地访问数据。数据已被锁定在数据湖或业务应用程序中,而合并这些数据集以进行更深入分析的技术却没有跟上。
自数据仓库和 BI 出现以来,集成和访问数据的标准方式一直没有改变。SQL 仍然是从数据库查询数据的标准,而 ETL 仍然是集成来自不同系统的数据的标准流程。要以这种方式访问数据,用户必须编写 SQL 脚本来查询数据,了解数据的组织方式,并了解数据库技术的工作原理。要合并数据集,必须构建复杂的流程来从一个系统中提取数据、对其进行转换并将其加载到另一个数据库中。从根本上说,这些流程并没有改变,它们仍然很复杂且耗时。
在克服访问数据的技术障碍时,政治挑战也会成为阻碍。那些收集和负责数据的人可以限制访问。如果他们共享数据,这些域名所有者必须监控数据的使用情况。敏感数据尤其令人担忧。如果他们共享数据,数据是否会得到妥善存储?数据是否会得到应有的尊重?例如,不了解《健康保险流通与责任法案》(HIPAA)规则细微差别的分析师是否会违反将公司及其客户置于风险中的政策?
此外,不同部门的分析师是否能理解与他们共享的数据的含义?他们是否会在适当的背景下分析数据?这些都是限制当前环境下共享的合理担忧。
数十年来,传统技术的应用也形成了传统的思维模式,限制了人们更有效地访问数据,并且以项目为中心。现有技术和实践迫使数据团队为每个数据请求创建新的管道。这种被动的方法没有考虑到构建可以使用和重复使用的更通用的管道所带来的规模经济。
该行业正在进入一个由自动化、机器学习 (ML) 和人工智能 (AI) 主导的新发展阶段。决策速度正在加快,AI 模型的质量将成为未来市场的关键差异因素。数据科学家需要快速访问高质量数据以提高模型准确性。管理人员还需要访问丰富的上下文数据,以跟上自动化驱动决策的步伐,应对 AI 无法应对的复杂挑战。
数据驱动的决策对于在竞争激烈的市场中取得成功至关重要,但分析师所需的数据工程技能却十分匮乏。人工智能已成为主流,面部识别和 ChatGPT 等影响深远的应用程序已势头迅猛。随着创新者努力将人工智能融入自动化和业务流程,这些应用程序将被证明只是长期趋势的开始。
人工智能的影响广泛而深远,但这些模型的可靠性仍值得怀疑。监控人工智能和自动化,同时确保它们能够获取最佳数据,将成为提高效率的关键因素。那些不能快速适应的企业将会被淘汰。
企业必须采用新的数据分析方法才能在这种动态环境中取得成功。这一新模式围绕四个概念:
旨在在分布式云环境中高效运行的强大查询技术正在兴起。Facebook 开发的 Trino 等开源技术将计算功能与存储功能分开,以便每个功能都可以独立扩展。该技术还将查询过程分解为多个步骤。此架构运行一段称为协调器的代码来管理执行查询每个单独数据库的过程的多个工作程序。该技术使单个查询能够同时从各种来源提取数据。它还允许并行处理,以便可以更快地访问大型数据集。
由于数据存储在多个数据库中,并且可以通过单个联合 SQL 查询进行访问,因此数据分析变得更加简单和快捷。IT 和数据工程师无需创建复杂的 ETL 管道来将数据从源移动到目标数据库,而这些数据库必须合并和转换后才能进行分析。数据还保存在一个地方,从而减少了 IT 资产中存储的重复数据量,并降低了存储成本和错误。不要合并数据并添加治理;将数据保留在原处并集中治理、元数据和可发现性。
虽然联合数据查询在获取数据方面非常出色,但它们在查找数据方面却不那么出色。它们需要地图或索引来缩短查找适当数据所需的时间。这一挑战导致了创新发现机制的产生。元数据管理策略使联合查询能够更高效地运行。通过将元数据整合到一个中心位置,联合查询引擎可以快速确定在哪里找到数据,而无需为每个查询扫描每个不同的数据库。
可以将整合的元数据组织到数据目录中,并使用知识图谱映射不同数据集之间的连接。索引元数据可大幅减少联合查询的运行时间,从而使数据更易于发现,分析更高效。
虽然开源软件很棒,但通常不适合企业使用。为了让组织确信数据是安全的,让决策者相信他们的数据是准确和完整的,需要进行适当的治理。
在实施数据联合策略之前,当数据集中并通过 ETL 数据管道访问时,IT 必须在每个管道中构建安全性和治理。随着这些技术障碍的消失,新的治理方法成为可能。
Trino 等开源软件支持的联合层能够实现更多控制,从而更有效地实施治理。访问不需要在每个单独的源系统上进行控制和管理,而是在集中层进行控制和管理。通过集中详细的元数据,可以从中央平台而不是数据源管理访问和数据质量。此配置可以实现更高的效率和更细粒度的访问控制。通过 ETL 集中数据会导致上下文丢失,并且跟踪沿袭变得更加困难。直接访问源系统使数据沿袭变得更加简单。
数据分析架构的新转变使共享和协作变得更加容易。通过集中元数据,理解数据及其上下文变得更加简单,使跨域安全共享数据变得更加简单。访问权限可以在数据级别而不是技术级别定义。数据工程师不必确定谁有权访问哪个源系统并将该策略构建到他们的管道中。通过将元数据从源数据中抽象出来,可以在数据表级别定义访问权限,从而实现更有效的数据共享。
随着数据共享,数据分析成为一项团队运动。数据素养不断提高,数据科学知识成为任何决策者的核心技能。数据科学家不再像神一样,因为他们所做的工作越来越多地可以由更多数据素养高的同事来管理。并非所有员工都是数据科学家,但理解数据科学概念正在成为一项核心技能。
将数据打包成可重复使用的数据产品为这一新模式提供了新的机会。有了在单一位置可用的访问和管理数据的工具,构建可重复使用的数据产品就可以变得简单。一旦我们通过整合的元数据管理更好地了解了我们的数据,构建一次性的数据管道项目(包括搜索数据、理解数据和独立应用治理)就不再是唯一的选择。我们可以开始将数据视为一种与治理打包在一起的产品,并且设计得更加灵活和可重复使用。数据产品使用集成、清理、规范化和增强的数据构建,以提供最高价值的数据集。
通过更细粒度的访问控制,更多用户可以访问数据产品。这种方法与不灵活的单片式自定义数据项目有很大不同,在单片式自定义数据项目中,必须在源系统级别定义访问权限。将数据产品打包并发布到市场可使它们更易于访问和自助服务。
转向数据产品也使数据分析变得更加主动,而不是被动。管理人员可以预测可能需要哪些数据产品,而不是响应数据请求。这种转变使产品管理经验变得有价值。考虑数据消费者未来需求以及如何最好地提供价值的思维方式是支持成功数据产品战略的特质。
新的数据分析范式将带来更大的创新和实验。有了集中的元数据支持全局数据目录,索引整个 IT 资产中的数据,发现新数据将变得更加简单。分析师、工程师和数据产品经理可以探索新的数据源来增强他们的分析或数据产品。随着数据产品在市场上推出,决策者和数据科学家只需点击几下鼠标即可访问数据集。Eckerson集团——数据分析咨询和研究集团预测,每个大型组织都将在三到五年内拥有一个数据产品市场。
发现新数据源和数据集是开展更多实验和创新的关键。整合的数据目录和数据产品市场使发现变得更容易。
不断发展的查询架构为利用人工智能提高效率和覆盖范围创造了机会。数据正变得更加民主化,因为任何拥有一些 SQL 技能和适当权限的人都可以利用联合查询引擎通过单个脚本从组织中的任何位置提取数据。这种能力与人工智能相结合,使数据更加自助。大型语言模型可用于将常见的业务语言转换为 SQL 查询,从而无需了解 SQL。Gen AI 还支持增强分析,业务用户可以要求人工智能引擎为他们进行分析。询问聊天机器人,人工智能将显示数据集之间的相关性或识别推动趋势的因素。这使非技术分析师和决策者能够更有效地自助访问数据。
随着人工智能变得越来越强大,数据访问障碍越来越少,人工智能洞察将直接输入到自动化工作流程中,无需人工干预即可直接解决问题。虽然这听起来很不切实际,但这种现实可能在我们意识到之前就已经到来了。人类将不得不监控这些过程并仔细检查人工智能的输出。不仅要构建这些模型,还要监控它们,这需要人类能够轻松访问数据,并了解这些模型的工作原理。