通过新模式降低企业分析成本


随着数据需求的增长,获取最佳数据以支持数据驱动的决策正在成为一项重大开支。在云计算和存储普及之前开发的数据移动和访问方法现在难以有效扩展以跟上发展步伐。

传统数据访问技术并非为处理云的始终在线和连接的实时功能而设计的。在云出现之前,数据必须存储在靠近应用程序的位置才能进行分析。即使有了云的实时特性,移动、合并和准备分析数据的基本方式也没有发生重大变化。这种缺乏适应性会阻碍分析速度,并忽略降低基础设施和数据工程成本的机会。

在下面的分析中,我们将考虑使用 ETL(提取、转换、加载)以传统方式访问数据的成本,并将其与使用联合数据的创新方法进行比较,利用云的强大功能。

ETL 成本

计算创建 ETL 管道的确切成本很困难,但我们可以通过评估公开可用的数据并做出一些假设来估算这些成本。

从头开始构建 ETL 管道

构建 ETL 管道需要投入大量时间和资源。虽然从头开始创建 ETL 管道需要多种资源,但数据工程师会完成大部分工作。这些技术娴熟的专业人员会手动编写脚本来提取数据、对其进行转换以进行分析,并将其加载到目标数据库中。根据 Glassdoor 的数据,美国数据工程师的平均年薪超过 15 万美元;如果考虑福利和费用的总 FTE 成本,则每年的成本为 19.5 万美元,即每小时 95 美元。

据估计,创建一个基本的 ETL 管道需要一到三周的时间。假设我们假设构建一条 ETL 管道的平均工作量为 80 小时,相当于每条管道 7,600 美元。此外,这些管道需要维护,每年可能需要花费原始工作量的 20% 或每年额外 1520 美元。更复杂的 ETL 管道可能需要数月甚至数年才能建成,耗资数十万美元。仅仅构建和测试一个数据连接器就需要六周半的时间。

Wakefield Research进行的一项调查估计,组织每年花费 520,000 美元来构建和维护数据管道。

无代码 ETL 平台

从头开始编写和管理 ETL 管道可能成本高昂,但有些工具可以简化流程并自动执行部分编码要求。可以使用无代码平台构建不太复杂的 ETL 管道。

这些平台利用自动化和人工智能来减少构建 ETL 管道所需的时间和技能。利用目前可用的一些工具,只需三天即可创建 ETL 管道。

虽然这些平台可能会降低手动构建管道所需的资源,但它们也需要付出代价。通常,这些解决方案基于数据量和连接到平台的数据库数量。对于较大的公司来说,这些成本会迅速增加,而且无代码解决方案可能无法支持许多边缘用例。

随着使用无代码解决方案构建 ETL 管道的成本大幅降低,管道数量将会增加。ETL 管道的激增带来了一个新问题:数据重复和存储成本上升。

存储成本

存储策略有各种配置和架构,因此精确的存储估算非常复杂。但是,基于公开可用的数据,我们可以量化存储和管理 ETL 策略产生的重复数据相关的成本。

每次从一个系统提取数据集并加载到另一个系统时,都会创建一个重复的数据集,需要存储这些数据集。管道和数据请求越多,创建的重复数据集就越多,从而增加存储成本。

大数据的增长和大量数据移动导致数据存储中维护的冗余、过时和琐碎 (ROT) 数据增加。Statista 报告称,企业持有的所有数据中有 8% 是原始数据,91% 是复制数据。Veritas Technologies 执行了一个类似的研究项目,发现 16% 的数据业务至关重要,30% 是冗余过时琐碎 (ROT) 数据,54% 是暗数据,其中数据的价值未知。这两项研究得出了类似的结论:企业维护着大量无用数据,导致在存储无用数据时浪费了大量资源。

如果考虑到 Google Cloud 每月每 GB 收费 0.02 美元,那么每 TB 收费 20 美元,每 PB 收费 20,000 美元。根据 Veritas Technologies 的数据,平均每个组织每年花费 650,000 美元来存储非关键数据。

多种因素推动了 ROT 的增长,其中数据孤岛的维护是一个重要驱动因素。由于每个业务功能都维护自己的数据库来支持每项操作,导致许多数据库中重复出现通用数据集,从而浪费了存储资源。

ROT 导致的坏数据

治理成本

存储 ROT 不仅会产生存储成本,还会增加风险。同一数据集的多个副本会导致事实来源相互冲突,而各种数据格式则会导致混乱。

为了避免数据质量低劣,必须实施有效的数据治理政策。2021 年, Gartner估计,数据质量低劣每年平均给组织造成 1290 万美元的损失。

传统的手动数据治理流程已不再足够,需要投资于自动化数据治理工具和策略。手动审核报告和设置自定义规则非常耗时。为每个 ETL 管道单独实施这些政策、规则和监督需要细心关注和时间投入。

投资于防止不良数据是值得的。如果防止不良数据花费 1 美元,则修复不良数据将花费 10 美元,而数据失败则需要花费 100 美元。数据仓库研究所表示,不良数据每年给公司造成 6000 亿美元的损失。

冗余数据也会带来隐私风险。数据孤岛中复制的大部分数据都包含 PII 数据(个人身份信息)。这种方法增加了数据泄露的可能性。

挑战只会越来越大

数据收集和存储的持续指数级增长只会加剧由低效的数据集成和管理策略造成的重复数据问题。Statista估计,到 2025 年,将创建、使用、复制和捕获 181 ZB 的数据。

软成本

由于需要从头开始开发 ETL 管道或使用无代码平台,数据访问并不像它应该的那样敏捷。当分析师和决策者无法快速访问高质量数据时,机会就会丧失。这些机会成本很难量化,但却是真实存在的。随着整个组织做出的决策数量不断增加,即使只是稍微增加洞察时间也意义重大。通过优化整个组织的决策,机会成本的节省会随着好的决策带来更好的决策和选择而增加。

新范式

一种新的方法或数据访问范式正在出现,它将降低数据访问和管理的成本。这种方法脱离了 ETL,专注于数据产品的集中治理、安全和访问。 (要深入了解新数据范式,请务必阅读此博客文章)

这种新方法无需移动或复制数据即可访问数据。此策略还利用了可重复使用的数据产品,无需为每个用例创建 ETL 管道。这种转变可以节省 40-50% 的自助数据配置时间,每个管道可节省 4,100 美元,对于在 ETL 管道上投入资源的典型组织来说,可节省 225,000 美元。

由于无需通过 ETL 流程将数据从一个数据库移动到另一个数据库,因此存储成本得以降低。由于 ETL 管道不会产生冗余数据,因此存储和准备成本可降低 30-40%。

降低成本

这种新模式利用数据产品将数据传送到分析平台,从而与数据管道相比,减少了创建这些数据产品所需的工作量和成本。它们创建时间更短,所需的技能也更少。创建一个数据产品大约需要 24 小时,比创建一个基本的 ETL 管道少 70%。此外,这项工作可以由数据分析师而不是数据工程师来完成。美国数据分析师的平均工资为 77,000 美元,或 FTE 总成本为 100,000 美元。这个成本相当于每小时 50 美元,而数据工程师的成本为 96 美元。根据这些估算进行计算,创建一个数据产品的成本为 1200 美元,而一个简单的数据管道的成本为 7600 美元。

新的数据产品方法减少了对数据存储的需求,但实时访问数据会增加网络和数据库处理成本。虽然存在权衡,但只有在提供有价值的数据进行分析时才会产生网络成本,而存储无用和未使用的数据则会产生存储成本。

数据治理自动化的进步也推动了当今数据管理领域的成本大幅节约。自动化治理包括自动化数据分类、访问控制、元数据管理和数据沿袭跟踪。数据治理解决方案使组织能够利用算法和工作流来自动应用数据策略、监控数据使用情况并在数据质量问题成为问题之前解决它们。Informatica估计,组织可以使用自动化治理解决方案节省 475,000 至 712,000 美元。

通常,这些解决方案是独立的软件包,可以连接到您的数据管道,25 个用户每年的成本约为 20,000 美元。数据产品平台方法将治理置于流程的中心,并包含在平台成本中。

数据产品推动的经济体

通常,ETL 管道是为一个特定用例构建的,其提供的好处必须超过构建它们的成本,因此它们的价值相对容易理解且是静态的。数据产品的适应性使其价值更具可扩展性。使用在标准平台上构建的数据产品,可以轻松组合多个数据产品以创建新的数据产品。此外,特定的数据产品可能适用于特定用例,但可以轻松适应另一个在单独的应用程序中增加价值的机会。

这种适应性使数据产品的价值得以提升,因为它们可以解决原始开发人员可能未曾想到的新用例。随着价值的提升和创建数据产品的成本保持不变,投资回报也会增加。这是数据产品帮助降低成本以提供新见解和价值的另一种方式。

数据产品策略可以通过多种方式降低成本,从而实现更好的决策和 AI 训练。虽然数据产品策略有助于降低成本,但真正的好处在于提高敏捷性和竞争力。这种好处是复合性的,无法量化,但却是真实存在的。

Discover the Latest in Data and AI Innovation

  • Blog

    AWS re:Invent 回顾

    Read More

  • Blog

    数据分析中的生成式人工智能——人工智能如何让数据访问变得更容易

    Read More

  • E-book

    使用现代数据堆栈的非结构化数据

    Read More

Request a Demo TODAY!

Take the leap from data to AI