数据分析中的生成式人工智能——人工智能如何让数据访问变得更容易


除非你一直生活在深埋在 10 英尺泥土下的岩石下,否则你一定知道人工智能及其改变我们生活的世界的潜力。虽然你可能知道人工智能将如何影响我们的工作方式,但你需要成为一名时间旅行者才能预测它将如何影响我们的世界。但我们可以假设,一定数量的人员、自动化和治理将在人工智能的未来中发挥重要作用。

人工智能已经影响了人类管理和与数据交互的方式。我们可以让人工智能帮助我们将数据转化为见解。人工智能还可以成为我们的副驾驶,帮助我们管理支持这些见解的底层数据。它还可以独立运行,以确保我们依赖的关键决策数据是值得信赖的。

为了让人工智能在数据访问和管理中发挥更大作用,人类必须始终处于这一过程的中心。这种方法意味着密切监控和警报以及适当的培训和再培训。

人工智能如何帮助数据消费和分析

人工智能,更具体地说是大型语言模型 (LLM),正在成为帮助分析师和决策者以可消费格式获取所需数据以支持快速而彻底决策的中心。文本到 SQL 技术减少了分析师、数据和见解之间的技术障碍。分析师和决策者不再需要了解 SQL 来查询数据库。新的 LLM 模型可以根据通用语言自动创建 SQL 查询。如果销售经理对按地区和细分市场划分的销售感兴趣,他们可以使用通用业务术语定义参数来提取所需的数据。

人工智能还可以帮助以最易用的方式呈现数据。人工智能驱动的数据可视化副驾驶员正在自动化构建复杂图表和图形的过程。决策者不再需要与数据分析师来回沟通,以易于理解的方式呈现信息。他们可以简单地要求人工智能助手立即创建图表。如果不太准确,分析师可以指示聊天机器人调整视觉效果,这可以在几秒钟内完成。这一进步可以非常快速地以易用的方式格式化数据,并且无需学习如何使用多个 BI 工具和平台。

人工智能如何帮助数据管理和治理

人工智能在帮助决策者获取数据方面具有巨大潜力,但如果没有可靠的数据来提供这些输出,人工智能只会让坏数据更快地传播。幸运的是,人工智能在数据管理、治理和数据质量方面也有各种各样的应用。

人工智能正在作为副驾驶或推荐引擎应用于数据治理,并且也准备在未来自主管理数据和提高质量。

安全
数据标记

人工智能工具正被整合到数据治理平台中,以简化展示更高质量数据并将其提供给更多分析师和决策者的流程。具体来说,该技术正成为管理数据目录以实现更大数据发现和治理的重要工具。例如,人工智能通过帮助分析师标记敏感数据(如个人身份信息 (PII) 数据)来支持数据治理。根据过去指定为敏感的数据的特征,人工智能可以预测哪些数据列可能包含受限数据。

安全
数据文档

帮助对数据进行分类和记录数据资产是人工智能与数据管理员、分析师和工程师合作的另一种方式,让数据消费者更容易发现数据。为了帮助标准化业务术语和概念,人工智能可以建议在数据词汇表中描述数据的最合适的术语。同样,人工智能可以通过建议描述数据资产的最佳方式来帮助记录数据资产。

安全
数据访问

副驾驶还可以在数据访问控制规则中发挥关键作用。人工智能可以根据个人用户的特征和个人资料以及他们与已授权用户的匹配程度,建议哪些用户应该获得授权。相反,人工智能还可以标记可能不适合访问的个人。此功能使更多具有适当权限的用户能够利用组织收集的大量企业数据来创造商业价值。

安全
数据验证

帮助确保数据输入有效是人工智能建议引擎或副驾驶支持更好的数据治理的另一种方式。模型可以根据人工智能期望看到的输入来学习识别可能错误的输入。例如,如果输入超出特定范围,则可以标记该字段,并在错误进入数据库之前提出修复建议。通过提供此选项,可以实时解决错误,避免下游问题。

更好的人工智能训练的策略

人工智能模型的好坏取决于训练它们所用的数据。当使用不良数据训练人工智能时,噪音会使它们感到困惑,导致性能不佳和输出错误。这对于生成式人工智能来说尤其成问题,因为它们更加不透明,不良数据的影响更难识别。

鉴于这一事实,确保为 AI 模型提供数据的平台使用最高质量的数据对于生成高质量的下游 AI 模型至关重要。关键是数据从业者要与 AI 辅助流程密切合作,教会他们正确且更自主地监控和清理数据。

使文档更接近数据

当数据从业者标记数据时,这些信息将用于生成未来的标记建议。确保合适的人员进行数据标记和资产文档化过程将在未来产生复合效应。从业者必须有效地标记 PII 数据,以便 AI 能够准确了解 PII 数据的样子并在将来对其进行标记。通过适当批准或拒绝 AI 的文档化建议来继续教导 AI,也有助于 AI 随着时间的推移变得更加智能和高效。将业务线经理和接近数据收集地点并了解其细微差别的专业人员纳入其中,对于准确创建反映数据收集背景的文档非常重要。

数据治理负担

细粒度标记

在更精细的层面上标记数据还可以帮助 AI 模型表现更好并产生更精确的结果。有了更丰富的精细元数据,AI 就拥有了更多差异化数据,可以支持更具体的规则。例如,AI 可以建议与表中单个列相关的规则,或定制适用于特定角色的规则。这使得授权访问数据的方法是更细致入微的,从而为更多决策者提供更深入的见解。

向左转移元数据管理和治理

许多数据质量问题源于数据采集或数据资产创建。通过数据验证采取主动方法可以消除后续问题。数据质量问题越严重,就越有可能影响整个组织的 AI 性能,从而导致竞争力下降。将 AI 纳入数据治理流程的时机也会影响结果。

在 AI 进入系统后立即利用它支持数据质量和治理协议,可以限制脏数据降低模型质量的风险。通过将数据治理和数据质量检查向左移动,并在流程早期集成 AI 驱动的质量检查,将有更多人参与进来,确保您用于训练 AI 模型的数据具有最高质量。此外,通过将 AI 集成到数据管理工作流程中,人们可以与 AI 协作以实时改善质量和治理 — 无需脱离工作流程或事后重新审视数据质量问题。

实现更加自主的人工智能

如果您已采取充分步骤将 AI 整合到您的数据治理流程中并使用干净的数据训练您的 AI,那么就会出现机会让 AI 在您的数据治理策略中发挥更积极的作用。

如果我们训练好模型,我们将更有信心它们能够处理数据从业者可能执行的任务。人工智能有潜力学会自动创建数据沿袭或自动进行适当的数据治理。

发现并修复错误

自动识别数据中的异常并修复错误是 AI 可以更自主地支持数据质量的一个领域。AI 特别擅长识别大型数据集中的模式,并能精确定位大大小小的异常。模型可以预测数据点应该是什么,并在有限的人工干预下调整不符合预期的数据点。通过适当的训练,AI 可以清理数据集,查找和填充缺失值,或纠正不准确或不一致的数据。AI 还可以将数据标准化为标准格式。例如,可以将州缩写调整为传统的双字母形式,或者可以标准化不同的地址格式。

通过更复杂的训练,人工智能可以创建自己的数据质量规则或创建元数据以更好地组织数据。通过整合人工智能聊天机器人与人类合作,模型可以学习规则结构和参数,并创建框架来管理自己的流程。同样,人工智能可以自行创建元数据和文档,以围绕数据构建更丰富的上下文,使其更易于使用。一个例子是识别非结构化数据中的 PII 数据(例如社会安全号码),并将其标记为敏感数据点。

这些流程不仅可以为人类节省大量时间,还可以降低敏感数据落入坏人之手的风险,同时使决策者更容易获取不太敏感的数据。

监控模型

即使您在训练和实施 AI 模型以自动化数据治理流程方面做得很好,但人类仍然必须参与其中。

监控模型

即使您的模型现在运行良好,也无法保证它们将来会继续表现良好。事物在变化,模型在漂移,偏差也会出现。必须实施机制,以便人类能够监控人工智能的错误和性能下降。这可能包括向人工智能模型询问输出并将其与真实数据进行比较,以查看模型是否产生了正确的答案或我们可能期望模型产生的结果。

构建战略以实现最佳 AI 生产力

构建组织以提高 AI 健康水平对于成功实施战略至关重要。重要的是让最接近数据及其背景的专业人员处于最佳位置,以核心角色训练数据治理模型。在训练 AI 时,数据越精细越好,因此整合更多从业者可以向模型提供反馈的方式将提高性能。

将业务线专业人员与 IT 部门协调一致对于有效的培训流程至关重要。IT 和业务人员可以共同努力提高绩效。IT 可以测试模型并实施培训流程以确保最佳性能,而业务主管则继续将反馈整合到他们的工作流程中。这种持续的培训和再培训周期将降低风险,同时提高数据可访问性。

随着模型的改进,它们将变得更加精确,能够围绕数据集构建更大的背景。凭借更高的精度和背景,这些数据在推动决策和业务战略方面变得更有价值。拥有最佳战略和决策的人将在市场上保持竞争优势。

Discover the Latest in Data and AI Innovation

  • Blog

    AWS re:Invent 回顾

    Read More

  • Blog

    数据分析中的生成式人工智能——人工智能如何让数据访问变得更容易

    Read More

  • E-book

    使用现代数据堆栈的非结构化数据

    Read More

Request a Demo TODAY!

Take the leap from data to AI