您的数据已准备好用于 GenAI 吗?



Listen to this blog
Disclaimer

毫无疑问,GenAI 正处于炒作周期。很难说它是否已经达到早期的顶峰,但这项技术有可能从根本上颠覆我们的工作和生活方式。GenAI 的使用案例数量和它可以增加价值的地方是无限的和变革性的。 马克·库班认为,第一个万亿富翁将是先于其他人优化人工智能货币化的创新者。 麦肯锡公司估计,GenAI 将对生产力产生相当于 2.6 至 4.4 万亿美元的影响。

但问题仍然存在:人类和人工智能能否无缝协作?在由快速发展的 GenAI 模型主导的生态系统中,人们将如何利用自己的创造力赚钱?回答这些问题的道路将充满挑战、失败和创新。组织需要为未来的颠覆做好准备。做到这一点的最佳方法是确保您的数据(组织在这个新生态系统中最大的资产)为未来做好准备。

去年,第一批大型语言模型 (LLM) 模型(如 ChatGPT-3、Microsoft Copilot 和 Google Gemini)问世,引发了 GenAI 实验的爆炸式增长。今年,这些实验模型将得到完善并投入生产。组织需要访问各种高质量数据集,才能成功扩展这些模型并在生产中有效运行。组织可能会发现获取这些数据并不容易,还有很多工作要做。根据Wavestone 的数据和分析调查,只有 5% 的组织在生产中大规模实施了生成式人工智能。

虽然组织可能更青睐传统 AI,但生成式 AI 则完全不同,对数据的要求也不同。传统 AI 依赖于监督学习,即使用精选数据集来训练模型以识别模式和结果。而 GenAI 则利用结构化和非结构化数据,自行创建数据,而不是简单地预测结果。这种学习是无监督的,因此模型可以从它可以访问的任何数据中学习。GenAI 更像是一个复杂的黑匣子,数据科学家无法理解模型为何做出这样的决定。由于缺乏可观察性,GenAI 模型必须能够访问最高质量的数据。

应用 GenAI 提高企业绩效

企业中的 GenAI 应用专注于微调现成的第三方模型,例如 ChatGPT。对于大多数组织而言,创建独特的大型 LLM 模型在经济上不可行,因此许多组织使用企业数据训练现有模型以实现生成式 AI。这称为调整模型。

在调整 GenAI 以适应领域的同时,检索增强生成 (RAG) 是 GenAI 用于在企业内部获取事实以支持其答案的机制。例如,如果您询问 GenAI 聊天机器人您的订单何时交付,它将使用 RAG 访问履行系统以获取答案。

为了使 GenAI 在企业中有效发挥作用以支持模型调整和 RAG 数据必须:

  • 无障碍
  • 干净的
  • 已标记
  • 安全的

集成与数据访问

广泛访问数据是 GenAI 战略的首要要求。要调整模型,模型需要访问相关的训练数据;要使 RAG 发挥作用,模型必须能够访问运营数据。

调整模型

为了有效地调整模型,需要更广泛、更多样化的数据集。如果 GenAI 模型仅接触狭窄的数据集,它们往往会过度拟合模型并记住训练数据集而不学习任何东西。为了让模型学习并区分不同的特征,它们必须在不同的数据上进行训练。这些数据集需要表示来自整个组织的数据以创建更大的维度。有了更大的代表性,AI 模型的偏见就会减少,效率也会更高。

使用组织中可能存在的正确数据集对于调整 GenAI 模型至关重要。较小的高质量数据集比较大的低质量数据更好。低质量数据集会产生噪音,使模型混乱并破坏学习。访问所有组织数据并了解其质量将有助于您找到用于调整 GenAI 的正确训练数据。

抹布

为了使 GenAI 在组织中发挥作用,它必须能够在适当的上下文中访问适当的信息以回答用户查询。数据产品是支持这些流程的好方法,它为用户查询提供了更多的背景和个性化。通过将数据产品与 GenAI 集成,以客户为中心的数据产品可以提供提示或输入,这些提示或输入可以输入到 GenAI 中以提供更多个性化和上下文响应。数据产品提供访问权限和适当的治理,以确保 GenAI 利用最佳数据。例如,聊天机器人可以利用数据产品在通信中插入个人问候语或询问以前的购买情况,从而增强体验。

质量与诚信

GenAI 独特的无人监督独立学习能力使其具有革命性但又十分危险。该技术的“黑箱”性质使得数据质量对于成功实施 GenAI 至关重要。根据Wakefield Research 的数据,42% 的数据领导者认为数据质量是采用 GenAI 和大型语言模型的最大数据相关障碍。

GenAI 从非结构化数据中学习的能力也使其有别于传统 AI。这些数据通常最为混乱,很少被清理或整理。要在 RAG 或训练中使用这些非结构化数据,需要进行预处理和规范化,以帮助 GenAI 理解数据。

清理非结构化数据与清理结构化数据不同,因为通常此类数据为文本形式,清理过程包括:

  • 标准化语言,例如纠正拼写错误或扩展缩写。
  • 识别异常以供进一步调查是清理非结构化数据以支持 GenAI 的另一种方法。

发现、元数据和上下文

生成式人工智能处理非结构化数据的能力是游戏规则的改变者。然而,训练数据缺乏一致性可能会导致错误和幻觉。为了减少错误,需要数据标记和有效的元数据管理策略来提供更多的结构。

围绕非结构化数据创建更多结构可减少数据的噪声和冲突。人类比机器更善于解决这些冲突。管理所有数据库中元数据的强大元数据策略有助于创建 AI 可以依赖的单一事实来源。结合使人类能够与 AI 合作标记和分类数据的机制,有助于组织确保其企业数据已为 GenAI 做好准备。

隐私和安全

让 GenAI 随意获取您的安全和个人数据需要额外的控制。GenAI 对数据的渴求驱使该技术使用它能够访问的任何数据。如果没有对个人数据的访问限制,RAG 或培训流程将违反协议。封锁所有数据会限制 GenAI 的有效性。为了为 GenAI 准备数据和系统,企业需要一种细粒度的访问控制和数据屏蔽策略,以教会模型什么是禁区,并确保模型不会不当共享私人数据。

需要团队合作

为创新的 GenAI 技术准备数据并非易事。技术的力量需要熟练的人员来监控并确保其正常运行。当 GenAI 机器人成为数据和用户之间的网关时,传统上控制洞察访问的分析师将被排除在流程之外。他们无法控制访问哪些数据以及数据是否质量良好。这种转变需要新的、更强大的治理策略,这些策略将整合来自整个组织的意见和监督。

管理这些流程的团队需要具备多种技能。他们需要了解模型的工作原理和底层技术,并掌握这些模型的业务含义和要求。

GenAI 可以解决自己的问题

为 GenAI 准备数据的优点在于 GenAI 可以在此过程中提供帮助。AI 工具可以帮助人类标记数据并自动更正拼写或扩展缩写。GenAI 还可以创建合成数据来填补数据集中的空白。GenAI 可以利用此功能制作出与现实世界条件非常接近的数据。

生成式人工智能可以自我学习,但它需要从某个地方开始。从哪里开始将对最终结果产生深远影响。从最优质的数据开始将使您处于获得最佳结果的最佳位置。

Discover the Latest in Data and AI Innovation

  • Blog

    AWS re:Invent 回顾

    Read More

  • Blog

    数据分析中的生成式人工智能——人工智能如何让数据访问变得更容易

    Read More

  • E-book

    使用现代数据堆栈的非结构化数据

    Read More

Request a Demo TODAY!

Take the leap from data to AI