データは GenAI に対応できる状態ですか?

Listen to this blog

Disclaimer

GenAI がハイプサイクルにあることは間違いありません。初期のピークに達したかどうかは分かりませんが、このテクノロジーは私たちの仕事や生活を根本的に変える可能性を秘めています。GenAI の使用例とそれが付加価値をもたらす分野は無限であり、変革をもたらします。マークキューバンは、最初の兆万長者は誰よりも先に AI の収益化を最適化したイノベーターになると考えています。マッキンゼーアンドカンパニーは、GenAI が生産性に 2.6 兆ドルから 4.4 兆ドルの影響を与えると見積もっています。

しかし、疑問は残ります。人間と AI はシームレスに連携できるのでしょうか。また、急速に進化する GenAI モデルが支配するエコシステムで、人々は創造性をどう収益化できるのでしょうか。これらの疑問に答える道は、課題、失敗、革新で舗装されています。組織は将来の混乱に備える必要があります。そのための最善の方法は、この新しいエコシステムにおける組織の最大の資産であるデータを将来に備えておくことです。

昨年、ChatGPT-3、Microsoft Copilot、Google Gemini などの最初の大規模言語モデル (LLM) モデルが登場し、GenAI 実験が爆発的に増加しました。今年、これらの実験モデルは完成し、本番環境に移行されます。組織は、これらのモデルを正常に拡張し、本番環境で効果的に機能させるために、さまざまな高品質データセットにアクセスする必要があります。組織は、このデータの調達が容易ではなく、さらに多くの作業が必要であることに気付くかもしれません。Wavestone のデータと分析の調査によると、大規模な本番環境で Generative AI を実装している組織はわずか 5% です。

組織は従来の AI により多くの関心を寄せているかもしれませんが、Generative AI は異なるデータ要件を持つ別のものです。従来の AI は教師あり学習に依存しており、キュレーションされたデータセットを使用してモデルをトレーニングし、パターンと結果を特定します。一方、GenAI は構造化データと非構造化データの両方を活用し、結果を予測するだけでなく、独自にデータを作成します。この学習は教師なしであるため、モデルはアクセスできるあらゆるデータから学習します。GenAI は複雑なブラックボックスのようなもので、データサイエンティストはモデルがなぜその決定を下すのかを理解できません。この可観測性の欠如により、GenAI モデルが最高品質のデータにアクセスできることが最も重要になります。

GenAI を適用して企業のパフォーマンスを向上

企業における GenAI アプリケーションは、ChatGPT などの既製のサードパーティモデルの微調整に重点を置いています。独自の大規模な LLM モデルを作成することは、ほとんどの組織にとって経済的に実現可能ではないため、多くの組織では、企業データを使用して既存のモデルをトレーニングし、Generative AI を実装しています。これは、モデルの調整と呼ばれます。

GenAI のチューニングではモデルをドメインに適応させますが、検索拡張生成 (RAG) は GenAI が回答をサポートするために企業内の事実を取得するために使用するメカニズムです。たとえば、注文がいつ配達されるかを GenAI チャットボットに尋ねると、チャットボットは RAG を使用してフルフィルメントシステムにアクセスし、回答を取得します。

GenAI が企業内で効果的に機能してモデルのチューニングと RAG データをサポートするには、次の条件を満たす必要があります。

アクセス可能
クリーン
ラベル付き
安全な

統合とデータアクセス

データへの広範なアクセスは、GenAI 戦略の第一の要件です。モデルを調整するには、関連するトレーニングデータへのアクセスが必要であり、RAG が機能するには、モデルが運用データにアクセスできる必要があります。

チューニングモデル

効果的なモデル調整には、より幅広く多様なデータセットが必要です。GenAI モデルが狭いデータセットにのみさらされると、モデルが過剰適合し、何も学習せずにトレーニングデータセットを記憶する傾向があります。モデルが学習して明確な特性を区別するには、さまざまなデータでトレーニングする必要があります。これらのデータセットは、組織全体のデータを表現して、より大きな次元を作成する必要があります。表現が多ければ多いほど、AI モデルの偏りが少なくなり、より効果的になります。

GenAI モデルのチューニングには、組織内のあらゆる場所に存在する適切なデータセットを使用することが重要です。小さくて高品質のデータセットの方が、大きくて低品質のデータよりも優れています。低品質のデータセットはノイズを発生させ、モデルを混乱させ、学習を妨げます。組織のすべてのデータにアクセスし、その品質を理解することで、GenAI チューニングに適したトレーニングデータを見つけやすくなります。

ラグ

GenAI が組織内で役立つためには、適切なコンテキストで適切な情報にアクセスしてユーザーのクエリに回答する必要があります。データ製品は、ユーザーのクエリに関するコンテキストとパーソナライゼーションを強化することで、これらのプロセスをサポートする優れた方法です。データ製品を GenAI と統合することで、顧客中心のデータ製品は、GenAI に取り込むことができるプロンプトや入力を提供して、よりパーソナライゼーションとコンテキストに応じた応答を提供できます。データ製品は、GenAI が最適なデータを確実に活用できるように、アクセスと適切なガバナンスを提供します。たとえば、チャットボットはデータ製品を活用して、コミュニケーションに個人的な挨拶を挿入したり、以前の購入について質問したりして、エクスペリエンスを向上させることができます。

品質と誠実さ

GenAI は監督なしで独立して学習できるという独自の機能を備えているため、革新的であると同時に危険でもあります。この技術の「ブラックボックス」の性質により、GenAI の実装を成功させるには、質の高いデータが何よりも重要です。Wakefield Research によると、データリーダーの 42% が、GenAI と大規模言語モデルの導入における最大のデータ関連障害としてデータ品質を挙げています。

GenAI は非構造化データから学習する能力も備えており、従来の AI とは一線を画しています。このデータは通常、乱雑で、ほとんどクリーンアップまたは整理されていません。この非構造化データを RAG またはトレーニングで使用するには、GenAI がデータを理解できるように前処理と正規化が必要です。

非構造化データのクリーニングは、構造化データのクリーニングとは異なります。通常、このデータはテキスト形式であり、クリーニングプロセスには次のものが含まれます。

スペルの誤りを修正したり、略語を展開するなど、言語を標準化します。
さらなる調査のために異常を特定することは、GenAI をサポートするために非構造化データをクリーンアップするもう 1 つの方法です。

検出、メタデータ、コンテキスト

生成 AI の非構造化データを処理する能力は、ゲームチェンジャーです。ただし、トレーニングデータの一貫性の欠如は、エラーや幻覚につながる可能性があります。エラーを軽減するには、データのラベル付けと効果的なメタデータ管理戦略によって、より構造化されたデータを提供する必要があります。

非構造化データに構造を追加すると、データのノイズや矛盾が少なくなります。人間は機械よりもこれらの矛盾を解決するのがはるかに得意です。すべてのデータベースにわたってメタデータを管理する堅牢なメタデータ戦略は、AI が信頼できる唯一の真実のソースを作成するのに役立ちます。人間が AI と連携してデータをラベル付けおよび分類できるようにするメカニズムを組み込むと、組織はエンタープライズデータを GenAI に対応させる準備が整います。

プライバシーとセキュリティ

GenAI を安全な個人データに自由に利用させるには、追加の制御が必要です。GenAI はデータへの渇望から、アクセスできるあらゆるデータを使用するようテクノロジーを駆り立てます。個人データへのアクセス制限が設定されていない場合、RAG またはトレーニングプロセスはプロトコルに違反します。すべてのデータを遮断すると、GenAI の有効性が制限されます。データとシステムを GenAI 用に準備するには、企業はきめ細かなアクセス制御とデータマスキングの戦略を立てて、モデルに何が禁止されているかを教えるとともに、モデルが個人データを不適切に共有しないようにする必要があります。

チームアプローチが必要

革新的な GenAI テクノロジー向けにデータを準備するのは簡単な作業ではありません。テクノロジーの力には、それを監視し、正しく動作していることを確認する熟練した人間が必要です。GenAI ボットがデータとユーザーの間のゲートウェイになると、従来は洞察へのアクセスを制御していたアナリストはプロセスから排除されます。アナリストは、アクセスされるデータとその品質を制御できなくなります。この変化には、組織全体からの入力と監視を組み込んだ、新しくより堅牢なガバナンス戦略が必要です。

これらのプロセスを管理するチームには、多様なスキルが必要です。モデルの仕組みと基盤となるテクノロジーを理解し、これらのモデルのビジネスへの影響と要件を把握する必要があります。

GenAIは自らの問題を解決できる

GenAI 用にデータを準備することの素晴らしい点は、GenAI がそのプロセスを支援できることです。AI ツールは、人間がデータをタグ付けしたり、スペルを自動的に修正したり、略語を展開したりするのに役立ちます。また、GenAI は合成データを作成してデータセットのギャップを埋めることもできます。この機能により、GenAI は現実世界の状況を厳密に模倣したデータを作成できます。

生成 AI は自分自身から学習できますが、どこかで始める必要があります。どこから始めるかは、最終的な結果に大きな影響を与えます。最高品質のデータから始めることで、素晴らしい成果を得るための最適な位置に立つことができます。