データ分析における生成AI - AIがデータへのアクセスを容易にする方法

Listen to this blog

Disclaimer

10 フィートの土の下に埋もれた岩の下に住んでいなければ、AI とそれが私たちの住む世界を変える可能性についてご存知でしょう。AI が私たちの仕事にどのような影響を与えるかについてはご存知かもしれませんが、AI が私たちの世界にどのような影響を与えるかをすべて予測するには、タイムトラベラーになる必要があります。しかし、ある程度の人間、自動化、ガバナンスが AI の将来において重要な役割を果たすことは間違いありません。

AI はすでに、人間がデータを管理し、データとやり取りする方法に影響を与えています。AI に頼んで、データを洞察に変えることができます。AI は、これらの洞察を支える基礎データの管理を支援する副操縦士にもなります。また、AI は独立して動作し、重要な意思決定に頼るデータが信頼できるものであることを保証することもできます。

AI がデータへのアクセスと管理においてより大きな役割を果たすためには、人間がプロセスの中心にいなければなりません。このアプローチは、綿密な監視と警告、適切なトレーニングと再トレーニングを意味します。

AIがデータの消費と分析にどのように役立つか

AI、特に大規模言語モデル (LLM) は、アナリストや意思決定者が迅速かつ徹底的な意思決定をサポートするために、必要なデータを消費可能な形式で取得する上で中心的な役割を果たしています。テキストから SQL への変換テクノロジにより、アナリスト、データ、およびインサイト間の技術的な障壁が軽減されます。アナリストや意思決定者は、データベースをクエリするために SQL を知る必要がなくなりました。新しい LLM モデルは、共通言語に基づいて SQL クエリを自動的に作成できます。営業マネージャーが地域別および市場セグメント別の売上に関心がある場合、一般的なビジネス用語を使用してパラメーターを定義し、必要なデータを取得できます。

AI は、データを最も使いやすい方法で提示するのにも役立ちます。AI を活用したデータ視覚化コパイロットは、複雑なチャートやグラフの作成プロセスを自動化しています。意思決定者は、わかりやすい方法で情報を提示してもらうためにデータアナリストと何度もやり取りする必要がなくなりました。AI アシスタントにチャートを即座に作成するよう依頼するだけです。チャートが正確でない場合は、アナリストはチャットボットにビジュアルを微調整するよう指示できます。これは数秒で完了します。この進歩により、データを非常に迅速に使いやすい方法でフォーマットし、複数の BI ツールやプラットフォームの使い方を学ぶ必要がなくなります。

AIがデータ管理とガバナンスにどのように役立つか

AI は意思決定者のためのデータ取得に大きな可能性を秘めていますが、出力に信頼できるデータがなければ、AI は不良データをより速く移動させるだけになります。幸いなことに、データ管理、ガバナンス、データ品質の分野でも AI のさまざまな用途があります。

AI は、データガバナンスにおいて副操縦士や推奨エンジンとして適用されており、将来的には自律的にデータを管理し、品質を向上させることも想定されています。

データタグ付け

AI ツールは、データガバナンスプラットフォームに組み込まれ、より高品質なデータを公開し、より多くのアナリストや意思決定者に利用できるようにするプロセスを効率化しています。具体的には、このテクノロジは、データカタログを管理してデータの検出とガバナンスを向上させるための不可欠なツールになりつつあります。たとえば、AI は、アナリストが個人識別情報 (PII) データなどの機密データをタグ付けできるようにすることで、データガバナンスをサポートします。過去に機密として指定されたデータの特性に基づいて、AI はどのデータ列に制限データが含まれる可能性があるかを予測できます。

データドキュメント

データの分類とデータ資産の文書化を支援することは、AI がデータスチュワード、アナリスト、エンジニアと連携して、データコンシューマーがデータをより簡単に見つけられるようにするもう 1 つの方法です。ビジネス用語と概念を標準化するために、AI はデータ用語集でデータを説明するのに最適な用語を提案できます。同様に、AI はデータ資産を説明する最適な方法を提案することで、データ資産の文書化を支援できます。

データアクセス

副操縦士は、データアクセス制御ルールでも重要な役割を果たすことができます。AI は、個々のユーザーの特性とプロファイル、およびそれらがすでに承認されているユーザーとどのように一致するかに基づいて、どのユーザーを承認すべきかを提案できます。逆に、AI はアクセスが適切でない可能性のある個人にフラグを立てることもできます。この機能により、適切な権限を持つより多くのユーザーが、組織が収集する膨大な量のエンタープライズデータを活用してビジネス価値を生み出すことができます。

データ検証

データ入力が有効であることの確認を支援することは、AI 搭載の提案エンジンまたはコパイロットがデータガバナンスの向上をサポートできるもう 1 つの方法です。モデルは、AI が入力として想定するものに基づいて、エラーの可能性がある入力を識別することを学習できます。たとえば、入力が特定の範囲外である場合、フィールドにフラグを付け、エラーがデータベースに入る前に修正を提案できます。このオプションを提示することで、ミスをリアルタイムで解決し、下流の問題を回避できます。

より良いAIトレーニングのための戦略

AI モデルの良し悪しは、トレーニングに使用するデータ次第です。AI のトレーニングに不良データを使用すると、ノイズによって AI が混乱し、パフォーマンスが低下し、誤った出力が発生します。これは、不透明度が非常に高い生成 AI では特に問題となり、不良データの影響を特定するのがはるかに困難です。

この事実を踏まえると、AI モデルにデータを供給するプラットフォームが最高品質のデータで動作していることを確認することは、高品質の下流 AI モデルを作成するために最も重要です。データ実践者が AI 支援プロセスと密接に連携し、データを正しく、より自律的に監視およびスクラブする方法を指導することが重要です。

ドキュメントをデータに近づける

データ担当者がデータにタグを付ける際、この情報は将来のタグの提案を作成するために使用されます。適切な人がデータのタグ付けと資産の文書化のプロセスを実行するようにすることで、将来的に複合的な効果が得られます。担当者は、PII データに効果的にタグを付ける必要があります。そうすることで、AI は PII データがどのようなものかを正確に学習し、将来フラグを立てることができます。文書化に関する AI の提案を適切に承認または拒否することで AI を継続的に教育することで、AI は時間の経過とともによりスマートかつ効果的に成長します。データが収集される場所に近く、そのニュアンスを理解している基幹業務のマネージャーや専門家を組み込むことは、データが収集されるコンテキストを正確に反映する文書を作成するために重要です。

詳細なタグ付け

より細かいレベルでデータをタグ付けすると、AI モデルのパフォーマンスが向上し、より正確な結果を生み出すこともできます。より詳細なメタデータにより、AI はより差別化されたデータを持つようになり、より具体的なルールをサポートできるようになります。たとえば、AI はテーブル内の単一の列に関係するルールを提案したり、特定のペルソナに適用されるルールをカスタマイズしたりできます。これにより、データへのアクセスを承認するためのより微妙なアプローチが可能になり、より多くの意思決定者に優れた洞察を提供できます。

メタデータ管理とガバナンスを左にシフト

データ品質の問題の多くは、データの取り込みやデータ資産の作成時に発生します。データ検証を通じてプロアクティブなアプローチを取れば、将来的に問題を排除できます。データ品質の問題が悪化するほど、組織全体の AI パフォーマンスが損なわれ、競争力の低下につながる可能性が高くなります。AI をデータガバナンスプロセスに組み込むタイミングも、結果に影響を与える可能性があります。

AI を活用して、データ品質とガバナンスのプロトコルをシステムに到達した瞬間からサポートすることで、ダーティデータによってモデルが劣化するリスクを抑えることができます。データガバナンスとデータ品質のチェックを左にシフトし、AI 主導の品質チェックをプロセスの早い段階で統合することで、AI モデルのトレーニングに使用するデータが最高品質であることを保証するために、より多くの人が関与するようになります。また、AI をデータ管理ワークフローに統合することで、人々は AI と連携してリアルタイムで品質とガバナンスを改善できます。ワークフローから外れたり、事後にデータ品質の問題を再検討したりする必要はありません。

より自律的なAIの実現

AI をデータガバナンスプロセスに統合するための適切な手順を実行し、クリーンなデータを使用して AI をトレーニングすると、データガバナンス戦略において AI がより積極的な役割を果たす機会が生まれます。

モデルを適切にトレーニングすれば、データ専門家が実行するタスクをモデルが処理できるという自信が高まります。AI には、データリネージュを自動的に作成したり、適切なデータガバナンスを自動化したりする方法を学ぶ可能性があります。

エラーを見つけて修正する

データ内の異常を自動的に識別し、エラーを修正することは、AI がより自律的にデータ品質をサポートできる領域の 1 つです。AI は大規模なデータセット内のパターンを識別するのに特に優れており、大小の異常を正確に特定できます。モデルはデータポイントがどうあるべきかを予測し、人間の介入を最小限に抑えて、期待に合わないデータポイントを調整できます。適切なトレーニングを行うことで、AI はデータセットをスクラブし、欠落値を見つけて入力したり、不正確または一貫性のないデータを修正したりできます。AI はデータを標準形式に標準化することもできます。たとえば、州の略語を従来の 2 文字形式に調整したり、さまざまな住所形式を標準化したりできます。

より高度なトレーニングにより、AI は独自のデータ品質ルールを作成したり、メタデータを作成してデータをより適切に整理したりできるようになります。AI チャットボットを統合して人間と連携させることで、モデルはルール構造とパラメータを学習し、独自のプロセスを管理するフレームワークを作成できます。同様に、AI は独自にメタデータとドキュメントを作成し、データに関するより豊富なコンテキストを構築して、データの使いやすさを向上させることができます。一例として、非構造化データ内の社会保障番号などの PII データを識別し、機密データポイントとしてタグ付けすることが挙げられます。

これらのプロセスにより、人間の時間を大幅に節約できるだけでなく、機密データが悪意のある人物の手に渡るリスクを軽減し、機密性の低いデータを意思決定者がアクセスしやすくすることができます。

モデルの監視

データガバナンスプロセスを自動化するために AI モデルのトレーニングと実装をうまく行ったとしても、人間が関与し続けなければなりません。

モデルが現在うまく機能しているとしても、将来も引き続きうまく機能するという保証はありません。状況は変化し、モデルはドリフトし、バイアスが生じる可能性があります。人間が AI のエラーやパフォーマンスの低下を監視できるようなメカニズムを実装する必要があります。これには、AI モデルに出力を要求し、それを実際のデータと比較して、モデルが正しい答えを生成したか、またはモデルが生成すると予想されるものかどうかを確認することが含まれます。

AIの生産性を最適化するための戦略の構築

戦略を成功させるには、AI の健全性を高めるために組織を構築することが不可欠です。データとそのコンテキストに最も近い専門家を、中心的な役割でデータガバナンスモデルをトレーニングする最適なポジションに配置することが重要です。AI をトレーニングする場合、データの粒度が細かいほど良いため、専門家がモデルにフィードバックを提供できる方法を増やすと、パフォーマンスが向上します。

効果的なトレーニングプロセスには、業務部門の専門家と IT 部門の連携が不可欠です。IT 部門とビジネス部門の担当者は協力してパフォーマンスを向上させることができます。IT 部門はモデルをテストし、トレーニングプロセスを実装して最適なパフォーマンスを確保し、ビジネスリーダーはフィードバックをワークフローに継続的に統合することができます。この継続的なトレーニングと再トレーニングのサイクルにより、リスクが軽減されるとともに、データのアクセシビリティが向上します。

モデルが改良されるにつれて、より正確になり、データセットに関するより詳細なコンテキストを構築できるようになります。精度とコンテキストが向上すると、このデータは意思決定とビジネス戦略を推進する上でさらに価値が高まります。最適な戦略と意思決定を行う企業が、市場で競争上の優位性を維持できます。