連携データ戦略とビジネス用語集を活用したサイロの解消

Listen to this blog

Disclaimer

データ民主化の採用が進むにつれて、データサイロ間でデータを共有するための新しいフレームワークとテクノロジが生まれています。これらの戦略により、ビジネスドメイン間でのデータ共有の摩擦が軽減され、データへのアクセスが容易になっています。データ統合における主要な課題の 1 つは、多様なデータベースとデータセットを独自の方法で記述する、異なるデータモデルを扱うことです。

データセットをマージする従来のアプローチは、データベースから 1 つのデータセットを抽出し、それを変換して、別のデータベースにロードし、そのデータベースのデータ構造と一致させることでした。ETL プロセスを実行するには、データエンジニアは、データの移動と変換、および各データセットの整理とラベル付けの技術的な側面を理解する必要があります。2 つのデータセットがどのようにモデル化されているかを理解することは、それらを 1 つにマッピングするために非常に重要です。

最新のデータ仮想化テクノロジーは、基礎となるデータ構造からデータを抽象化し、プロセスを簡素化し、ETL の必要性を排除することで、さまざまなデータソースへのアクセスを向上させます。このテクノロジーは強力ですが、データにアクセスするための統一された方法は提供されません。

データ仮想化は、分散データに 1 か所からアクセスできるようにする単一のインターフェイスまたは接続レイヤーを提供します。ただし、データの意味を理解するには、アナリストは各データベースの個別のデータモデルに依存してコンテキストを取得する必要があります。効果的な分析を行うには、各システムのデータが何を表し、それらが互いにどのように関連しているかを理解する必要があります。これらの洞察を得るには、さまざまなデータストアにアクセスする方法を標準化する効果的なデータフェデレーション戦略が必要です。データサイロ全体のデータと関係をマッピングする統合データモデルは、重要なコンポーネントです。さらに簡単にアクセスできるように、これらの関係をビジネス用語にマッピングするビジネス用語集を使用すると、ビジネスリーダーや意思決定者がアクセスしやすくなり、このデータモデルの価値がさらに高まります。

フェデレーションデータモデル

フェデレーションデータモデルは、接続されたソースシステムから抽出され、統一された論理データ構造に統合されたメタデータに基づいています。データが単一のデータモデルに基づいて整理されると、データプラットフォームは、すべての異種データベースを 1 つのデータベースであるかのように操作できます。このアプローチを使用すると、1 つのフェデレーションクエリで複数のシステムからデータを取得できます。この機能により、データエンジニアや熟練したアナリストは、データを統合してデータ資産やデータ製品を作成するときに、かなりの時間を節約できます。

物理層からロジックを抽象化すると、ツールがそれほど複雑ではなくなり、複数の基盤となるデータベース構造とやり取りする必要がなくなるため、セルフサービスデータ分析も容易になります。

フェデレーテッドデータカタログ

フェデレーテッドデータ戦略では、メタデータを使用して、データにアクセスするためのグローバルデータカタログまたはフェデレーテッドデータカタログを作成します。このデータカタログは、中央メタデータリポジトリを活用して、アナリストがフェデレーテッドデータクエリを構築するためのデータ資産の検索可能なインベントリを作成します。

フェデレーションデータカタログを使用すると、すべてのデータ資産を検索できます。また、系統を統合して、ユーザーとデータ管理者が過去にデータがどのように変更されたかを理解できるようにすることもできます。

フェデレーションデータ戦略では、誰がどのデータにアクセスできるかを管理することもできます。各データベースで個別にアクセスを管理したり、すべてのデータベースに統一されたルールを適用したりする代わりに、フェデレーションデータカタログは、1 か所で ID を管理するセキュリティゲートウェイとして機能します。また、すべてのデータ資産への承認済みアクセスをサポートします。

標準化されたデータカタログを使用すると、セルフサービス機能の作成がはるかに簡単になります。セルフサービスプラットフォームは、より統一された用語を使用してデータへのアクセスプロセスを自動化できます。ビジネスユーザーは探しているデータが何であるかを知っているため、より自立的になります。モデルがシンプルになると、AI がデータへのアクセス方法をより適切に理解できるようになります。データ要素を統一的に定義する統合および標準化されたデータセマンティクスセットにより、LLM モデルはビジネス用語を使用してデータ要求を SQL クエリに変換しやすくなります。

統合ビジネス用語集

フェデレーションデータモデルは、データソース全体にわたって単一のデータクエリを作成するのに最適ですが、これらのモデルは通常、ビジネスユーザー向けではありません。ビジネス用語はビジネスドメインごとに異なる定義になることがあるため、ドメインや地域間でデータをフェデレーションするときには、ビジネス用語集が特に重要です。用語は地域によっても異なります。

たとえば、英国では「売上高」、米国では「収益」です。どちらの用語もデータモデルでは同じ意味を持ちますが、地域ごとに異なる用語集が使用されています。ビジネス用語とその同義語を正確に定義した詳細なビジネス用語集があれば、特にビジネス志向の意思決定者にとって、データを見つけやすくなり、その意味を理解しやすくなります。

これまで、ビジネス用語集は、各用語を定義する独立したドキュメントに存在していました。現在、ビジネス用語集はデータディクショナリやデータカタログに接続されており、ユーザーはビジネス用語を使用するだけで自動的にデータを取得できます。この改善により、ビジネスユーザーは、求めるデータを説明するビジネス用語を理解するだけで、組織内のデータに自由にアクセスできます。

現代のビジネス用語集には,

集中リポジトリ

この機能により、ビジネス用語、定義、および関連するメタデータの単一の真実のソースが作成されます。

構造化された分類

この機能は、ビジネス用語を構造化された分類法または階層に整理します。階層的な分類により、ユーザーは関連する用語や概念を調べることができ、組織のドメインをより深く理解できるようになります。

自動割り当て

場合によっては、用語集のビジネス用語をデータ資産に自動的に割り当てて、技術メタデータを関連するビジネスコンテキストにリンクすることができます。この自動割り当てプロセスは、各データ資産にビジネスのエッセンスを追加して技術メタデータを標準化し、その関連性と使いやすさを向上させるのに役立ちます。

技術メタデータの正規化

この機能は、ビジネス用語を技術メタデータに結び付けます。ビジネス用語集は、データセット全体で用語を標準化するのに役立ちます。技術メタデータを正規化することで、データの説明の一貫性が確保され、ユーザーが情報を解釈および分析しやすくなります。

ビジネス用語集の標準化

ビジネス用語集は、ビジネスの要件に合わせて、トップダウンで構築する必要があります。ビジネス用語集を作成する優れた方法は、既存の業界標準用語を使用することです。このアプローチにより、強固な基盤が得られ、第三者とのデータ共有が向上します。また、階層的な分類構造を利用してビジネス用語集を作成すると、データをより効果的に整理および分類するのに役立ちます。

データ解釈の競合管理

各ドメインに独自のビジネス用語集と論理モデルがあるため、統合時に、異なるビジネスグループが用語とデータをどのように解釈するかについて矛盾が生じる可能性があります。これらの不一致を管理するためのリソースを持つことは、適切に機能するユニバーサルデータ用語集の不可欠な部分です。

データスチュワードは、データ資産にタグを付けてその価値を指定したり、データ品質の問題にフラグを立てたりするのに役立てることもできます。データスチュワードはデータ分類を主導できますが、データ資産を操作する際は、データを正しく分類してアクセスしやすく、見つけやすくすることが全員の責任です。AI は、組織全体でこのプロセスをサポートするのに役立ちます。AI は、既存のデータモデルから学習し、競合や不確実性が生じた場合に分類の指定を提案できます。

統一されたデータモデルとビジネス用語集は、ビジネスデータとビジネス自体を連携させる上で大きな資産となります。さまざまなドメインがデータをより統一的に考え、より一貫してコミュニケーションをとるようになると、ビジネス用語と指標が標準化され、意思決定がより協調的かつ効率的になります。

インテリジェントデータカタログへのAIの応用

AI は、効率的なデータカタログやビジネス用語集の作成においてますます重要になります。AI モデルがより効果的になるにつれ、組織全体のデータ資産をより深く理解できるようになります。AI の支援により、アナリストは必要な答えを得るための正確なデータセットを見つけるのに役立つ副操縦士を得ることができます。

データアクセスを統合し、実際のデータからメタデータを抽象化することで、データ利用の俊敏性が向上します。統合されたデータカタログにより、データの検索とアクセスがはるかに高速かつ効率的になります。この機能により、ビジネス上の質問に迅速かつ効果的に回答できます。組織が質の高い意思決定を迅速に行えるほど、市場での競争力が高まります。

データに対する需要の増加により、ETL パイプラインを通じて必要な場所にデータを複製することが維持できない環境が生まれています。データの保存場所とアクセス方法に関する情報を統合するモデルの方が、はるかにスケーラブルです。メタデータとデータ周辺のコンテキストを管理するフェデレーテッドデータ戦略は、将来に必要な柔軟性と俊敏性を提供します。