データモデルとビジネス用語集の統合



Listen to this blog
Disclaimer

データ民主化の採用が進むにつれて、データ サイロ間でデータを共有するための新しいフレームワークとテクノロジが生まれています。これらの戦略により、ビジネス ドメイン間でのデータ共有の摩擦が軽減され、データへのアクセスが容易になっています。データ統合における主要な課題の 1 つは、多様なデータベースとデータ セットを独自の方法で記述する、異なるデータ モデルを扱うことです。

データ セットをマージする従来のアプローチは、データベースから 1 つのデータ セットを抽出し、それを変換して、別のデータベースにロードし、そのデータベースのデータ構造と一致させることでした。ETL プロセスを実行するには、データ エンジニアは、データの移動と変換、および各データ セットの整理とラベル付けの技術的な側面を理解する必要があります。2 つのデータ セットがどのようにモデル化されているかを理解することは、それらを 1 つにマッピングするために非常に重要です。

最新のデータ仮想化テクノロジーは、基礎となるデータ構造からデータを抽象化し、プロセスを簡素化し、ETL の必要性を排除することで、さまざまなデータ ソースへのアクセスを向上させます。このテクノロジーは強力ですが、データにアクセスするための統一された方法は提供されません。

データ仮想化は、分散データに 1 か所からアクセスできるようにする単一のインターフェイスまたは接続レイヤーを提供します。ただし、データの意味を理解するには、アナリストは各データベースの個別のデータ モデルに依存してコンテキストを取得する必要があります。効果的な分析を行うには、各システムのデータが何を表し、それらが互いにどのように関連しているかを理解する必要があります。これらの洞察を得るには、さまざまなデータ ストアにアクセスする方法を標準化する効果的なデータ フェデレーション戦略が必要です。データ サイロ全体のデータと関係をマッピングする統合データ モデルは、重要なコンポーネントです。さらに簡単にアクセスできるように、これらの関係をビジネス用語にマッピングするビジネス用語集を使用すると、ビジネス リーダーや意思決定者がアクセスしやすくなり、このデータ モデルの価値がさらに高まります。

フェデレーションデータモデル

フェデレーション データ モデルは、接続されたソース システムから抽出され、統一された論理データ構造に統合されたメタデータに基づいています。データが単一のデータ モデルに基づいて整理されると、データ プラットフォームは、すべての異種データベースを 1 つのデータベースであるかのように操作できます。このアプローチを使用すると、1 つのフェデレーション クエリで複数のシステムからデータを取得できます。この機能により、データ エンジニアや熟練したアナリストは、データを統合してデータ資産やデータ製品を作成するときに、かなりの時間を節約できます。

物理層からロジックを抽象化すると、ツールがそれほど複雑ではなくなり、複数の基盤となるデータベース構造とやり取りする必要がなくなるため、セルフサービス データ分析も容易になります。

フェデレーテッドデータカタログ

フェデレーテッド データ戦略では、メタデータを使用して、データにアクセスするためのグローバル データ カタログまたはフェデレーテッド データ カタログを作成します。このデータ カタログは、中央メタデータ リポジトリを活用して、アナリストがフェデレーテッド データ クエリを構築するためのデータ資産の検索可能なインベントリを作成します。

フェデレーション データ カタログを使用すると、すべてのデータ資産を検索できます。また、系統を統合して、ユーザーとデータ管理者が過去にデータがどのように変更されたかを理解できるようにすることもできます。

フェデレーション データ戦略では、誰がどのデータにアクセスできるかを管理することもできます。各データベースで個別にアクセスを管理したり、すべてのデータベースに統一されたルールを適用したりする代わりに、フェデレーション データ カタログは、1 か所で ID を管理するセキュリティ ゲートウェイとして機能します。また、すべてのデータ資産への承認済みアクセスをサポートします。

標準化されたデータ カタログを使用すると、セルフサービス機能の作成がはるかに簡単になります。セルフサービス プラットフォームは、より統一された用語を使用してデータへのアクセス プロセスを自動化できます。ビジネス ユーザーは探しているデータが何であるかを知っているため、より自立的になります。モデルがシンプルになると、AI がデータへのアクセス方法をより適切に理解できるようになります。データ要素を統一的に定義する統合および標準化されたデータ セマンティクス セットにより、LLM モデルはビジネス用語を使用してデータ要求を SQL クエリに変換しやすくなります。

統合ビジネス用語集

フェデレーション データ モデルは、データ ソース全体にわたって単一のデータ クエリを作成するのに最適ですが、これらのモデルは通常、ビジネス ユーザー向けではありません。ビジネス用語はビジネス ドメインごとに異なる定義になることがあるため、ドメインや地域間でデータをフェデレーションするときには、ビジネス用語集が特に重要です。用語は地域によっても異なります。

たとえば、英国では「売上高」、米国では「収益」です。どちらの用語もデータ モデルでは同じ意味を持ちますが、地域ごとに異なる用語集が使用されています。ビジネス用語とその同義語を正確に定義した詳細なビジネス用語集があれば、特にビジネス志向の意思決定者にとって、データを見つけやすくなり、その意味を理解しやすくなります。

これまで、ビジネス用語集は、各用語を定義する独立したドキュメントに存在していました。現在、ビジネス用語集はデータ ディクショナリやデータ カタログに接続されており、ユーザーはビジネス用語を使用するだけで自動的にデータを取得できます。この改善により、ビジネス ユーザーは、求めるデータを説明するビジネス用語を理解するだけで、組織内のデータに自由にアクセスできます。

現代のビジネス用語集には次のようなものがあります。

集中リポジトリ
集中リポジトリ

この機能により、ビジネス用語、定義、および関連するメタデータの単一の真実のソースが作成されます。

構造化された分類
構造化された分類

この機能は、ビジネス用語を構造化された分類法または階層に整理します。階層的な分類により、ユーザーは関連する用語や概念を調べることができ、組織のドメインをより深く理解できるようになります。

自動割り当て
自動割り当て

場合によっては、用語集のビジネス用語をデータ資産に自動的に割り当てて、技術メタデータを関連するビジネス コンテキストにリンクすることができます。この自動割り当てプロセスは、各データ資産にビジネスのエッセンスを追加して技術メタデータを標準化し、その関連性と使いやすさを向上させるのに役立ちます。

正規化
技術メタデータの正規化

この機能は、ビジネス用語を技術メタデータに結び付けます。ビジネス用語集は、データ セット全体で用語を標準化するのに役立ちます。技術メタデータを正規化することで、データの説明の一貫性が確保され、ユーザーが情報を解釈および分析しやすくなります。

ビジネス用語集の標準化

ビジネス用語集は、ビジネスの要件に合わせて、トップダウンで構築する必要があります。ビジネス用語集を作成する優れた方法は、既存の業界標準用語を使用することです。このアプローチにより、強固な基盤が得られ、第三者とのデータ共有が向上します。また、階層的な分類構造を利用してビジネス用語集を作成すると、データをより効果的に整理および分類するのに役立ちます。

データ解釈の競合管理

各ドメインに独自のビジネス用語集と論理モデルがあるため、統合時に、異なるビジネス グループが用語とデータをどのように解釈するかについて矛盾が生じる可能性があります。これらの不一致を管理するためのリソースを持つことは、適切に機能するユニバーサル データ用語集の不可欠な部分です。

データ スチュワードは、データ資産にタグを付けてその価値を指定したり、データ品質の問題にフラグを立てたりするのに役立てることもできます。データ スチュワードはデータ分類を主導できますが、データ資産を操作する際は、データを正しく分類してアクセスしやすく、見つけやすくすることが全員の責任です。AI は、組織全体でこのプロセスをサポートするのに役立ちます。AI は、既存のデータ モデルから学習し、競合や不確実性が生じた場合に分類の指定を提案できます。

統一されたデータ モデルとビジネス用語集は、ビジネス データとビジネス自体を連携させる上で大きな資産となります。さまざまなドメインがデータをより統一的に考え、より一貫してコミュニケーションをとるようになると、ビジネス用語と指標が標準化され、意思決定がより協調的かつ効率的になります。

インテリジェントデータカタログへのAIの応用

AI は、効率的なデータ カタログやビジネス用語集の作成においてますます重要になります。AI モデルがより効果的になるにつれ、組織全体のデータ資産をより深く理解できるようになります。AI の支援により、アナリストは必要な答えを得るための正確なデータ セットを見つけるのに役立つ副操縦士を得ることができます。

データ アクセスを統合し、実際のデータからメタデータを抽象化することで、データ利用の俊敏性が向上します。統合されたデータ カタログにより、データの検索とアクセスがはるかに高速かつ効率的になります。この機能により、ビジネス上の質問に迅速かつ効果的に回答できます。組織が質の高い意思決定を迅速に行えるほど、市場での競争力が高まります。

データに対する需要の増加により、ETL パイプラインを通じて必要な場所にデータを複製することが維持できない環境が生まれています。データの保存場所とアクセス方法に関する情報を統合するモデルの方が、はるかにスケーラブルです。メタデータとデータ周辺のコンテキストを管理するフェデレーテッド データ戦略は、将来に必要な柔軟性と俊敏性を提供します。

Discover the Latest in Data and AI Innovation

  • データ製品におけるデータ統合と同期戦略

    Read More

  • データ製品で信頼を築く方法

    Read More

  • データヘルスライフサイクル: データのクリーニングと変換戦略

    Read More

Request a Demo TODAY!

Take the leap from data to AI