データ リネージは、データのライフサイクル全体にわたってデータを記録および追跡するプロセスであり、データの品質にとって不可欠です。重要なビジネス上の意思決定をサポートするために使用されるデータが信頼できるものであることを保証するには、その出所を知る必要があります。データは常に変化、更新、マージ、および変換されています。データ リネージは、誰がデータを変更したか、データの出所はどこか、データが変更された理由など、これらすべてのプロセスを文書化します。データがパイプラインを通過すると、メタデータが作成され、接続をマッピングして、データがライフサイクルを通じてどのように移動するかを視覚化するデータ リネージ ツールにフィードされます。データ接続をマッピングすると、上流と下流のデータがどのように接続されているかに関する洞察が得られます。データ リネージは、データの監査証跡を提供します。
系統データは、収集、処理、アクセス、保存、データクエリ、データ分析など、データライフサイクルの複数の段階を通じて追跡されます。各段階で系統データが収集される方法と理由を理解することで、データ系統をより完全に理解できるようになります。
データ リネージの最初の段階は、データ収集から始まります。データがシステムに入ると、データのソースを文書化する必要があります。システムは、データの出所とソースの信頼性を追跡する必要があります。新しいシステムに入る前に、データの有効性と正確性、およびデータ セットに対して実行された変換や操作を記録する必要があります。
データが収集されたら、データ リネージでそのデータの集計、変換、操作方法を追跡する必要があります。データが処理、結合、またはフィルタリングされるときに、不良データを作成するエラーが発生する可能性が高くなります。これらのエラーは、下流のユーザーがデータにアクセスして分析するまで特定されない可能性があるため、エラーの原因を追跡するには適切なドキュメントが不可欠です。効果的なリネージには、各処理ステップのメタデータを作成して保存する必要があります。
データが処理され、保存された後も、系統データを取得する必要があります。コンプライアンス監査をサポートするには、データにアクセスしているユーザーに関するデータが必要です。データは正しく保存されていないと危険にさらされる可能性があるため、エンドツーエンドのデータ系統には、データがどのように、どこに保存されているかを追跡することも不可欠です。
データのクエリと分析方法の詳細を示すデータを取得することも、完全なデータ リネージ戦略を追求する上で重要な機能です。データ リネージは、データの健全性だけでなく、システム パフォーマンスも追跡します。クエリがどれだけ迅速かつ効率的に実行されるかに関するデータを分析することで、パイプライン全体を最適化できる可能性がある場所を把握できます。管理者は、このメタデータを使用して、データの使用方法をより深く理解し、将来の使用パターンを予測してユーザーのニーズを予測することもできます。
データ系統の追跡は、信頼できるデータを配信するための重要な要素です。データがさまざまなシステムやプロセスをどのように移動するか、データセットがどのように接続されているかを理解することで、管理者はデータとシステムを健全な状態に保つことができます。データセットの進化の各段階を追跡できることは、データ エラーの根本原因を特定する上でも重要です。
ライフサイクルの各フェーズで変更を追跡し、これらの変更のそれぞれの関連性をマッピングすることで、トラブルシューターは上流でエラーをトレースしてエラーの根本原因を特定できます。多くの場合、データ セットが分析のために下流に移動するまで、データ内のエラーは特定されません。データの異常は傾向の変化を示している場合もあれば、単にデータ内のエラーである場合もあります。その違いを知ることは、機会を逃さず、間違ったデータに基づいて決定を下すことを避けるために最も重要です。分析プロセスから最初に収集された時点までデータ セットをトレースすると、データ パイプラインの健全性に対する信頼が大幅に高まります。根本原因を特定して解決策を実装すると、同じエラーが繰り返される可能性も排除できます。
さまざまなデータセットがどのように接続されているかを理解することは、そもそもエラーを回避することにも役立ちます。下流の依存関係をトレースする機能により、開発者とデータ エンジニアは、依存するアプリケーションとモデルへの変更の影響を予測できます。たとえば、データ エンジニアは、調整を行う前にテーブル スキーマの変更の影響を理解します。この知識は、別のパスを見つけたり、下流のアプリを編集して上流の変更を反映し、エラーや障害を回避するのに役立ちます。
データ スタック全体のデータ プロセスを監視する方法があれば、データの正確性と整合性を検証するメカニズムが得られます。データをソースまで追跡できるため、意思決定者はデータの有効性を判断できます。この知識は、データが組織外から取得される場合に特に重要です。データ セットを作成したグループは、ユーザーと同様にデータの品質に重点を置いていますか。このデータに基づいて重要なビジネス上の決定を下す場合、これは貴重な情報です。
データ リネージは、データがどのように保存され、どこにアクセスされるかを追跡することで、規制に準拠するのに役立ちます。たとえば、データ リネージはデータが国境を越えて移動したかどうかを判断できるため、データ主権とプライバシー ルールに準拠できます。堅牢なデータ リネージ プログラムは、迅速なコンプライアンス監査を容易にするためにも重要です。データ リネージを使用すると、管理者はエンドツーエンドのデータ パイプライン全体でデータが適切に管理されていることを確認できます。
エンドツーエンドのデータ リネージの価値は明らかですが、すべての関連メタデータにアクセスできるとは限りません。データを分析してリネージを作成するには、パターン ベース、タグ ベース、自己完結型、解析など、いくつかの異なるアプローチがあります。
パターンベースのデータ系統追跡では、メタデータのパターンを分析することでデータセットの履歴が明らかになります。このアプローチでは、テーブル、列、レポート全体のメタデータを分析して接続を確立します。2 つのテーブルの名前とデータ値が類似している場合、それらは同じテーブルの異なるバージョンであると想定でき、データ系統マップにリンクを記録できます。このアプローチは、データ パターンに焦点を当てており、どのシステムでも機能するため、テクノロジに依存しません。パターンベースのデータ系統は、少数のデータ セットではうまく機能しますが、複雑なデータ関係ではそれほど効果的ではない場合があります。
タグベースのアプローチでは、変換エンジンを利用してデータにタグを付け、パイプラインを通過する際にデータを追跡できるようにします。このアプローチは非常に効率的ですが、データの処理とタグ付けに統一されたツールが使用されている場合にのみ機能します。
このアプローチでは、マスター データ管理 (MDM) ツールを使用してメタデータを一元管理します。システム内のさまざまなプロセスによって作成されたメタデータは、系統データを取得できる MDM ツールで一元管理されます。課題は、MDM ツールとやり取りしないシステム外部で実行されるプロセスを追跡できないことです。
このプロセスは、データ変換をリバース エンジニアリングすることで機能します。データの変換に使用されるロジックを読み取ることで、データの系統を推測できます。これは複雑なプロセスであり、データ スタック全体でデータを管理するために使用されるすべての言語とプロセスを十分に理解する必要があります。複雑ではありますが、このプロセスはシステム全体のエンドツーエンドのデータ系統を追跡するのに最適です。
データ リネージ戦略に関するテクノロジーとメタデータに重点を置くことは重要ですが、意思決定者がそれを理解していなければ努力は無駄になってしまいます。リネージ データは、ビジネス ユーザーと技術ユーザーの両方が理解できるものでなければなりません。
ビジネス リネージも戦略の一部として考慮する必要があります。適切なビジネス コンテキストでデータ リネージを整理すると、ビジネス ユーザーがビジネス プロセスを通じてデータがどのように流れるかを理解できるようになります。パイプラインを通じてどのようなデータが流れるかを理解することは、その方法を追跡する技術的なリネージと同様に重要です。
データ リネージは、データ プロダクトの構築と使用において不可欠です。データ プロデューサーは、データ リネージを監査して、データ プロダクトに流入するデータの信頼性を確保できます。また、リネージは、データ プロダクト プロデューサーがデータ プロダクト内のさまざまなデータ セット間の依存関係と関係を理解するのにも役立ちます。
データ製品のビジネス ユーザーは、データ リネージを活用して、データの流れとそのソースを理解することもできます。この情報は、データの有効性と特定のユース ケースへの適用性を判断するのに役立ちます。優れたデータ製品の中核となるのは、強力なデータ リネージ機能が組み込まれた広範なデータ カタログです。データ カタログは、データ製品の作成者が必要なデータを見つけてアクセスするのに役立ち、データ リネージ データはそのデータに関する貴重な情報を提供します。
データ リネージ戦略は、現代のデータ スタックに不可欠な機能です。データ パイプラインがますます複雑になるにつれて、データ品質を確保するには、堅牢なデータ リネージ プログラムが不可欠になります。