オブザーバビリティ戦略でデータの品質と効率を向上させる

見えないものを管理したり最適化したりすることはできません。システムがどのように機能し、効果的に動作しているかどうかを理解するには、可観測性が必要です。データ製品はデータ・アクセスの新しいモデルを提供しており、データ製品を作成する人はその品質と有用性を追跡する必要があります。

優れた製品を構成するには、優れた原材料が必要です。データ製品に取り込まれるデータの品質は、データ製品戦略を成功させる上で非常に重要です。優れた結果を得るには、ソースから消費までデータの品質を追跡し、プロセスを管理するデータ・システムを監視する必要があります。

データ製品の可観測性

多くの組織は、ユースケースごとに 1 回限りのデータパイプラインを作成するのではなく、再利用可能なデータ製品を構築するデータ製品戦略を採用しています。データ製品とは、一度作成され、複数のユースケースに適応する、簡単にアクセスできるデータセットです。

データプロダクトアプローチでは、データエンジニアがより積極的に考え、データ成果物をプロダクトとして考える必要があります。この戦略は、作成者がユーザーのニーズと問題点を考慮することに依存します。プロダクト機能の決定を通知するには、プロデューサーはデータプロダクトの使用方法に関する情報を必要とします。このフィードバックにより、作成者は既存のポートフォリオを改善し、将来に向けてより優れたデータプロダクトを構築できます。

データプロダクトの可観測性により、さまざまなデータプロダクトを使用しているユーザーとその使用方法が追跡されます。ユーザーの役割を理解することで、プロデューサーは、データプロダクトから最も価値を得ているコホートと、十分にサービスを受けていないコホートをよりよく理解できるようになります。データプロダクトがモデル、ダッシュボード、分析をサポートするためにどのように使用されているかを把握することで、新しいデータプロダクトの革新的なアイデアが生まれることもあります。これらの傾向を理解することで、データプロダクトの作成者はより積極的に行動できるようになり、ユーザーが必要なときにデータを用意できるようになります。

データプロダクトのプロデューサーは、データプロダクトに関する直接的なフィードバックを収集することで、プロダクトを改善することもできます。チームワークの文化を作り、正式なユーザーフィードバックチャネルを実装することは、価値を高めるための優れた戦術です。ユーザーとプロデューサーが交流し、フィードバックを提供し、問題を特定し、新しいデータプロダクトを提案できるフォーラムを実装すると、データプロダクトエコシステムの価値が高まります。

コストの追跡と FinOps は、データ製品の可観測性のもう 1 つの重要な要素です。データ製品はクラウドリソースを効率的に使用していますか。リソースを削減するために最適化できますか。この種のデータ追跡は、収益性の高いデータ製品戦略にとって重要です。どのデータ製品が最も多くのメモリを消費しているかを特定することは、コストの可観測性の一例です。

データ製品の可視性を提供するメカニズムも、ビジネスドメイン全体に拡張する必要があります。通常、プロデューサーとユーザーは、異なるビジネスユニットのマネージャーやアナリストと定期的にやり取りすることはありません。この分離により、データ製品が提供できる価値と範囲が制限されます。データ製品のエンゲージメントと可視性を高めるには、全員が仮想的に集まる中央フォーラムが不可欠です。

データプロデューサーはデータ製品戦略の重要な要素であり、その生産性も追跡する必要があります。最も多くのデータ製品を作成しているのは誰ですか。また、どのドメインで、従業員の有効性をより明確に把握できますか。

データ製品の使用状況を追跡することは成功にとって重要ですが、データ製品の信頼性を確保することも重要です。データ製品の信頼性を確保するには、アナリストとユーザーがその品質を観察できる必要があります。これには、あいまい一致、データの機密性、参照 ID に関するメトリックの追跡が含まれます。

あいまい一致

このテストは、データ製品内の異なる行の類似性を測定します。このテストは、データ製品内に重複行が存在する可能性を追跡します。このテストでは、完全一致は識別されませんが、重複を避けるために追加の調査が必要な類似性にフラグが立てられます。このテストは、類似した重複データがある可能性のあるデータ製品内の複数のデータセットを結合する場合に役立ちます。

データの機密性

このテストは、データプロダクト内のデータの完全性を測定します。このテストでは、データプロダクト内のテーブル内の行数をカウントし、それを参照標準と比較します。完全性テストでは、この数が指定された範囲内であるかどうかを判断します。数が間違っている場合は、データが欠落しているか、誤ったデータが挿入または重複している可能性があります。

参照アイデンティティ

このテストは、子テーブルのキーが親テーブルの主キーと一致するかどうかを確認します。親テーブルでキーが変更された場合、このテストではその変更が子テーブルにも反映されることも確認します。

系統データは、データ製品の信頼性に関するより深い洞察も提供します。ユーザーは、データ製品内のデータのソースを表示して、品質を判断できます。データが信頼できるソースから取得されている場合、意思決定者はデータ製品内の質の高いデータにアクセスしていることに自信を持つことができます。

このようにデータプロダクトを観察し、テストすることで、最高品質のデータプロダクトのみをユーザーに提供できるようになります。品質指標とユーザーフィードバックをまとめた信頼スコアは、データプロダクトのユーザーがデータプロダクトの品質を把握するのに最適な方法です。

データの観測可能性

データ製品の機能の監視は重要ですが、データ製品のデータを生成するシステムの可視性も不可欠です。組織は、データと、データを生成して保存するシステムを監視、理解、およびトラブルシューティングするための戦略を策定する必要があります。組織は、データの整合性をサポートするいくつかの重要な要素を監視できる必要があります。これらの要素には、鮮度、品質、量、スキーマ、系統が含まれます。

鮮度

鮮度は、データが更新されてからどれくらい経ったかを表します。古いデータは品質が低く、信頼できません。

品質

品質は価値と正確性を追跡します。品質データテストは、データの観察性を向上させるのに役立ちます。次のような指標があります。

完全性 – この指標はデータセット内のヌル値または「0」値の数を追跡します
一意性 – このメトリックは、特定の列内の一意の値の割合を追跡します。一意性が高い場合、重複は最小限に抑えられます。
妥当性 – このテストでは、データセット内のデータパターンを予想されるデータパターンと比較することで、データの妥当性を確認します。たとえば、負の数が不可能な場合は、妥当性テストで負でない数の個数を測定します。

音量

ボリュームテストはデータセット内の行数をカウントします。行数が少なすぎたり多すぎたりすると問題が発生する場合があります。ボリュームを測定するテストには、

データ感度 - テーブル内の行数を参照と比較し、範囲内にあるかどうかを測定します。
有効な列の長さ – このテストでは、列の長さが正しいか、指定された範囲内であることを確認します。

スキーマ

スキーマはデータの構成を定義します。この構成が変更されると、エラーが発生する可能性があります。データスキーマを誰がいつ変更したかを追跡することは、データの健全性を追跡する上で不可欠です。

系統

系統図は、データ資産がどのように接続され、データテーブルがどのように関連しているかを詳細に示します。また、データソースから消費までのフローを追跡します。問題が発生した場合、根本原因を突き止めるためにデータ系統図を観察できる必要があります。

なぜそれが重要なのでしょうか。

データスタック全体でデータを監視することは、データをクリーンな状態に保つために不可欠です。エラーを迅速に特定することで、エラーが害を及ぼす可能性を減らすことができます。不正なデータが意思決定者に伝わると、管理者は会社のデータの整合性に対する信頼を失います。この信頼の喪失により、組織の意思決定能力が低下します。信頼を一度失うと、回復するのは困難です。

優れたデータ観測ソリューションは、エラーを特定するだけでなく、エラーの原因を特定するのにも役立ちます。これらのツールは、エラー解決までの平均時間を短縮し、ボトルネックを特定してシステム機能を最適化するのに役立ちます。

課題

データ・スタック全体でエンドツーエンドの可観測性を実現するのは困難な場合があります。複雑なデータ・パイプラインと分散データ・サイロにより、データ・システム内を移動するデータを観察することが困難になります。さまざまな部門やデータ・チームがさまざまなツールを使用してドメイン内のデータを観察している場合、これらすべてのサイロにわたって一貫した可観測性を実現することは非常に困難になります。この断片化により、さまざまなシステムやパイプラインにわたるエラーの根本原因を追跡することも困難になります。

データ・フェデレーションとメタデータ管理

データ・フェデレーションと堅牢な統合メタデータ管理ツールの登場により、これらのデータ・サイロ間でデータの可視性がつながりつつあります。データ・フェデレーションは、各データ・サイロを一元化されたメタデータ管理データベースにリンクします。メタデータは、データ観測の主要コンポーネントであるスキーマ、鮮度、ボリュームなどのデータセットの情報を追跡します。このデータを一元化することで、データサイロ間の観測が可能になりますが、データが複数の地点を通過する可能性があり、元のソースメタデータがターゲットデータベースにロードされない可能性がある ETL パイプラインでは、観測がはるかに困難になります。

メタデータ管理の革新には、ソースデータでメタデータが変更されたときに自動的に記録する自動化も組み込まれています。このデータは中央プラットフォームで追跡され、より優れたレポート作成とエラー解決をサポートします。

可観測性は、高品質で価値あるデータ製品にとって非常に重要です。データが意思決定の原動力となり、AI の原動力となる時代において、データとシステムの健全性を追跡することは、この資産を最大限に活用するために不可欠です。