データは、あらゆる企業における意思決定に極めて重要です。しかし、意思決定者が IT 部門がデータにアクセスするためのデータ パイプラインを構築するのを待たなければならない場合、機会を逃し、意思決定は最適とは言えません。これは、パフォーマンスを向上させるためにデータ主導型になろうとしているほとんどの大企業が直面している課題です。
データ管理の最大の課題の 1 つは、昨日のテクノロジーでは今日のデータ需要の増大に対応できないことです。ETL アプローチは数十年前のものであり、よりシンプルな時代に機能していた集中型のガバナンス構造では、AI 時代の複雑さに対応できるほど拡張できません。
より分散化され、俊敏で、柔軟な革新的なアプローチが市場に登場し始めています。データ・ メッシュ戦略はその一例です。
データ・ メッシュは、最新のデータ統合戦略です。これは、統合された集中型のデータ ストレージと管理から、より共有されたフェデレーション型のアプローチへと移行する分散データ アーキテクチャに基づいています。これは、モノリシック アーキテクチャ上に構築され、多数の依存関係に依存する ETL データ パイプラインとデータ レイクの代替手段です。
データ・ メッシュアーキテクチャは単なる技術ではなく、データ管理とデータ消費における貢献者の役割の変化を組み込んだ包括的な戦略です。データ・ メッシュ戦略には4つの原則があります。真のデータ・ メッシュ戦略には、
データ・ メッシュ アーキテクチャは、データに対するより多くのコマンドと制御を独立したドメインに再分配します。ドメインとは、特定のビジネス機能に従事するグループです。これには、地域運営、事業部門、または営業、マーケティング、人事、財務などのビジネス機能が含まれます。
これらのドメインは、日常の業務を遂行しながら大量のデータを収集します。ドメイン駆動型アプローチでは、このデータの制御と管理の責任は、中央の機関ではなく、データを収集した人の手に委ねられます。
メッシュでは、ドメインの自律性は高まりますが、自由に何でもできるわけではありません。フェデレーテッド データ ガバナンス アプローチでは、データ ガバナンスの責任は中央の IT 管理者とドメイン レベルの管理者の間で共有されます。IT はすべてのドメインに均一に適用されるフレームワークとポリシーの作成を担当し、各ドメインは独自のデータとビジネス プロセスにのみ適用されるルールを管理します。フェデレーテッド データ ガバナンスの詳細については、こちらをご覧ください。
データ・ メッシュ アーキテクチャに移行すると、プロジェクト メンタリティから製品ベースのアプローチに切り替わります。新しいデータ セットが必要になるたびにアドホック ETL パイプラインを作成するのではなく、ドメイン チームは、意思決定者が必要とするデータを提供する再利用可能なデータ製品を積極的に構築するように取り組みます。
これらの製品が効果を発揮するには、発見可能、アドレス可能、信頼でき、自己説明的である必要があります。これは次のことを意味します。
データ・ メッシュ アーキテクチャは、技術に詳しくないデータ コンシューマーが、技術専門家の支援なしにアクセスできるものでなければなりません。これは、データ製品マーケットプレイスを通じて、または分析ツールやモデリング ツールからデータ製品に直接アクセスできるテクノロジを通じて実現できます。データ・ メッシュが解決する最大の問題点の 1 つは、データとそれを利用する人々の間にある技術的な障壁を打破することです。セルフサービスにより、意思決定の質とスピードが向上します。また、データ要求への対応に追われているデータ エンジニアの負担も軽減されます。
今日の環境では、データに対する需要が IT 運用によるデータ提供能力を上回っています。組織は、データに基づく意思決定を増やすことで、より良い結果とパフォーマンスが得られることを認識していますが、目的に適合し、信頼できる適切なデータへのアクセスを提供するという課題は、技術的にも文化的にも困難です。
一般的な組織では、データはデータ サイロに収集され、保存されます。レガシー トランザクション アプリケーションであれ、SaaS CRM であれ、これらのサイロ間でデータを共有するのは困難です。データ共有の需要を満たすには、知識豊富なプログラマーがこれらのサイロ間でデータを移動するパイプラインを構築する必要があります。これらの開発者は、データ要求に応えるために、Python、SQL、R、Java などのテクノロジに精通している必要があります。残念ながら、需要に対応できる熟練した開発者は十分にいません。多くの場合、データ要求が満たされる頃にはニーズがなくなり、機会を逃すことになります。ビジネス上の意思決定がすでに電光石火の速さで行われており、AI がそのペースを飛躍的に高めようとしていることから、このアプローチは将来的には機能しないでしょう。
データ・ メッシュにより、人々と高度なテクノロジーが連携して作業できるようになり、組織全体の意思決定者は必要なときに必要なデータを入手できます。
文化的な観点から見ると、データ・ メッシュ戦略は、各自のドメインのデータを管理する所有権と責任を高めることで、個人に権限を与えます。これにより、個人は、データへのアクセスと信頼性の確保にさらに積極的に取り組むようになります。プロセスの各関係者には役割があります。
データ・ メッシュのセルフサービス機能と堅牢なデータ カタログにより、データ アナリストはデータ製品を通じて必要なデータを探索し、展開できます。アナリストは、手動タスクに苦労したり、IT がデータにアクセスするのを待ったりする必要がなくなりました。アナリストは、自分のスキルを活かして、より多くの洞察と分析を意思決定者に提供できます。
ドメイン マネージャーは、中央のガバナンス機関よりも収集したデータについて理解しているため、データを管理する権限が与えられています。データを取り巻くコンテキストをより深く理解することで、データを管理し、その価値を高める最適な立場に立つことができます。
データ・ メッシュへの移行により、IT プロフェッショナルとデータ エンジニアは、より戦略的なサービスを提供することで、提供価値を高めることができます。データ エンジニアは、ETL プロセスのコーディングに費やす時間を短縮し、データ製品プロデューサーと緊密に連携して、より効率的に高品質のデータにアクセスできます。ドメイン レベルのガバナンス ルールについてアドバイスし、品質メトリックを適用できます。データ エンジニアは、インフラストラクチャの管理においてより大きな役割を果たし、同僚を支援することもできます。
データ・ メッシュは分散アーキテクチャ上で実行されます。データはデータ レイクにダンプされるのではなく、収集されたシステム内に残ります。データが必要になったときに、別のデータベースにコピーされて分析されるのではなく、ソースから取得されます。つまり、ストレージ コストが削減され、さまざまな冗長データ ストア間の不一致が最小限に抑えられます。
分散システムは、よりスケーラブルで、俊敏で、アクセスしやすいという利点もあります。実際のデータはそのまま残りますが、メタデータは単一のデータベースに統合されます。メタデータをそれが記述するデータから分離することで、データ資産を単一のカタログで検出し、データクエリをデータとは独立して構築できます。これにより、次のことが可能になります。
同じデータ・モデルを使用して、複数の異なるシステムのデータに同時にアクセスできる単一のデータ クエリを作成できます。
また、データをバッチプロセスで移動する必要はなく、リアルタイムでマージして、その場で変更を加えることができます。
データをロジックから分離することで、無限のデータ パイプラインによって作成される依存関係が削減され、スケーラビリティが向上します。
権限が高ければ、必ずしもセキュリティが向上するわけではありません。データを収集する専門家は、データの機密性を理解するのに非常に有利な立場にあります。そのため、中央の権限よりもスマートなデータ ガバナンス ポリシーを実装できる立場にあります。
柔軟なフレームワーク ガバナンス階層は、データの正確性、安全性、アクセス性を確保する上で、はるかに効果的です。より広範なフレームワーク内で作業する自主性をドメインに与えることで、組織のガバナンス標準を満たしながらも、ドメインにとって最適なポリシーを作成できます。データに近づくことで、脅威や要求の変化に応じて変更を加えることも容易になります。
自律性が高まると、アナリストが非承認のソリューションに頼る傾向も減ります。ルールが厳しすぎたり、特定のユースケースに適用できない場合、オペレーターはルールを回避する方法を見つけます。これにより、セキュリティに対する深刻な脅威につながる可能性のある不透明な脆弱性が生まれます。
テクノロジーとシステムが成熟するにつれて、通常、より洗練され、複雑になり、分散化します。集中管理が少なくなると、データ システムは急速に進化し、より機敏で回復力のあるものになります。データを人に委ねながら、秩序を確保するための適切なガードレールを作成することで、データはよりアクセスしやすく、より有用になります。