あらゆる組織がよりデータドリブンになる競争が続いています。なぜ?なぜなら、意思決定に情報を提供するためにデータを使用する可能性が高い企業の業績が良いからです。しかし、今日のデータ管理テクノロジーがデータサイロを打破し、誰もがデータにアクセスできるようにするには、まだ長い道のりがあります。データ仮想化に基づいて構築されたテクノロジーの新たなエコシステムにより、データ アクセスと使いやすさが向上します。
アナリストが必要なデータにアクセスするには、通常、SQL、Python、または Java のスキルを持ち、データベース クエリを構築してデータ セットを取得する多忙なデータ エンジニアに連絡する必要があります。エンジニアは、どのデータをクエリするかを知るために、関連するメタデータとデータ・モデルにも精通している必要があります。さまざまな部門が独自のデータ・モデルを使用しているため、さらなる複雑さを管理する必要があります。データを変換して別のデータ・テーブルとマージする必要がある場合、パイプラインを構築するにはより多くの技術的スキルが必要です。 ETLパイプラインは構築されると、非常に厳格になる傾向があるため、維持することも課題になります。変更が必要な場合は、再エンジニアリングしてテストする必要があります。これは、変更を困難にするだけでなく、単一のパイプラインを複数の目的で使用することが難しいことを意味します。
データに対する需要が急速に高まっているため、このモデルでは増大する圧力に耐えられません。組織はデータ エンジニアリング・チームに新しいエンジニアを際限なく追加し続けることはできません。コストがかかりすぎるだけでなく、市場に十分なエンジニアがいないからです。
これらの課題の最終的な結果として、組織はビジネス上の意思決定を遅くし、競争上の不利な立場に置かれます。
データ仮想化サービスは、データ アクセスへの新しいアプローチの基盤を提供します。データ視覚化ツールは、データの仮想表現を作成して分析に使用できるようにするミドルウェアを提供します。ETL を使用してデータを分析場所に移動するアプローチとは異なり、仮想化されたデータは所定の場所に留まります。データをソース・システムからデータ レイクに移動し、次に分析のために別のシステムに移動する必要がありません (これは一般的な方法です)。実際のデータは所定の場所に留まりますが、メタデータは中央リポジトリに分離され、統合されます。
データ仮想化戦略では、ロジックと基礎データを分離することで、データ クエリの変更がはるかに簡単になります。メタデータがデータ ソースに埋め込まれ、ETL パイプラインを変更する必要がある場合、エンジニアはデータ モデルだけでなく、接続の設定方法や依存関係を考慮する必要があるかどうかも理解する必要があります。データが仮想化されているときにデータ ソースを追加するのは、はるかに簡単です。データが仮想化されているときは、メタデータを参照してクエリを微調整するだけで済みます。柔軟性が増すと、データ製品またはデータ資産は反復的に進化し、データ・コンシューマーにとってより大きな価値を生み出すことができます。
メタデータを、メタデータが記述するデータから分離して一元化すると、多数の新しい機能が有効になります。データフェデレーションもその 1 つです。これは、複数のソースからのメタデータが編成され、統一されたデータ モデルを通じてデータにアクセスできるようになります。メタデータを統合することにより、ユニバーサル データ モデルにより、異種データベースに分散された基礎となるデータを理解しやすくなり、データにアクセスするプロセスが非常に簡単になります。
統合されたメタデータ・レイヤーにより、アナリストは単一のクエリを作成して、クラウド内かオンプレミス内かを問わず、複数のデータベースから同時にデータを取得することもできます。複数のデータベースにアクセスし、データをリアルタイムで集約および変換する機能により、まったく新しい機能の世界が開かれます。
データ フェデレーションによって利用できる統合データ モデルを使用すると、その上にユニバーサル セマンティクス レイヤーを構築して、データをよりセルフサービスにすることができます。複数のデータ ストアを表し、データ資産を単一のデータ カタログにリストする単一のデータ モデルを採用すると、データを探索して必要な事実を正確に特定することがはるかに簡単になります。ユニバーサル セマンティクスの強化された可視性がなければ、アナリストは新しいデータを簡単に参照、実験、または発見できないため、これによりイノベーションが促進されます。使いやすさを向上させるために、ユニバーサル仮想化レイヤーには、ビジネス用語やメトリックを標準化するビジネス用語集などの追加リソースが含まれる場合があります。これにより、データがどのように整理されているか、どこに保存されているかをほとんど理解せずにデータ資産を見つけることができるビジネス ユーザーが、データにさらにアクセスしやすくなります。
データ・ガバナンスは、データの安全性、プライバシー、正確性、可用性、使いやすさを確保するために行うすべてのこととして定義されます。最新のデータ テクノロジーの出現により、これらすべての目的に沿ってデータ ガバナンスが向上します。
仮想化レイヤーにより、単一のゲートウェイで集中的なデータガバナンスとセキュリティを強化できます。
データをより適切に制御できる場所に保持することで、データ仮想化は複数のデータ ソースにわたるアクセスを管理できます。統合されたメタデータを使用すると、きめ細かなアクセス制御を使用して列レベルでデータをマスクし、ID を不明瞭にすることができます。
データを 1 か所に保管することで、データの精度が向上します。データベースを同期したりデータを移動したりする必要がないため、プロセス中に発生する可能性のあるエラーが減ります。データの重複コピーが組織内に分散していないと、ソース システムのデータが唯一の真実のソースとなり、古いデータ セットによって生じるデータの競合が減ります。
データ仮想化により、データをリアルタイムで利用できるようになります。また、フェデレーション データ ガバナンスも可能になり、ビジネス ドメインに、必要なユーザーにアクセスを許可する権限を与える自律性が高まります。
データ仮想化によって実現されるセマンティック レイヤーにより、ビジネス ユーザーはビジネス ドメイン全体にわたって共通の定義を通じてデータにアクセスできるようになり、データの使いやすさが向上します。
データ仮想化レイヤーがデータへの単一のゲートウェイとして機能するため、誰がどのデータセットにアクセスできるかを制御および監視することがはるかに簡単になります。この監視により、IT 部門が高レベルのガバナンスを維持しながら、権限をデータ ドメインに分散できます。フェデレーション データ ガバナンスとユニバーサル セマンティクスにより、ドメイン指向でデータ製品を中心としたデータ メッシュ アーキテクチャが可能になります。データ・メッシュの詳細については、こちらをご覧ください。
データ ファブリックも、データ仮想化、データ フェデレーション、ユニバーサル セマンティクス レイヤー上に構築されます。データ メッシュとは異なり、フェデレーション データ ガバナンスをアプローチに組み込んでいません。このモデルでは、IT 部門が組織のデータとナレッジ グラフによって実現されるデータ検出の責任を負います。
データ仮想化と、それを取り巻くテクノロジーのエコシステムの拡大は、それらが実行されるプラットフォームであるクラウドの強みを基盤としているため、変革をもたらすイノベーションとなります。データ レイクと ETL テクノロジーは、オンプレミスのエコシステム向けに設計されており、クラウドの機能は考慮されていません。データがクラウドに移行したため、この新しい環境で実現される新しいアプローチを検討する必要があります。クラウドの常時接続性と即時の拡張性は、最新のデータ管理戦略を設計する際に考慮する必要がある機能です。
リアルタイムでデータを取得できるのに、なぜバッチ処理を待つ必要があるのでしょうか。 分析中にデータを保存するために VM を起動してみませんか。 すべてのデータを相互接続して、1 か所からアクセスしてみませんか。
古いやり方を新しいプラットフォームに適応させることは、テクノロジーの変革とプラットフォームの導入における一般的な傾向です。モバイル デバイス プラットフォームが登場すると、企業はエンタープライズ アプリケーションや Web アプリケーションをモバイル OS 上で実行できるように変更しました。これは機能しましたが、電力と帯域幅が限られており、モバイルであるデバイス向けに設計されていませんでした。この標準はすぐに、プラットフォームによって実現される制約と機会を考慮したネイティブ オペレーティング システムに組み込まれたアプリケーションになりました。アプリケーションをクラウドに移動する場合も同様です。最初の反復では、モノリス アプリケーション全体をコンテナーに移動し、それをクラウドネイティブと呼びました。実際のところ、アプリケーションは、クラウドの常時接続とスケーラビリティを活用して、複数の異なるコンテナ内で実行できるように設計および構築されている場合にのみ真のクラウド・ネイティブとなります。現在はデータ管理がクラウドネイティブになる番であり、データ仮想化が基盤テクノロジーです。
データ仮想化は強力なテクノロジーであり、無限に複雑化する現代のデータ戦略の基盤にすぎません。