最新の仮想化戦略を使用してデータをセルフ化する方法

あらゆる組織がよりデータドリブンになる競争が続いています。なぜ？なぜなら、意思決定に情報を提供するためにデータを使用する可能性が高い企業の業績が良いからです。しかし、今日のデータ管理テクノロジーがデータサイロを打破し、誰もがデータにアクセスできるようにするには、まだ長い道のりがあります。データ仮想化に基づいて構築されたテクノロジーの新たなエコシステムにより、データアクセスと使いやすさが向上します。

現在のアプローチの課題

アナリストが必要なデータにアクセスするには、通常、SQL、Python、または Java のスキルを持ち、データベースクエリを構築してデータセットを取得する多忙なデータエンジニアに連絡する必要があります。エンジニアは、どのデータをクエリするかを知るために、関連するメタデータとデータ・モデルにも精通している必要があります。さまざまな部門が独自のデータ・モデルを使用しているため、さらなる複雑さを管理する必要があります。データを変換して別のデータ・テーブルとマージする必要がある場合、パイプラインを構築するにはより多くの技術的スキルが必要です。 ETLパイプラインは構築されると、非常に厳格になる傾向があるため、維持することも課題になります。変更が必要な場合は、再エンジニアリングしてテストする必要があります。これは、変更を困難にするだけでなく、単一のパイプラインを複数の目的で使用することが難しいことを意味します。

データに対する需要が急速に高まっているため、このモデルでは増大する圧力に耐えられません。組織はデータエンジニアリング・チームに新しいエンジニアを際限なく追加し続けることはできません。コストがかかりすぎるだけでなく、市場に十分なエンジニアがいないからです。

これらの課題の最終的な結果として、組織はビジネス上の意思決定を遅くし、競争上の不利な立場に置かれます。

インテリジェンス・データ仮想化とは何ですか

データ仮想化サービスは、データアクセスへの新しいアプローチの基盤を提供します。データ視覚化ツールは、データの仮想表現を作成して分析に使用できるようにするミドルウェアを提供します。ETL を使用してデータを分析場所に移動するアプローチとは異なり、仮想化されたデータは所定の場所に留まります。データをソース・システムからデータレイクに移動し、次に分析のために別のシステムに移動する必要がありません (これは一般的な方法です)。実際のデータは所定の場所に留まりますが、メタデータは中央リポジトリに分離され、統合されます。

データ仮想化戦略では、ロジックと基礎データを分離することで、データクエリの変更がはるかに簡単になります。メタデータがデータソースに埋め込まれ、ETL パイプラインを変更する必要がある場合、エンジニアはデータモデルだけでなく、接続の設定方法や依存関係を考慮する必要があるかどうかも理解する必要があります。データが仮想化されているときにデータソースを追加するのは、はるかに簡単です。データが仮想化されているときは、メタデータを参照してクエリを微調整するだけで済みます。柔軟性が増すと、データ製品またはデータ資産は反復的に進化し、データ・コンシューマーにとってより大きな価値を生み出すことができます。

データ仮想化によりデータフェデレーションが実現する

メタデータを、メタデータが記述するデータから分離して一元化すると、多数の新しい機能が有効になります。データフェデレーションもその 1 つです。これは、複数のソースからのメタデータが編成され、統一されたデータモデルを通じてデータにアクセスできるようになります。メタデータを統合することにより、ユニバーサルデータモデルにより、異種データベースに分散された基礎となるデータを理解しやすくなり、データにアクセスするプロセスが非常に簡単になります。

統合されたメタデータ・レイヤーにより、アナリストは単一のクエリを作成して、クラウド内かオンプレミス内かを問わず、複数のデータベースから同時にデータを取得することもできます。複数のデータベースにアクセスし、データをリアルタイムで集約および変換する機能により、まったく新しい機能の世界が開かれます。

データフェデレーションによりユニバーサルセマンティクスレイヤーが実現する

データフェデレーションによって利用できる統合データモデルを使用すると、その上にユニバーサルセマンティクスレイヤーを構築して、データをよりセルフサービスにすることができます。複数のデータストアを表し、データ資産を単一のデータカタログにリストする単一のデータモデルを採用すると、データを探索して必要な事実を正確に特定することがはるかに簡単になります。ユニバーサルセマンティクスの強化された可視性がなければ、アナリストは新しいデータを簡単に参照、実験、または発見できないため、これによりイノベーションが促進されます。使いやすさを向上させるために、ユニバーサル仮想化レイヤーには、ビジネス用語やメトリックを標準化するビジネス用語集などの追加リソースが含まれる場合があります。これにより、データがどのように整理されているか、どこに保存されているかをほとんど理解せずにデータ資産を見つけることができるビジネスユーザーが、データにさらにアクセスしやすくなります。

データ仮想化、フェデレーション、セマンティクスにより、データガバナンスが向上する

データ・ガバナンスは、データの安全性、プライバシー、正確性、可用性、使いやすさを確保するために行うすべてのこととして定義されます。最新のデータテクノロジーの出現により、これらすべての目的に沿ってデータガバナンスが向上します。

セキュリティ

仮想化レイヤーにより、単一のゲートウェイで集中的なデータガバナンスとセキュリティを強化できます。

プライバシー

データをより適切に制御できる場所に保持することで、データ仮想化は複数のデータソースにわたるアクセスを管理できます。統合されたメタデータを使用すると、きめ細かなアクセス制御を使用して列レベルでデータをマスクし、ID を不明瞭にすることができます。

正確さ

データを 1 か所に保管することで、データの精度が向上します。データベースを同期したりデータを移動したりする必要がないため、プロセス中に発生する可能性のあるエラーが減ります。データの重複コピーが組織内に分散していないと、ソースシステムのデータが唯一の真実のソースとなり、古いデータセットによって生じるデータの競合が減ります。

可用性

データ仮想化により、データをリアルタイムで利用できるようになります。また、フェデレーションデータガバナンスも可能になり、ビジネスドメインに、必要なユーザーにアクセスを許可する権限を与える自律性が高まります。

ユーザビリティ

データ仮想化によって実現されるセマンティックレイヤーにより、ビジネスユーザーはビジネスドメイン全体にわたって共通の定義を通じてデータにアクセスできるようになり、データの使いやすさが向上します。

クラウド・ネイティブ・データ・アプローチ

データ仮想化と、それを取り巻くテクノロジーのエコシステムの拡大は、それらが実行されるプラットフォームであるクラウドの強みを基盤としているため、変革をもたらすイノベーションとなります。データレイクと ETL テクノロジーは、オンプレミスのエコシステム向けに設計されており、クラウドの機能は考慮されていません。データがクラウドに移行したため、この新しい環境で実現される新しいアプローチを検討する必要があります。クラウドの常時接続性と即時の拡張性は、最新のデータ管理戦略を設計する際に考慮する必要がある機能です。

リアルタイムでデータを取得できるのに、なぜバッチ処理を待つ必要があるのでしょうか。分析中にデータを保存するために VM を起動してみませんか。すべてのデータを相互接続して、1 か所からアクセスしてみませんか。

古いやり方を新しいプラットフォームに適応させることは、テクノロジーの変革とプラットフォームの導入における一般的な傾向です。モバイルデバイスプラットフォームが登場すると、企業はエンタープライズアプリケーションや Web アプリケーションをモバイル OS 上で実行できるように変更しました。これは機能しましたが、電力と帯域幅が限られており、モバイルであるデバイス向けに設計されていませんでした。この標準はすぐに、プラットフォームによって実現される制約と機会を考慮したネイティブオペレーティングシステムに組み込まれたアプリケーションになりました。アプリケーションをクラウドに移動する場合も同様です。最初の反復では、モノリスアプリケーション全体をコンテナーに移動し、それをクラウドネイティブと呼びました。実際のところ、アプリケーションは、クラウドの常時接続とスケーラビリティを活用して、複数の異なるコンテナ内で実行できるように設計および構築されている場合にのみ真のクラウド・ネイティブとなります。現在はデータ管理がクラウドネイティブになる番であり、データ仮想化が基盤テクノロジーです。

データ仮想化は強力なテクノロジーであり、無限に複雑化する現代のデータ戦略の基盤にすぎません。