ユニバーサルセマンティクスはセルフサービスデータの鍵



Listen to this blog
Disclaimer

データにはコンテキストが必要です。コンテキストがなければ、データは単なる言葉と数字に過ぎません。データに価値を持たせるには、人々がそれが何を表しているかを理解する必要があり、人々にはコンテキストが必要です。データをよりよく理解するために、アナリストはデータがいつ、どこで、どのように収集されたかの詳細も知る必要があります。多くの場合、これは微妙で矛盾することがあります。データはマサチューセッツ州で収集されましたか、それとも米国で収集されましたか。 暦年の第 1 四半期に収集されましたか、それとも会計年度の第 1 四半期に収集されましたか。

データ セマンティクスは、このコンテキストを提供するものであり、データ・スタックの重要なコンポーネントです。セマンティクス・レイヤーは、データの論理ビューを提供し、ビジネス・ユーザーがデータを簡単に操作できるようにします。セマンティクス・レイヤーは、技術的なデータ構造をビジネス ユーザーが理解できる用語に変換します。

セマンティクス層の主要なコンポーネントは、

データカタログ
データ・カタログ

データ カタログは、組織のデータ資産のインベントリであり、データ プロフェッショナルが必要なものを簡単に見つけられるようにデータ資産を説明します。

データ辞書
データ辞書

データ・ディクショナリは、組織のデータ構造、意味、およびデータ要素の使用法を定義します。

ビジネス用語集
ビジネス用語集

ビジネス用語集では、よく使用されるビジネス用語、概念、ルールを定義します。

断片化されたセマンティクス

セマンティクスは非常に重要であるため、組織全体に浸透しています。セマンティクス レイヤーは長年にわたって進化し、それぞれ独自の標準を持つさまざまな場所に実装されてきました。このように定義とコンテキストが統一されていないため、データ コンシューマーは標準化された方法で必要なデータにアクセスすることが難しく、壁やデータ サイロが形成されます。

セマンティクス・レイヤーは通常、展開される環境に合わせて作成されます。作成された目的を果たすのに優れているかもしれませんが、セマンティクスの断片化により、データ共有が妨げられる溝が拡大しています。

たとえば、BI ツールには独自のセマンティクス レイヤーがあり、それぞれに独自のデータ定義があります。一般的な組織では、ほぼ 4 つの異なるBIツールが使用されているため、部門間のコラボレーションが非常に困難になっています。

セマンティック レイヤーは非常に厳格なデータ・パイプラインにプログラムされているため、開発者が変更を実行する必要があります。パイプラインの要件が変化すると、通常はデータのコンテキストを完全に理解していないプログラマーが更新を実装する必要があります。このプロセスではデータ コンテキストが歪むことが多く、他のパイプラインやツールとの一貫性が失われる可能性が高くなります。

データ ウェアハウスには、その上にあるデータマートと統合された独自のセマンティクス レイヤーもあります。これらは通常、各データ ウェアハウスまたはデータマートを管理するグループに固有のものです。この断片化により、データ モデルのニュアンスを理解していない可能性のある他の部門の同僚とデータを共有することが困難になります。

データウェアハウス

組織はデータ レイクを使用してデータを 1 か所に集め、アクセスしやすくしてきました。それでも、データ モデル間の差異はデータの統合と共有の障壁となっています。データ レイク内の同じ場所にデータがあっても、データ定義が同じでなければ、同じ条件で比較するのは簡単ではありません。たとえば、一部のデータ セットでは顧客を個人と見なしますが、他のデータ セットでは顧客を会社として分類する場合があります。これは、データが収集された方法と理由のコンテキストによって大きく異なります。共有データを適切に分析するには、各データ セットのセマンティクスを正規化する必要があります。

データの重要性が高まり、世界が可能な限り多くのデータを収集し続けるにつれて、断片化されたセマンティクス エコシステムを管理するというこの課題はますます大きくなるでしょう。

データ仮想化とユニバーサルセマンティクスレイヤーによる断片化の抑制

データ仮想化とユニバーサル セマンティクス レイヤーにより、セマンティクスの断片化を抑え、より優れたデータ共有とセルフサービスが可能になります。

ユニバーサル セマンティクス レイヤーは、データをビジネス用語に統一的に翻訳する唯一の真実のソースです。これはプラットフォームに依存せず、パイプライン、ツール、またはウェアハウスに接続されていませんが、生データ資産と分析ツールの間に配置されるように設計されています。ユニバーサル セマンティクスが機能するには、データ仮想化ツールがメタデータとセマンティクスをデータ プレーンから分離する必要があります。このアプローチにより、アナリストはデータの表現を操作できますが、元のデータはソース システムに残り、アナリストは統一されたデータ モデルを介してデータを操作できます。データはそのまま残りますが、メタデータは単一のソースに統合され、単一のセマンティクス セットに整理されます。データ仮想化によってユニバーサル セマンティクス レイヤーが有効になると、アナリストはすぐに、どこにあってもクエリを実行できる、理解しやすいビジネス データの単一のビューを持つことになります。この統一性により、単一のデータ クエリで複数のデータ ストアに同時にアクセスでき、データ検出が次のレベルに引き上げられます。データ ストレージの複雑さとデータ構文の不一致が抽象化されるため、技術に詳しくないユーザーでも、データを見つけてその意味を説明する専門家に頼ることなく、必要なデータにアクセスできます。

データ仮想化により、セマンティクスの断片化を引き起こすテクノロジの多くも排除されます。ソースから直接データをクエリできるため、セマンティクスが組み込まれたデータ パイプラインへの依存度が低くなります。仮想化と統一されたデータ モデルを活用することで、BI プラットフォームはネイティブ セマンティクスを回避してソースからデータにアクセスできます。データマートも不要になります。

データ カタログ、データ ディクショナリ、ビジネス用語集が 1 つのプラットフォームに統合されると、データ コンシューマーは組織全体からデータ セットを検出してアクセスできるようになります。この機能により、データに基づく意思決定を改善するための多くの新しい機会が生まれます。

セマンティクスとデータ管理の未来

統合セマンティクスと仮想化データは、データ メッシュやデータ ファブリックなどの新しい最新のデータ管理戦略の重要な構成要素です。これらの戦略とテクノロジは、データ コンシューマーがデータにアクセスしやすくすることで、ラスト マイルを接続します。これにより、データ製品やナレッジ グラフなどの新しい消費および検出チャネルが可能になります。

統合されたセマンティクス レイヤーにより、人間が組織内外のすべてのデータをよりよく理解できるようになるだけでなく、マシンにとっても容易になります。セマンティック検索機能により、ビジネス言語と用語に基づいてデータ製品を検索できます。Gen AI が単一のアクセス可能なメタデータ リポジトリを分析できる場合、シンプルな言語コマンドでデータを取得する方法を学習できます。これを視覚化を自動的に作成できる AI と組み合わせると、退屈な分析作業を削減する機会が革命的に生まれます。

Discover the Latest in Data and AI Innovation

  • Blog

    データドリブンな文化を育む

    Read More

  • E-book

    最新のデータスタックを使用した非構造化データ

    Read More

  • Blog

    事例 - AI 時代における信頼性の高いデータ品質戦略の構築

    Read More

Request a Demo TODAY!

Take the leap from data to AI