데이터 민주화의 채택이 확대되면서 데이터 사일로 간에 데이터를 공유하기 위한 새로운 프레임워크와 기술이 생겨나고 있습니다. 이러한 전략은 비즈니스 도메인 간의 데이터 공유 마찰을 줄이고 있으며, 데이터에 대한 액세스가 간편해지고 있습니다. 데이터 통합의 핵심 과제 중 하나는 다양한 데이터베이스와 데이터 세트를 고유한 방식으로 설명하는 이질적인 데이터 모델로 작업하는 것입니다.
데이터 집합을 병합하는 기존 방식은 데이터베이스에서 하나의 데이터 집합을 추출하여 변환한 다음 다른 데이터베이스에 로드하여 해당 데이터베이스의 데이터 구조와 일치시키는 것이었습니다. ETL 프로세스를 수행하려면 데이터 엔지니어가 각 데이터 집합을 구성하고 레이블을 지정하는 것과 함께 데이터를 이동하고 변환하는 기술적 측면을 이해해야 합니다. 두 데이터 집합이 어떻게 모델링되는지 이해하는 것은 두 데이터 집합을 하나로 매핑할 수 있도록 하는 데 매우 중요합니다.
최신 데이터 가상화 기술은 기본 데이터 구조에서 데이터를 추상화하고, 프로세스를 단순화하며, ETL의 필요성을 없앰으로써 이질적인 데이터 소스에 대한 더 큰 접근성을 제공합니다. 이 기술은 강력하지만 데이터에 액세스하는 균일한 방법을 제공하지는 않습니다.
데이터 가상화는 한 곳에서 분산된 데이터에 액세스할 수 있는 단일 인터페이스 또는 연결 계층을 제공합니다. 그러나 데이터가 의미하는 바를 이해하기 위해 분석가는 여전히 각 데이터베이스에 대한 각각의 개별 데이터 모델에 의존하여 맥락을 파악해야 합니다. 효과적인 분석을 위해 각 시스템의 데이터가 무엇을 나타내는지, 그리고 서로 어떻게 관련되어 있는지 이해해야 합니다. 이러한 통찰력을 얻으려면 다양한 데이터 저장소에 액세스하는 방법을 표준화하는 효과적인 데이터 연합 전략이 필요합니다. 데이터 사일로에서 데이터와 관계를 매핑하는 통합 데이터 모델은 중요한 구성 요소입니다. 더 쉽게 액세스하기 위해 이러한 관계를 비즈니스 용어에 매핑하는 비즈니스 용어집은 비즈니스 리더와 의사 결정권자에게 접근성을 높여 이 데이터 모델의 가치를 더욱 높일 수 있습니다.
연합 데이터 모델은 연결된 소스 시스템에서 추출된 메타데이터를 기반으로 하며, 이를 균일한 논리적 데이터 구조로 병합합니다. 데이터가 단일 데이터 모델을 중심으로 구성되면 데이터 플랫폼은 마치 하나인 것처럼 모든 이기종 데이터베이스와 상호 작용할 수 있습니다. 이 접근 방식을 사용하면 하나의 연합 쿼리로 여러 시스템에서 데이터를 가져올 수 있습니다. 이 기능은 데이터 엔지니어와 숙련된 분석가가 데이터를 통합하고 데이터 자산과 데이터 제품을 만들 때 상당한 시간을 절약합니다.
물리적 계층에서 논리를 추상화하면 도구가 덜 복잡하고 여러 기본 데이터베이스 구조와 상호 작용할 필요가 없으므로 셀프 서비스 데이터 분석이 더 쉬워집니다.
연합 데이터 전략에서 메타데이터는 데이터에 액세스하기 위한 글로벌 또는 연합 데이터 카탈로그를 만드는 데 사용됩니다. 이 데이터 카탈로그는 중앙 메타데이터 리포지토리를 활용하여 분석가가 연합 데이터 쿼리를 빌드할 수 있도록 검색 가능한 데이터 자산 인벤토리를 만듭니다.
연합 데이터 카탈로그는 모든 데이터 자산에서 검색을 가능하게 합니다. 또한 계보를 통합하여 사용자와 데이터 관리자가 과거에 데이터가 어떻게 변경되었는지 이해할 수 있습니다.
연합 데이터 전략은 누가 어떤 데이터에 액세스할 수 있는지 관리할 수도 있습니다. 각 데이터베이스에서 개별적으로 액세스를 관리하거나 모든 데이터베이스에 균일한 규칙을 적용하는 대신, 연합 데이터 카탈로그는 한곳에서 ID를 관리하는 보안 게이트웨이 역할을 할 수 있습니다. 또한 모든 데이터 자산에 대한 승인된 액세스를 지원합니다.
표준화된 데이터 카탈로그를 사용하면 셀프 서비스 기능을 만드는 것이 훨씬 덜 복잡합니다. 셀프 서비스 플랫폼은 데이터에 액세스하는 프로세스를 자동화할 수 있지만 용어가 더 통일됩니다. 비즈니스 사용자는 자신이 찾는 데이터가 무엇인지 알고 있으므로 훨씬 더 자립적입니다. 더 간단한 모델은 AI가 데이터에 액세스하는 방법을 더 잘 이해하는 데 도움이 됩니다. 데이터 요소를 균일하게 정의하는 통합되고 표준화된 데이터 의미 체계를 사용하면 LLM 모델이 비즈니스 용어를 사용하여 데이터 요청을 SQL 쿼리로 변환하기가 더 쉬워집니다.
연합 데이터 모델은 데이터 소스에서 단일 데이터 쿼리를 만드는 데 적합하지만, 이러한 모델은 일반적으로 비즈니스 사용자를 대상으로 하지 않습니다. 비즈니스 용어는 때때로 각 비즈니스 도메인에서 다르게 정의되므로 도메인과 지역 간에 데이터를 연합할 때 비즈니스 용어집이 특히 중요합니다. 용어도 지역마다 다릅니다.
예를 들어, 영국의 "매출"과 미국의 "수입". 두 용어는 데이터 모델에서 같은 의미를 갖지만, 각 지역에서는 다른 어휘를 사용합니다. 비즈니스 용어와 동의어를 정확하게 정의하는 자세한 비즈니스 용어집은 특히 비즈니스 지향적 의사 결정권자에게 데이터를 찾고 의미를 이해하는 것을 더 쉽게 해줍니다.
과거에는 비즈니스 용어집이 각 용어를 정의하는 독립형 문서에 존재했습니다. 오늘날 비즈니스 용어집은 데이터 사전 및 데이터 카탈로그에 연결되어 사용자가 비즈니스 용어만 사용하여 데이터를 자동으로 액세스할 수 있습니다. 이러한 개선을 통해 비즈니스 사용자는 찾는 데이터를 설명하는 비즈니스 용어만 이해하면 조직에서 데이터에 자유롭게 액세스할 수 있습니다.
이 기능은 비즈니스 용어, 정의 및 관련 메타데이터에 대한 단일 진실의 소스를 생성합니다.
이 기능은 비즈니스 용어를 구조화된 분류법 또는 계층으로 정리합니다. 계층적 분류를 통해 사용자는 관련 용어와 개념을 탐색하여 조직의 도메인에 대한 더 깊은 이해를 촉진할 수 있습니다.
때로는 용어집의 비즈니스 용어를 데이터 자산에 자동으로 할당하여 기술 메타데이터를 관련 비즈니스 컨텍스트와 연결할 수 있습니다. 이 자동 할당 프로세스는 각 데이터 자산에 비즈니스 본질을 추가하여 기술 메타데이터를 정규화하고 관련성과 유용성을 향상시키는 데 도움이 됩니다.
이 기능은 비즈니스 용어를 기술 메타데이터와 연결합니다. 비즈니스 용어집은 데이터 세트에서 용어를 표준화하는 데 도움이 됩니다. 기술 메타데이터를 정규화하면 데이터 설명의 일관성이 보장되어 사용자가 정보를 해석하고 분석하기가 더 쉬워집니다.
비즈니스 용어집은 비즈니스 요구 사항에 맞춰 위에서 아래로 작성해야 합니다. 비즈니스 용어집을 만드는 좋은 방법은 기존의 표준 산업 용어를 사용하는 것입니다. 이 접근 방식은 견고한 기반을 제공하고 타사와의 데이터 공유를 개선하는 데 도움이 됩니다. 계층적 분류 구조를 사용하여 비즈니스 용어집을 구축할 수도 있으며, 이는 데이터를 보다 효과적으로 구성하고 분류하는 데 도움이 됩니다.
각 도메인마다 고유한 비즈니스 용어집과 논리적 모델이 있으므로, 병합 시 서로 다른 비즈니스 그룹이 용어와 데이터를 해석하는 방식을 둘러싼 갈등이 발생할 수 있습니다. 이러한 의견 불일치를 관리할 리소스를 갖는 것은 잘 작동하는 범용 데이터 용어집의 필수적인 부분입니다.
데이터 관리자는 데이터 자산에 태그를 지정하여 가치를 지정하거나 데이터 품질 문제를 표시하는 데 도움이 될 수도 있습니다. 데이터 관리자가 데이터 분류에서 주도권을 잡을 수 있지만, 데이터 자산과 상호 작용할 때 데이터를 더 쉽게 접근하고 발견할 수 있도록 올바르게 분류하는 것은 모든 사람의 책임입니다. AI는 조직 전체에서 이 프로세스를 지원하는 데 도움이 될 수 있습니다. AI는 기존 데이터 모델에서 학습하고 갈등이나 불확실성이 발생할 경우 분류 지정을 제안할 수 있습니다.
통합된 데이터 모델과 비즈니스 글로서리는 비즈니스 데이터와 비즈니스 자체를 정렬하는 데 큰 자산이 될 수 있습니다. 다양한 도메인이 데이터에 대해 더 균일하게 생각하고 더 일관되게 소통함에 따라 비즈니스 용어와 지표가 표준화됨에 따라 의사 결정이 더 협력적이고 효율적일 수 있습니다.
AI는 효율적인 데이터 카탈로그와 비즈니스 글로서리를 용이하게 하는 데 점점 더 중요해질 것입니다. AI 모델이 더욱 효과적이 됨에 따라 조직 전체의 데이터 자산에 대한 더 나은 이해를 얻게 될 것입니다. AI의 도움으로 분석가는 필요한 답을 얻을 수 있는 정확한 데이터 세트를 찾는 데 도움을 주는 조종사가 될 것입니다.
데이터 액세스를 통합하고 실제 데이터에서 메타데이터를 추상화하면 데이터 활용에 더 민첩하게 대응할 수 있습니다. 통합된 데이터 카탈로그를 사용하면 데이터를 훨씬 더 빠르고 효율적으로 찾고 액세스할 수 있습니다. 이 기능을 사용하면 비즈니스 질문에 더 빠르고 효과적으로 답할 수 있습니다. 조직이 더 빨리 양질의 결정을 내릴수록 시장에서 경쟁력이 높아집니다.
증가하는 데이터 수요는 ETL 파이프라인을 통해 필요한 곳마다 데이터를 복제하는 것이 지속 불가능한 환경을 조성합니다. 데이터가 저장된 위치와 액세스 방법에 대한 정보를 통합하는 모델은 훨씬 더 확장 가능합니다. 메타데이터와 데이터 주변의 컨텍스트를 관리하는 연합 데이터 전략은 미래에 필요한 유연성과 민첩성을 제공합니다.