데이터에는 맥락이 필요합니다. 맥락이 없다면 데이터는 그저 단어와 숫자일 뿐입니다. 데이터가 가치를 가지려면 사람들은 그것이 무엇을 나타내는지 이해해야 합니다. 사람들은 맥락이 필요합니다. 분석가는 데이터를 더 잘 이해하기 위해 언제, 어디서, 어떻게 수집되었는지에 대한 세부 정보도 알아야 합니다. 많은 경우 이는 미묘하고 상충될 수 있습니다. 데이터는 매사추세츠에서 수집되었을까요, 아니면 미국에서 수집되었을까요? 달력 Q1에서 수집되었을까요, 아니면 회계 Q1에서 수집되었을까요?
데이터 의미론은 이러한 맥락을 제공하며 데이터 스택의 필수 구성 요소입니다. 의미론 계층은 데이터에 대한 논리적 뷰를 제공하여 비즈니스맨이 데이터를 다루기 쉽게 만듭니다. 기술적 데이터 구조를 비즈니스 사용자가 이해할 수 있는 용어로 변환합니다.
데이터 카탈로그는 조직의 데이터 자산을 목록으로 정리한 것으로, 데이터 전문가가 필요한 정보를 쉽게 찾을 수 있도록 설명합니다.
데이터 사전은 조직의 데이터 구조, 의미, 데이터 요소의 사용법을 정의합니다.
비즈니스 용어집은 일반적으로 사용되는 비즈니스 용어, 개념, 규칙을 정의합니다.
의미론은 매우 중요하기 때문에 조직 전체에 존재합니다. 의미론 계층은 수년에 걸쳐 발전해 왔으며 각각 고유한 표준을 가진 다양한 장소에 구현되었습니다. 이러한 균일한 정의와 맥락의 부족으로 인해 데이터 소비자가 표준화된 방식으로 필요한 데이터에 액세스하기 어려워 벽과 데이터 사일로가 생성됩니다.
의미론 계층은 일반적으로 배포될 환경에 맞게 생성됩니다. 만들어진 목적에 부합하는 데는 매우 유용할 수 있지만, 의미론적 단편화는 데이터 공유를 저해하는 점점 더 커지는 틈입니다.
예를 들어, BI 도구에는 고유한 의미 계층이 있으며, 각각 고유한 데이터 정의가 있습니다. 일반적인 조직은 거의 4개의 다른 BI 도구를 사용하여 부서 간 협업을 매우 어렵게 만듭니다.
의미 계층은 또한 매우 엄격한 데이터 파이프라인에 프로그래밍되어 개발자가 변경 사항을 실행해야 합니다. 파이프라인 요구 사항이 변경되면 일반적으로 데이터의 컨텍스트를 완전히 이해하지 못하는 프로그래머가 업데이트를 구현해야 합니다. 이 과정에서 데이터 컨텍스트가 왜곡되는 경우가 많아 다른 파이프라인 및 도구와 점점 더 일관성이 없어집니다.
데이터웨어하우스는 또한 그 위에 있는 데이터마트와 통합된 자체 의미론 계층을 가지고 있습니다. 이는 일반적으로 각 데이터웨어하우스 또는 데이터마트를 유지 관리하는 그룹에 고유합니다. 이러한 단편화로 인해 데이터 모델의 뉘앙스를 이해하지 못할 수 있는 다른 부서의 동료와 데이터를 공유하는 것이 어렵습니다.
조직은 데이터 레이크를 사용하여 데이터를 한곳에 모아서 액세스하기 쉽게 만들었습니다. 그래도 데이터 모델 간의 차이는 데이터 통합 및 공유에 대한 장벽으로 남아 있습니다. 데이터가 데이터 레이크의 같은 위치에 있더라도 동일한 데이터 정의가 없으면 사과와 사과를 비교하기 쉽지 않습니다. 예를 들어, 일부 데이터 세트는 고객을 개인으로 간주하는 반면 다른 데이터 세트는 고객을 회사로 분류할 수 있습니다. 이는 실제로 데이터가 수집된 방법과 이유의 맥락에 따라 달라집니다. 각 데이터 세트의 의미론은 공유된 데이터를 적절하게 분석하기 위해 정규화되어야 합니다.
분산된 의미론 생태계를 관리하는 이러한 과제는 데이터의 중요성이 커지고 전 세계가 가능한 한 많은 데이터를 수집함에 따라 더욱 커질 것입니다.
데이터 가상화와 범용 의미 계층은 의미적 단편화를 해소하고 보다 광범위한 데이터 공유와 셀프 서비스를 가능하게 할 수 있습니다.
범용 의미론 계층은 데이터를 비즈니스 용어로 균일하게 변환하는 단일 진실 소스입니다. 플랫폼에 독립적이며 파이프라인, 도구 또는 웨어하우스에 연결되지 않지만 원시 데이터 자산과 분석 도구 사이에 위치하도록 설계되었습니다. 범용 의미론이 작동하려면 데이터 가상화 도구가 메타데이터와 의미론을 데이터 평면에서 분리해야 합니다. 이 접근 방식을 사용하면 분석가는 원본 데이터가 소스 시스템에 남아 있는 동안 데이터 표현으로 작업할 수 있으며 분석가는 균일한 데이터 모델을 통해 데이터와 상호 작용할 수 있습니다. 데이터는 그대로 유지되는 동안 메타데이터는 단일 소스로 통합되고 단일 의미론 세트로 구성됩니다. 범용 의미론 계층이 데이터 가상화를 통해 활성화되면 분석가는 어디에 있든 쿼리할 수 있는 이해하기 쉬운 비즈니스 데이터에 대한 단일 뷰를 갑자기 갖게 됩니다. 이러한 균일성 덕분에 단일 데이터 쿼리로 여러 데이터 저장소에 동시에 액세스할 수 있어 데이터 검색이 한 단계 더 높아집니다. 데이터 저장의 복잡성과 데이터 구문의 불일치가 추상화됨에 따라 기술에 익숙하지 않은 사용자도 전문가에게 의존하지 않고도 필요한 데이터에 액세스하여 데이터를 찾고 그 의미를 설명할 수 있습니다.
데이터 가상화는 또한 의미론적 단편화를 주도하는 많은 기술을 제거합니다. 데이터는 소스에서 바로 쿼리할 수 있으므로 내장된 의미론이 있는 데이터 파이프라인에 대한 의존도가 줄어듭니다. 가상화와 균일한 데이터 모델을 활용함으로써 BI 플랫폼은 기본 의미론을 우회하여 소스에서 데이터에 액세스할 수 있습니다. 데이터마트도 더 이상 필요하지 않습니다.
데이터 카탈로그, 데이터 사전 및 비즈니스 글로서리가 단일 플랫폼에 통합되면 데이터 소비자는 조직 전반의 데이터 세트를 발견하고 액세스할 수 있습니다. 이 기능은 데이터 기반 의사 결정을 개선할 수 있는 많은 새로운 기회를 창출합니다.
통합 의미론과 가상화된 데이터는 데이터 메시와 데이터 패브릭과 같은 새로운 현대적 데이터 관리 전략의 중요한 구성 요소입니다. 이러한 전략과 기술은 데이터 소비자에게 데이터를 훨씬 더 쉽게 접근할 수 있도록 하여 마지막 마일을 연결합니다. 데이터 제품이나 지식 그래프와 같은 새로운 소비 및 발견 채널을 가능하게 합니다.
통합된 의미론 계층을 통해 인간은 조직 내부 및 주변의 모든 데이터를 더 잘 이해할 수 있을 뿐만 아니라 기계도 더 쉽게 이해할 수 있습니다. 의미론적 검색 기능을 사용하면 비즈니스 언어 및 용어를 기반으로 데이터 제품을 검색할 수 있습니다. Gen AI가 액세스 가능한 단일 메타데이터 저장소를 분석할 수 있을 때 간단한 언어 명령으로 데이터를 검색하는 방법을 학습할 수 있습니다. 이를 자동으로 시각화를 생성할 수 있는 AI와 결합하면 지루한 분석 작업을 줄일 수 있는 기회가 혁신적입니다.