데이터 메시의 정의: 데이터 메시란 무엇이고 왜 필요한가요?


데이터는 모든 기업에서 의사 결정에 매우 중요합니다. 하지만 의사 결정권자가 IT가 데이터에 액세스하기 위한 데이터 파이프라인을 구축할 때까지 기다려야 할 때, 기회를 놓치고 의사 결정은 최적이 아닙니다. 이는 성과를 개선하기 위해 데이터 중심이 되려는 대부분의 대기업이 직면한 과제입니다.

가장 큰 데이터 관리 과제 중 하나는 어제의 기술이 오늘날 증가하는 데이터 수요를 지원할 수 없다는 것입니다. ETL 접근 방식은 수십 년 된 것이고, 더 간단한 시대에 작동했던 중앙 집중식 거버넌스 구조는 AI 시대의 복잡성을 충족하도록 확장할 수 없습니다.

더욱 분산되고 민첩하며 유연한 혁신적인 접근 방식이 시장에 나오기 시작했습니다. 데이터 메시 전략이 한 예입니다.

데이터 메시란?

데이터 메시는 현대적인 데이터 통합 전략입니다. 이는 통합되고 중앙 집중화된 데이터 저장 및 관리에서 벗어나 보다 공유되고 연합된 접근 방식으로 이동하는 분산 데이터 아키텍처를 기반으로 합니다. 이는 모놀리식 아키텍처에 기반하고 수많은 종속성에 의존하는 ETL 데이터 파이프라인 및 데이터 레이크에 대한 대안입니다.

데이터 메시 아키텍처는 기술 그 이상입니다. 데이터 관리 및 데이터 소비 내에서 기여자 역할의 변화를 통합하는 포괄적인 전략입니다. 데이터 메시 전략에는 4가지 테넌트가 있습니다. 진정한 데이터 메시 전략은

도메인 중심이 되세요
연합 데이터 거버넌스 활용
데이터를 제품으로 취급하세요
셀프서비스가 되세요

도메인 기반 아키텍처

데이터 메시 아키텍처는 데이터에 대한 더 많은 명령과 제어를 독립적인 도메인으로 재분배합니다. 도메인은 특정 비즈니스 기능에 참여하는 그룹입니다. 이는 지역 운영, 사업부 또는 영업, 마케팅, HR 또는 재무와 같은 비즈니스 기능일 수 있습니다.

이러한 도메인은 일상적인 비즈니스 운영을 수행하는 동안 상당한 양의 데이터를 수집합니다. 도메인 중심 접근 방식은 중앙 집중식 기관이 아닌 데이터를 수집한 사람의 손에 이 데이터를 제어하고 관리하는 데 더 많은 책임을 부여합니다.

연합 데이터 거버넌스

데이터 메시를 사용하면 도메인의 자율성이 높아지지만 원하는 대로 할 수는 없습니다. 페더레이션 데이터 거버넌스 방식에서 데이터 거버넌스에 대한 책임은 중앙 IT 기관과 도메인 수준의 기관 간에 공유됩니다. IT는 모든 도메인에 균일하게 적용되는 프레임워크와 정책을 만드는 반면 각 개별 도메인은 자체 데이터와 비즈니스 프로세스에만 적용되는 규칙을 관리합니다. 페더레이션 데이터 거버넌스에 대해 자세히 알아보려면 여기를 클릭하세요 .

제품으로서의 데이터

데이터 메시 아키텍처로 전환하면 프로젝트 사고방식에서 제품 기반 접근 방식으로 전환됩니다. 새로운 데이터 세트가 필요할 때마다 임시 ETL 파이프라인을 만드는 대신 도메인 팀은 의사 결정권자에게 필요한 데이터를 제공하는 재사용 가능한 데이터 제품을 사전에 구축하기 위해 노력합니다.

제품으로서의 데이터

효과적이려면 이러한 제품은 발견 가능하고, 주소 지정 가능하고, 신뢰할 수 있으며, 자체 설명적이어야 합니다. 즉,

  • 데이터 소비자는 데이터 제품을 쉽게 찾을 수 있어야 합니다.
  • 각 제품은 소프트웨어 애플리케이션에 통합될 수 있도록 고유한 주소가 있어야 합니다.
  • 데이터는 신뢰할 수 있어야 합니다.
  • 데이터 소비자는 데이터 제품 내의 데이터와 그 데이터가 나타내는 바를 이해할 수 있어야 합니다.

셀프 서비스 분석

데이터 메시 아키텍처는 기술 전문가의 도움 없이 비기술적 데이터 소비자가 액세스할 수 있어야 합니다. 이는 데이터 제품 마켓플레이스를 통해서이거나 분석 또는 모델링 도구에서 데이터 제품에 직접 액세스할 수 있는 기술을 통해서일 수 있습니다. 데이터 메시가 해결하는 가장 큰 문제점 중 하나는 데이터와 데이터를 소비하는 사람 간의 기술적 장벽을 허무는 것입니다. 셀프 서비스는 의사 결정의 품질과 속도를 개선합니다. 또한 데이터 요청을 충족하는 데 압도당하는 데이터 엔지니어의 요구를 덜어줍니다.

왜 필요한가요?

오늘날의 환경에서 데이터에 대한 수요는 IT 운영이 데이터를 제공할 수 있는 능력을 앞지르고 있습니다. 조직은 더 많은 데이터 중심 의사 결정이 더 나은 결과와 성과로 이어진다는 것을 알고 있지만 목적에 적합하고 신뢰할 수 있는 올바른 데이터에 대한 액세스를 제공하는 과제는 기술적으로나 문화적으로 어렵습니다.

현재 접근 방식은 미래 수요에 맞춰 확장할 수 없습니다.

일반적인 조직에서 데이터는 데이터 사일로에 수집되어 저장됩니다. 레거시 트랜잭션 애플리케이션이든 SaaS CRM이든 말입니다. 이러한 사일로 간에 데이터를 공유하는 것은 어렵습니다. 데이터 공유에 대한 수요를 충족하기 위해 지식이 풍부한 프로그래머는 이러한 사일로 간에 데이터를 이동하는 파이프라인을 구축해야 합니다. 이러한 개발자는 데이터 요청을 처리하기 위해 Python, SQL, R 및 Java와 같은 기술에 정통해야 합니다. 안타깝게도 수요를 따라잡을 만큼 숙련된 개발자가 충분하지 않습니다. 많은 경우 데이터 요청이 충족될 때까지 더 이상 필요성이 없어져 기회를 놓치게 됩니다. 이미 번개처럼 빠른 속도로 비즈니스 결정이 내려지고 AI가 기하급수적으로 그 속도를 높일 위치에 있기 때문에 이러한 접근 방식은 미래에는 효과가 없을 것입니다.

데이터 메시를 통해 커뮤니티는 더 나은 데이터에 더 쉽게 액세스할 수 있습니다.

데이터 메시를 사용하면 사람과 첨단 기술이 협력하여 조직 전체의 의사 결정권자가 필요할 때 필요한 데이터를 얻을 수 있습니다.

문화적 관점에서 데이터 메시 전략은 개인에게 도메인의 데이터를 관리할 수 있는 더 많은 소유권과 책임을 부여하여 권한을 부여합니다. 이를 통해 개인은 데이터에 대한 접근성과 신뢰성을 보장하는 데 더 적극적으로 참여하게 됩니다. 프로세스의 각 이해 관계자에게는 역할이 있습니다.

데이터 메시의 셀프 서비스 기능과 강력한 데이터 카탈로그를 통해 데이터 분석가는 데이터 제품을 통해 필요한 데이터를 탐색하고 배포할 수 있습니다. 이러한 분석가는 더 이상 수동 작업에 어려움을 겪거나 IT가 데이터에 액세스할 때까지 기다릴 필요가 없습니다. 그들은 자신이 가진 기술로 의사 결정권자에게 더 많은 통찰력과 분석을 제공할 수 있습니다.

중앙 거버넌스 기관보다 수집하는 데이터를 더 잘 이해하는 도메인 관리자는 데이터를 관리할 수 있는 권한을 부여받습니다. 데이터 주변의 맥락에 대한 이러한 더 큰 이해는 데이터를 관리하고 가치를 높이는 데 가장 적합한 위치에 있게 합니다.

도메인 관리자

데이터 메시로 전환하면서 IT 전문가와 데이터 엔지니어는 보다 전략적인 서비스를 제공하여 제공하는 가치를 향상시킬 수 있는 권한을 부여받습니다. 데이터 엔지니어는 ETL 프로세스를 코딩하는 데 소요되는 시간을 줄이고 데이터 제품 생산자와 긴밀히 협력하여 보다 효율적으로 양질의 데이터에 액세스할 수 있습니다. 도메인 수준 거버넌스 규칙에 대해 조언하고 품질 지표를 시행할 수 있습니다. 데이터 엔지니어는 또한 동료에게 권한을 부여하기 위해 인프라 관리에서 더 큰 역할을 할 수 있습니다.

분산 기술은 비용을 절감하고 민첩성을 높입니다.

데이터 메시는 분산 아키텍처에서 실행됩니다. 데이터 레이크에 데이터를 덤핑하는 대신, 데이터는 수집한 시스템에 남아 있습니다. 데이터가 필요할 때, 분석되는 다른 데이터베이스에 복사하는 대신 소스에서 가져옵니다. 즉, 저장 비용이 절감되고 다양한 중복 데이터 저장소 간의 불일치가 최소화됩니다.

분산 시스템은 또한 확장성, 민첩성 및 접근성이 더 뛰어납니다. 실제 데이터는 그대로 유지되지만 메타데이터는 단일 데이터베이스로 통합됩니다. 메타데이터를 설명하는 데이터에서 분리함으로써 데이터 자산을 단일 카탈로그에서 발견할 수 있으며 데이터 쿼리를 데이터와 독립적으로 구축할 수 있습니다. 이를 통해 다음을 수행할 수 있습니다.

연합 데이터 쿼리
연합 데이터 쿼리

동일한 데이터 모델을 사용하여 여러 다른 시스템의 데이터에 동시에 액세스할 수 있는 단일 데이터 쿼리를 만들 수 있습니다.

제자리에 유지되는 데이터
제자리에 유지되는 데이터

또한 데이터를 일괄 처리 과정을 거쳐 옮길 필요 없이 실시간으로 병합하고 즉시 변경할 수 있습니다.

더 큰 확장성
더 큰 확장성

데이터와 로직을 분리함으로써 끝없는 데이터 파이프라인으로 인해 발생하는 종속성을 줄이고 확장성을 더욱 높일 수 있습니다.

거버넌스와 보안이 더욱 효율적입니다.

더 높은 권한이 항상 더 나은 보안을 의미하는 것은 아닙니다. 데이터를 수집하는 전문가는 데이터의 민감성을 이해하는 데 훨씬 더 나은 위치에 있습니다. 이를 통해 중앙 권한보다 더 스마트한 데이터 거버넌스 정책을 구현할 수 있는 위치에 있습니다.

유연한 프레임워크 거버넌스 계층 구조는 데이터가 정확하고 안전하며 액세스 가능한지 확인하는 데 훨씬 더 효과적일 수 있습니다. 도메인에 더 광범위한 프레임워크 내에서 작업할 수 있는 자율성을 부여함으로써 도메인은 자신에게 가장 적합한 정책을 만들 수 있지만 여전히 조직 거버넌스 표준을 충족할 수 있습니다. 데이터에 더 가까워지면 위협과 요구 사항이 변경됨에 따라 변경할 수 있는 더 나은 위치에 있습니다.

더 많은 자율성은 또한 분석가가 승인되지 않은 솔루션에 의존하는 경향을 줄입니다. 규칙이 너무 제한적이거나 특정 사용 사례에 적용할 수 없는 경우 운영자는 이를 우회할 방법을 찾을 것입니다. 이는 보안에 심각한 위협으로 이어질 수 있는 불투명한 취약성을 생성합니다.

기술과 시스템이 성숙해짐에 따라 일반적으로 더 정교하고 복잡하며 분산됩니다. 중앙 집중화되지 않은 제어 데이터 시스템은 빠르게 진화하고 더 민첩하고 회복력이 강해질 수 있습니다. 사람들에게 데이터를 맡기지만 질서를 보장하기 위한 적절한 보호책을 마련함으로써 데이터는 더 쉽게 접근하고 유용해집니다.

Discover the Latest in Data and AI Innovation

  • Blog

    AWS re:Invent 요약

    Read More

  • Blog

    데이터 분석의 생성 AI - AI가 데이터 액세스를 더 쉽게 만드는 방법

    Read More

  • E-book

    최신 데이터 스택을 사용한 비정형 데이터

    Read More

Request a Demo TODAY!

Take the leap from data to AI