데이터 제품의 관찰 가능성


보이지 않는 것은 관리하고 최적화할 수 없습니다. 시스템이 어떻게 작동하는지, 효과적으로 작동하는지 이해하려면 관찰성이 필요합니다. 데이터 제품은 데이터 액세스를 위한 새로운 모델을 제공하고 있으며, 데이터 제품을 만드는 사람은 품질과 유용성을 추적해야 합니다.

훌륭한 제품을 구성하려면 훌륭한 원자재가 필요합니다. 데이터 제품에 들어가는 데이터의 품질은 성공적인 데이터 제품 전략에 매우 중요합니다. 우수한 결과를 얻으려면 출처에서 소비까지 데이터 품질을 추적하고 프로세스를 관리하는 데이터 시스템을 관찰해야 합니다.

데이터 제품 관찰성

많은 조직이 각 사용 사례에 대한 일회성 데이터 파이프라인을 만드는 대신 재사용 가능한 데이터 제품을 구축하는 데이터 제품 전략을 채택하고 있습니다. 데이터 제품은 한 번 생성되고 여러 사용 사례에 맞게 조정되는 쉽게 액세스할 수 있는 데이터 세트입니다.

데이터 제품 접근 방식은 데이터 엔지니어가 보다 적극적으로 생각하고 데이터 결과물을 제품으로 간주해야 합니다. 이 전략은 제작자가 사용자의 요구 사항과 문제점을 고려하는 데 의존합니다. 제품 기능 결정을 알리기 위해 제작자는 데이터 제품이 어떻게 사용되는지에 대한 정보가 필요합니다. 이 피드백을 통해 제작자는 기존 포트폴리오를 개선하고 미래를 위해 더 나은 데이터 제품을 구축할 수 있습니다.

데이터 제품 관찰성은 누가 다양한 데이터 제품을 사용하고 있는지, 그리고 어떻게 사용하는지 추적합니다. 사용자의 역할을 이해하면 제작자가 데이터 제품에서 가장 많은 가치를 얻고 있는 집단과 서비스가 부족한 집단을 더 잘 이해하는 데 도움이 될 수 있습니다. 데이터 제품이 모델, 대시보드 및 분석을 지원하는 데 사용되는 방식에 대한 통찰력은 새로운 데이터 제품에 대한 혁신적인 아이디어를 촉발하는 데에도 도움이 될 수 있습니다. 이러한 추세를 이해함으로써 데이터 제품 제작자는 보다 적극적으로 대응할 수 있으므로 필요할 때 사용자에게 데이터를 제공할 수 있습니다.

데이터 제품 생산자는 데이터 제품에 대한 직접적인 피드백을 수집하여 제품을 개선할 수도 있습니다. 팀워크 문화를 만들고 공식적인 사용자 피드백 채널을 구현하는 것은 가치를 높이는 좋은 전략입니다. 사용자와 생산자가 상호 작용하고, 피드백을 제공하고, 문제를 파악하고, 새로운 데이터 제품을 제안할 수 있는 포럼을 구현하면 데이터 제품 생태계의 가치가 향상됩니다.

비용 추적 및 FinOps는 데이터 제품 관찰성의 또 다른 중요한 구성 요소입니다. 데이터 제품이 클라우드 리소스를 효율적으로 사용하고 있습니까? 리소스를 줄이기 위해 최적화할 수 있습니까? 이러한 유형의 데이터 추적은 수익성 있는 데이터 제품 전략에 중요합니다. 어떤 데이터 제품이 가장 많은 메모리를 사용하는지 식별하는 것은 비용 관찰성의 한 예입니다.

데이터 제품에 대한 가시성을 제공하는 메커니즘도 비즈니스 도메인 전반에 걸쳐 확장되어야 합니다. 일반적으로 생산자와 사용자는 다른 비즈니스 단위의 관리자 및 분석가와 정기적으로 상호 작용하지 않을 수 있습니다. 이러한 분리는 데이터 제품이 제공할 수 있는 가치와 폭을 제한합니다. 모든 사람이 가상으로 모일 수 있는 중앙 포럼은 더 큰 데이터 제품 참여와 가시성을 위해 가장 중요합니다.

데이터 생산자는 데이터 제품 전략의 중요한 구성 요소이며, 그들의 생산성도 추적해야 합니다. 누가 가장 많은 데이터 제품을 만들고 있으며, 어떤 도메인에서 사람들의 효과성에 대한 가시성이 더 높습니까?

데이터 제품 사용을 추적하는 것이 성공에 중요하지만, 데이터 제품을 신뢰할 수 있도록 보장하는 것도 중요합니다. 데이터 제품을 신뢰할 수 있으려면 분석가와 사용자가 품질을 관찰할 수 있어야 합니다. 여기에는 퍼지 매칭, 데이터 감수성 및 참조적 동일성에 대한 추적 지표가 포함될 수 있습니다.

퍼지 매칭

이 테스트는 데이터 제품의 다른 행의 유사성을 측정합니다. 이 테스트는 데이터 제품에 중복 행이 존재할 확률을 추적합니다. 이 테스트는 정확한 일치 항목을 식별하지 않지만 중복을 피하기 위해 추가 조사가 필요한 유사점을 표시합니다. 이 테스트는 유사한 중복 데이터가 있을 수 있는 데이터 제품에서 여러 데이터 세트를 결합할 때 유용합니다.

데이터 민감성

이 테스트는 데이터 제품의 데이터 완전성을 측정합니다. 이 테스트는 데이터 제품의 표에 있는 행의 수를 세고 이를 참조 표준과 비교합니다. 완전성 테스트는 이 숫자가 지정된 범위 내에 있는지 확인합니다. 숫자가 틀렸다면 데이터가 누락되었거나 잘못된 데이터가 삽입 또는 중복되었을 수 있습니다.

참조적 동일성

이 테스트는 자식 테이블의 키가 부모 테이블의 기본 키와 일치하는지 확인합니다. 부모 테이블에서 키가 변경되면 이 테스트는 변경 사항이 자식 테이블에도 반영되도록 합니다.

계보 데이터는 또한 데이터 제품의 신뢰성에 대한 더 큰 통찰력을 제공합니다. 사용자는 데이터 제품에서 데이터 출처를 보고 품질을 판단할 수 있습니다. 데이터가 평판 좋은 출처에서 유래한 경우 의사 결정권자는 데이터 제품 내에서 양질의 데이터에 액세스하고 있다는 확신을 가질 수 있습니다.

이런 방식으로 데이터 제품을 관찰하고 테스트하면 사용자에게 최고 품질의 데이터 제품만 제공하고 있는지 확인하는 데 도움이 됩니다. 품질 지표와 사용자 피드백을 요약한 신뢰 점수는 데이터 제품 사용자가 데이터 제품의 품질을 어느 정도 파악할 수 있는 좋은 방법입니다.

데이터 관찰성

데이터 제품의 기능을 관찰하는 것은 중요하지만, 데이터 제품을 위한 데이터를 생성하는 시스템에 대한 가시성도 필수적입니다. 조직은 데이터와 데이터를 생성하고 저장하는 시스템을 모니터링, 이해 및 문제 해결하기 위한 전략을 수립해야 합니다. 조직은 데이터 무결성을 지원하는 몇 가지 중요한 요소를 관찰할 수 있어야 합니다. 이러한 요소에는 신선도, 품질, 볼륨, 스키마 및 계통이 포함됩니다.

선도

신선도는 데이터가 업데이트된 지 얼마나 되었는지를 나타냅니다. 오래된 데이터는 품질이 낮은 데이터이며 신뢰할 수 없습니다.

품질

품질은 가치와 정확성을 추적합니다. 품질 데이터 테스트는 데이터에 대한 더 나은 관찰성을 얻는 데 도움이 될 수 있습니다. 다음과 같은 지표

  • 완전성 – 이 메트릭은 데이터 세트에 얼마나 많은 null 값 또는 "0" 값이 있는지 추적합니다.
  • 고유성 - 이 메트릭은 특정 열의 고유 값의 백분율을 추적합니다. 고유성이 높으면 중복이 최소입니다.
  • 유효성 - 이 테스트는 데이터 집합의 데이터 패턴을 예상 데이터 패턴과 비교하여 데이터가 유효한지 확인합니다. 예를 들어, 음수가 가능하지 않은 경우 유효성 테스트는 음수가 아닌 수의 수를 측정합니다.
용량

볼륨 테스트는 데이터 세트의 행 수를 계산합니다. 너무 적거나 너무 많으면 문제가 있음을 나타낼 수 있습니다. 볼륨을 측정하는 테스트에는 다음이 포함됩니다.

  • 데이터 민감성 - 이는 표의 행 수를 참조와 비교하여 범위 내에 있는지 측정합니다.
  • 유효한 열 길이 – 이 테스트는 올바른 열 길이를 가지고 있는지 또는 지정된 범위 내에 있는지 확인합니다.
개요

스키마는 데이터 구성을 정의합니다. 이 구성이 변경되면 오류가 발생할 수 있습니다. 데이터 스키마를 누가 언제 변경했는지 추적하는 것은 데이터 상태를 추적하는 데 필수적입니다.

혈통

계보는 데이터 자산이 어떻게 연결되고 데이터 테이블이 어떻게 관련되어 있는지 자세히 설명합니다. 또한 데이터 소스에서 소비까지의 흐름을 추적합니다. 문제가 있는 경우 근본 원인을 추적하기 위해 데이터 계보를 관찰할 수 있어야 합니다.

왜 중요한가요?

데이터 스택 전체에서 데이터를 관찰하는 것은 데이터를 깨끗하게 유지하는 데 필수적입니다. 오류를 즉시 식별하면 해를 끼칠 수 있는 잠재력이 줄어듭니다. 잘못된 데이터가 의사 결정권자에게 도달하면 관리자는 회사 데이터의 무결성에 대한 신뢰를 잃습니다. 이러한 신뢰 상실은 조직의 의사 결정 능력을 감소시킵니다. 일단 신뢰를 잃으면 회복하기 어렵습니다.

우수한 데이터 관찰 솔루션은 오류를 식별할 뿐만 아니라 이러한 오류의 출처를 식별하는 데 도움이 됩니다. 이러한 도구는 오류 해결 평균 시간을 줄이고 병목 현상을 식별하여 시스템 기능을 최적화하는 데 도움이 될 수 있습니다.

도전 과제

데이터 스택 전체에서 엔드투엔드 관찰성을 확보하는 것은 어려울 수 있습니다. 복잡한 데이터 파이프라인과 분산된 데이터 사일로로 인해 데이터 시스템 전체에서 데이터가 이동하는 것을 관찰하기 어렵습니다. 여러 부서와 데이터 팀이 다양한 도구를 사용하여 도메인의 데이터를 관찰할 수 있으므로 이러한 모든 사일로에서 일관된 관찰성을 확보하는 것이 훨씬 더 어려워질 수 있습니다. 이러한 단편화로 인해 여러 시스템과 파이프라인에서 오류의 근본 원인을 추적하기도 어렵습니다.

데이터 연합 및 메타데이터 관리

데이터 연합과 강력한 통합 메타데이터 관리 도구의 등장은 이러한 데이터 사일로에서 데이터 가시성을 연결하는 데 도움이 됩니다. 데이터 연합은 각 데이터 사일로를 중앙 집중화된 메타데이터 관리 데이터베이스에 연결합니다. 메타데이터는 스키마, 신선도, 볼륨과 같은 데이터 세트에 대한 정보를 추적하며, 이는 데이터 관찰성의 핵심 구성 요소입니다. 이 데이터를 중앙 집중화하면 데이터 사일로에서 관찰이 가능해지지만, 데이터가 여러 번 중단될 수 있고 원래 소스 메타데이터가 대상 데이터베이스에 로드되지 않을 수 있는 ETL 파이프라인에서는 훨씬 더 어렵습니다.

메타데이터 관리의 혁신에는 소스 데이터에서 변경되는 경우 메타데이터 변경 사항을 자동으로 기록하는 자동화도 통합됩니다. 이 데이터는 중앙 플랫폼에서 추적되며, 이를 통해 더 나은 보고 및 오류 해결을 지원할 수 있습니다.

관찰 가능성은 품질과 가치 있는 데이터 제품에 매우 중요합니다. 데이터가 더 많은 의사 결정을 주도하고 AI를 촉진하는 시대에, 데이터와 시스템의 상태를 추적하는 것은 이 자산을 최대한 활용하는 데 필수적입니다.

Discover the Latest in Data and AI Innovation

  • Blog

    AWS re:Invent 요약

    Read More

  • Blog

    데이터 분석의 생성 AI - AI가 데이터 액세스를 더 쉽게 만드는 방법

    Read More

  • E-book

    최신 데이터 스택을 사용한 비정형 데이터

    Read More

Request a Demo TODAY!

Take the leap from data to AI