데이터 계보란 무엇인가요?


데이터 계보는 데이터의 수명 주기를 기록하고 추적하는 프로세스이며 데이터 품질에 필수적입니다. 중요한 비즈니스 의사 결정을 지원하는 데 사용되는 데이터가 신뢰할 수 있는지 확인하려면 출처를 알아야 합니다. 데이터는 끊임없이 변경, 업데이트, 병합 및 변환됩니다. 데이터 계보는 누가 데이터를 변경했는지, 데이터가 어디에서 유래했는지, 데이터가 수정된 이유를 포함하여 이러한 모든 프로세스를 문서화합니다. 데이터가 파이프라인을 통과할 때 메타데이터가 생성되어 연결을 매핑하고 데이터가 수명 주기를 거치는 방식을 시각화하는 데이터 계보 도구에 공급됩니다. 데이터 연결을 매핑하면 업스트림 및 다운스트림 데이터가 어떻게 연결되는지에 대한 통찰력을 제공합니다. 데이터 계보는 데이터에 대한 감사 추적을 제공합니다.

데이터 수명 주기를 통한 계보 추적

계보 데이터는 수집, 처리, 액세스, 저장, 데이터 쿼리 및 데이터 분석을 포함한 데이터 수명 주기의 여러 단계를 통해 추적됩니다. 각 단계에서 계보 데이터가 수집되는 방법과 이유를 이해하면 데이터 계보에 대한 보다 완전한 이해를 지원할 수 있습니다.

수집

데이터 계보의 첫 번째 단계는 데이터 수집으로 시작됩니다. 데이터가 시스템에 입력되면 데이터 출처를 문서화해야 합니다. 시스템은 데이터가 어디에서 왔는지와 출처의 신뢰성을 추적해야 합니다. 새로운 시스템에 입력하기 전에 데이터가 얼마나 유효하고 정확한지, 데이터 세트에 수행된 모든 변환 또는 조작을 기록해야 합니다.

처리 중

데이터가 수집되면 데이터 계보는 데이터가 어떻게 집계, 변환, 조작되는지 추적해야 합니다. 데이터가 처리, 병합 또는 필터링될 때 잘못된 데이터를 생성하는 오류의 가능성이 높습니다. 이러한 오류는 다운스트림 사용자가 데이터에 액세스하여 분석할 때까지 식별되지 않을 수 있으므로 오류의 모든 소스를 추적하려면 적절한 문서화가 필수적입니다. 효과적인 계보는 각 처리 단계에 대한 메타데이터를 생성하고 저장해야 합니다.

접근 및 저장

데이터가 처리되고 저장되면 계보 데이터를 여전히 캡처해야 합니다. 규정 준수 감사를 지원하기 위해 데이터에 액세스하는 사람에 대한 데이터가 필요합니다. 데이터는 올바르게 저장되지 않으면 손상될 수 있으므로 데이터가 어떻게 어디에 저장되는지 추적하는 것도 종단 간 데이터 계보에 필수적입니다.

데이터 쿼리 및 분석

데이터가 쿼리되고 분석되는 방식을 자세히 설명하는 데이터를 캡처하는 것도 완전한 데이터 계보 전략을 추진할 때 중요한 역량입니다. 데이터 계보는 항상 데이터 상태를 추적하는 것이 아니라 시스템 성능도 추적하는 것입니다. 쿼리가 얼마나 빠르고 효율적으로 수행되는지에 대한 데이터를 분석하여 전체 파이프라인을 최적화할 기회가 어디에 있는지 파악할 수 있습니다. 관리자는 이 메타데이터를 사용하여 데이터가 사용되는 방식을 더 잘 이해하고 향후 사용 패턴을 예측하여 사용자의 요구를 예상할 수도 있습니다.

데이터 계보가 중요한 이유

데이터 계통 추적은 신뢰할 수 있는 데이터를 제공하는 데 중요한 구성 요소입니다. 데이터가 다양한 시스템과 프로세스를 통해 어떻게 이동하는지, 데이터 세트가 어떻게 연결되는지 이해하면 관리자가 데이터와 시스템을 건강하게 유지하는 데 도움이 됩니다. 데이터 세트 진화의 모든 단계를 따르는 능력은 데이터 오류의 근본 원인을 식별하는 데도 중요합니다.

라이프사이클의 각 단계에서 변경 사항을 추적하고 이러한 변경 사항 각각이 어떻게 관련되어 있는지 매핑함으로써 문제 해결사는 상류에서 오류를 추적하여 오류의 근원을 식별할 수 있습니다. 많은 경우, 데이터 세트가 분석을 위해 하류로 이동하기 전까지는 데이터의 오류가 식별되지 않습니다. 데이터의 이상은 변화하는 추세를 나타낼 수도 있고, 단순히 데이터의 오류일 수도 있습니다. 차이점을 아는 것은 기회를 놓치지 않거나 잘못된 데이터에 기반한 의사 결정을 피하는 데 가장 중요합니다. 분석 프로세스에서 처음 수집된 시점까지 데이터 세트를 추적하면 데이터 파이프라인의 상태에 대한 확신이 훨씬 커집니다. 근본 원인을 식별하고 솔루션을 구현하면 동일한 오류가 반복될 가능성을 제거하는 데에도 도움이 됩니다.

다양한 데이터 세트가 어떻게 연결되는지 이해하면 처음부터 오류를 피하는 데 도움이 됩니다. 다운스트림 종속성을 추적하는 기능을 통해 개발자와 데이터 엔지니어는 종속 애플리케이션과 모델에 대한 변경의 영향을 예측할 수 있습니다. 예를 들어, 데이터 엔지니어는 조정하기 전에 테이블 스키마를 변경하는 것의 의미를 이해합니다. 이러한 지식은 다른 경로를 찾거나 다운스트림 앱을 편집하여 업스트림 변경을 반영하고 오류나 실패를 피하는 데 도움이 될 수 있습니다.

전체 데이터 스택에서 데이터 프로세스를 모니터링하는 방법을 사용하면 데이터의 정확성과 무결성을 검증할 수 있는 메커니즘이 있습니다. 데이터를 출처까지 추적할 수 있는 기능을 통해 의사 결정권자는 데이터의 유효성을 판단할 수 있습니다. 이러한 지식은 데이터가 조직 외부에서 유래하는 경우 특히 중요합니다. 데이터 세트를 만든 그룹이 사용자만큼 데이터 품질에 집중하고 있습니까? 이 데이터를 기반으로 중요한 비즈니스 결정을 내리는 경우 이는 귀중한 정보입니다.

데이터 계보는 데이터가 어떻게, 어디에 저장되고 액세스되는지 추적하여 규정을 준수하는 데 도움이 됩니다. 예를 들어 데이터 주권 및 개인 정보 보호 규칙을 준수하면 데이터 계보는 데이터가 국가 경계를 넘나들었는지 알 수 있습니다. 강력한 데이터 계보 프로그램도 신속한 규정 준수 감사를 용이하게 하는 데 중요합니다. 데이터 계보를 통해 관리자는 엔드투엔드 데이터 파이프라인 전체에서 데이터가 적절하게 관리되었는지 확인할 수 있습니다.

데이터 계보를 관리하는 다양한 접근 방식

엔드투엔드 데이터 계보의 가치가 분명할 수 있지만, 모든 관련 메타데이터에 대한 액세스가 항상 가능한 것은 아닙니다. 계보를 생성하기 위해 데이터를 분석하는 데는 몇 가지 다른 접근 방식이 있습니다. 패턴 기반, 태그 기반, 자체 포함 및 구문 분석.

패턴 기반

패턴 기반 데이터 계보 추적을 통해 메타데이터의 패턴을 분석하면 데이터 세트의 이력이 드러납니다. 이 접근 방식은 테이블, 열 및 보고서에서 메타데이터를 분석하여 연결을 만듭니다. 두 테이블의 이름과 데이터 값이 비슷한 경우 동일한 테이블의 다른 버전이라고 가정할 수 있으며 데이터 계보 맵에서 링크를 확인할 수 있습니다. 이 접근 방식은 데이터 패턴에 초점을 맞추고 모든 시스템에서 작동할 수 있으므로 기술에 구애받지 않습니다. 패턴 기반 데이터 계보는 적은 수의 데이터 세트에서 잘 작동하지만 복잡한 데이터 관계에서는 효과적이지 않을 수 있습니다.

태그 기반

태그 기반 접근 방식은 변환 엔진을 활용하여 데이터를 태그하여 파이프라인을 통과할 때 추적할 수 있도록 합니다. 이 접근 방식은 매우 효율적이지만, 데이터를 처리하고 태그하는 데 균일한 도구를 사용하는 경우에만 작동합니다.

독립형

이 접근 방식은 MDM(마스터 데이터 관리) 도구를 사용하여 메타데이터를 중앙에서 관리합니다. 시스템의 다양한 프로세스에서 생성된 메타데이터는 계보 데이터를 캡처할 수 있는 MDM 도구에 중앙 집중화됩니다. 문제는 MDM 도구와 상호 작용하지 않는 시스템 외부에서 수행되는 프로세스를 추적할 수 없다는 것입니다.

파싱에 의한 계보

이 프로세스는 데이터 변환을 역공학하여 작동합니다. 데이터를 변환하는 데 사용된 논리를 읽으면 데이터의 계보를 추측할 수 있습니다. 이는 복잡한 프로세스이며, 데이터 스택에서 데이터를 관리하는 데 사용되는 모든 언어와 프로세스를 잘 이해해야 합니다. 이 프로세스는 복잡하지만 시스템 전체에서 종단 간 데이터 계보를 추적하는 데 가장 좋습니다.

데이터 계보 관리를 위한 모범 사례

데이터 계보 전략 주변의 기술과 메타데이터에 집중하는 것은 중요하지만, 의사 결정권자가 이해하지 못한다면 당신의 노력은 낭비될 것입니다. 계보 데이터는 비즈니스 사용자와 기술 사용자 모두가 이해할 수 있어야 합니다.

비즈니스 계보도 전략의 일부로 고려해야 합니다. 비즈니스 사용자가 데이터가 비즈니스 프로세스를 통해 어떻게 흐르는지 이해할 수 있도록 올바른 비즈니스 맥락으로 데이터 계보를 구성하세요. 파이프라인을 통해 어떤 데이터가 흐르는지 이해하는 것은 어떻게를 추적하는 기술 계보만큼 중요합니다.

데이터 제품 구축 및 사용 시 데이터 계보

데이터 계보는 데이터 제품을 구축하고 사용하는 데 필수적입니다. 데이터 생산자는 데이터 계보를 감사하여 데이터 제품으로 유입되는 데이터의 신뢰성을 보장할 수 있습니다. 계보는 또한 데이터 제품 생산자가 데이터 제품의 다양한 데이터 세트 간의 종속성과 관계를 이해하는 데 도움이 될 수 있습니다.

데이터 제품의 비즈니스 사용자는 데이터 계보를 활용하여 데이터 흐름과 출처를 이해할 수도 있습니다. 이 정보는 데이터의 유효성과 특정 사용 사례에 대한 적용 가능성을 판단하는 데 도움이 됩니다. 훌륭한 데이터 제품의 핵심은 강력한 데이터 계보 기능이 내장된 광범위한 데이터 카탈로그입니다. 데이터 카탈로그는 데이터 제품 제작자가 필요한 데이터를 찾고 액세스하는 데 도움이 되며, 데이터 계보 데이터는 해당 데이터에 대한 귀중한 정보를 제공합니다.

데이터 계보 전략은 현대 데이터 스택의 필수 기능입니다. 데이터 파이프라인이 점점 더 복잡해짐에 따라 견고한 데이터 계보 프로그램은 데이터 품질을 보장하는 데 필수적입니다.

Discover the Latest in Data and AI Innovation

  • Blog

    AWS re:Invent 요약

    Read More

  • Blog

    데이터 분석의 생성 AI - AI가 데이터 액세스를 더 쉽게 만드는 방법

    Read More

  • E-book

    최신 데이터 스택을 사용한 비정형 데이터

    Read More

Request a Demo TODAY!

Take the leap from data to AI