분석 실무의 새로운 정의


정보를 이해하는 것은 인간의 영원한 추구입니다. 데이터를 관리하는 데 사용되는 기술은 선사 시대 인간이 동굴 벽에 그림을 그리기 시작한 이래로 진화해 왔습니다. 오늘날 우리는 기술 발전 속도가 데이터를 분석하고 의사 결정을 지원하는 방식을 변화시키는 패러다임 전환을 목격하고 있습니다.

데이터 분석 관행의 진화

데이터의 디지털 저장 및 전송은 빠르게 진화해 왔습니다. 지난 수십 년 동안 기술은 점점 더 방대하고 다양한 형태의 데이터를 캡처, 저장 및 관리하는 능력을 발전시켰습니다.

BI 및 데이터웨어하우스

현대적 데이터 분석은 비즈니스 인텔리전스 애플리케이션과 데이터 웨어하우스의 생성과 함께 등장했습니다. 이 진화 단계에서 데이터는 매우 구조화된 관계형 데이터베이스에 캡처되어 저장되었습니다. 데이터 테이블 간의 매핑은 비즈니스 인텔리전스 애플리케이션에 쉽게 액세스할 수 있도록 잘 정의되었습니다. 그 결과 데이터 분석의 출력은 매우 설명적이고 진단적이었습니다. 이 데이터를 기반으로 비즈니스 관리자는 과거 성과를 이해하고 기본 패턴과 문제를 식별할 수 있었습니다.

빅데이터, 오픈소스 및 클라우드

클라우드의 확장성, 모바일 및 IoT 기기의 데이터 수집 능력, 오픈소스 기술의 혁신 지원 능력의 출현은 모두 빅데이터 시대를 열었습니다. 기존의 데이터웨어하우스와 구조화된 데이터베이스는 끊임없이 생성되는 방대한 양의 데이터를 수용하기 위한 요구 사항을 충족할 만큼 확장할 수 없었습니다. 2010년부터 2017년까지 연간 데이터 생산량은 2제타바이트에서 26제타바이트로 증가했습니다.

이 기간 동안 생성된 대부분의 데이터는 구조화되지 않았습니다. 따라서 구조화된 관계형 데이터베이스에 저장하는 것은 어려웠습니다. 데이터 레이크는 이 데이터를 플랫 파일에 보관하여 이 문제를 해결하기 위해 만들어졌습니다. 오늘날 데이터 레이크의 데이터 중 80~90%는 구조화되지 않았습니다. 이 모든 데이터가 저장되면 다음 과제는 데이터에 액세스하고 사용하는 것입니다.

이 문제를 해결하기 위해 새로운 종류의 분석가와 데이터 엔지니어가 등장하여 구조화되지 않은 데이터의 힘을 활용하는 데 필요한 기술과 도구를 구축했습니다. 여기에는 오픈 소스 프로젝트, 데이터 변환 기술 구축, 보다 정교한 분석 기술 생성이 포함되었습니다. 덜 조직화된 세상에서 데이터에 대한 보다 접근 가능한 액세스를 지원하기 위해 메타데이터 관리를 도입하는 것도 더욱 중요해졌습니다.

더 많은 데이터, 새로운 기술, 혁신적인 도구를 활용할 수 있게 되면서 분석은 더 예측 가능해졌고, 미래 이벤트에 대해 더 많은 통찰력을 제공할 수 있는 모델이 등장했습니다.

데이터 과학 및 데이터 응용 프로그램

데이터 수집의 성장과 데이터 분석 기술 구축에 대한 집중 증가로 인해 시장은 이러한 역량을 활용하여 새로운 경쟁 우위를 확보하는 방법을 배우기 위해 우선순위를 바꾸었습니다. 과학적 방법을 통계, 알고리즘 개발 및 시스템 지식과 결합하면서 데이터 과학이 등장했습니다. 이를 통해 조직은 데이터를 활용하여 예측 모델을 구축할 뿐만 아니라 모든 의사 결정에 대한 최상의 대안을 제시하는 시스템을 만들 수 있습니다. 이러한 발전으로 인해 자동화가 더 많이 이루어지고 회사는 더욱 민첩하고 대응력이 높아집니다.

데이터 이동 및 통합 기술이 발전하지 못하고 있습니다.

데이터 수집, 저장 및 분석은 수년에 걸쳐 현저하게 변화했지만, 데이터에 액세스하고 통합하는 데는 거의 진전이 없었습니다. ETL과 같은 기술과 접근 방식은 클라우드, 오픈소스 기술 및 AI가 널리 퍼지기 전에 개발되었습니다.

데이터, 분석 및 데이터 과학의 역량을 적용하여 실제 비즈니스 문제를 빠르게 해결하려는 움직임은 데이터에 보다 효율적으로 액세스하는 방법을 재고해야 할 필요성을 만들어내고 있습니다. 데이터는 데이터 레이크 또는 비즈니스 앱에 갇혀 있으며, 이러한 데이터 세트를 병합하여 심층 분석을 수행하는 기술은 따라잡지 못했습니다.

기술적 장벽

데이터웨어하우스와 BI가 등장한 이후로 데이터를 통합하고 액세스하는 표준적인 방법은 변경되지 않았습니다. SQL은 데이터베이스에서 데이터를 쿼리하는 표준으로 남아 있으며, ETL은 여전히 다른 시스템의 데이터를 통합하는 표준 프로세스입니다. 이런 방식으로 데이터에 액세스하려면 사용자는 SQL 스크립트를 작성하여 데이터를 쿼리하고, 데이터가 어떻게 구성되어 있는지 알고, 데이터베이스 기술이 어떻게 작동하는지 이해해야 합니다. 데이터 세트를 병합하려면 정교한 프로세스를 구축하여 한 시스템에서 데이터를 추출하고, 변환하고, 다른 데이터베이스에 로드해야 합니다. 근본적으로 이러한 프로세스는 변경되지 않았으며, 계속해서 복잡하고 시간이 많이 걸립니다.

정치적 장벽

데이터 접근에 대한 기술적 장벽을 극복하는 데 있어서 정치적인 어려움도 방해가 될 수 있습니다. 데이터를 수집하고 책임지는 사람들은 접근을 제한할 수 있습니다. 데이터를 공유하는 경우 이러한 도메인 소유자는 데이터가 어떻게 사용되는지 모니터링해야 합니다. 민감한 데이터는 특히 우려스럽습니다. 데이터를 공유하는 경우 데이터가 적절하게 저장될까요? 데이터가 마땅히 존중받아 관리될까요? 예를 들어, 건강보험 양도성 및 책임법(HIPAA) 규칙의 미묘한 뉘앙스를 이해하지 못하는 분석가가 회사와 고객을 위험에 빠뜨리는 정책을 위반할까요?

또한, 다른 부서의 분석가들이 공유되는 데이터의 의미를 이해할까요? 그들은 적절한 맥락에서 데이터를 분석할까요? 이러한 모든 우려 사항은 현재 환경에서 공유를 제한하는 정당한 우려 사항입니다.

수십 년 동안 기존 기술을 사용하면서 데이터에 대한 효율적인 접근을 제한하는 레거시 사고방식이 정의되었고, 이는 프로젝트 중심입니다. 기존 기술과 관행으로 인해 데이터 팀은 각 데이터 요청에 대해 새로운 파이프라인을 만들어야 했습니다. 이러한 반응적 접근 방식은 사용 및 재사용이 가능한 보다 다재다능한 파이프라인을 구축하여 제공되는 규모의 경제성을 고려하지 않습니다.

분석 관행 재정의

이 산업은 자동화, 머신 러닝(ML), 인공 지능(AI)이 주도하는 새로운 개발 단계로 이동하고 있습니다. 의사 결정 속도가 가속화되고 있으며 AI 모델의 품질은 미래 시장에서 핵심 차별화 요소가 될 것입니다. 데이터 과학자는 모델 정확도를 개선하기 위해 고품질 데이터에 빠르게 액세스해야 합니다. 관리자는 또한 자동화 기반 의사 결정의 속도를 따라가고 AI에 너무 복잡한 과제를 해결하기 위해 풍부하고 상황에 맞는 데이터에 액세스해야 합니다.

데이터 기반 의사 결정은 경쟁 시장에서 성공하는 데 필수적이 되고 있지만, 분석가를 지원하는 데 필요한 데이터 엔지니어링 기술이 부족합니다. AI는 주류가 되었고 얼굴 인식 및 ChatGPT와 같은 영향력 있는 애플리케이션이 이미 추진력을 얻고 있습니다. 혁신가들이 AI를 자동화 및 비즈니스 프로세스에 통합하기 위해 노력함에 따라 이러한 애플리케이션은 장기적인 추세의 시작일 뿐임이 입증될 것입니다.

AI의 의미는 광범위하고 영향력이 있지만, 이러한 모델의 신뢰성은 여전히 의심스럽습니다. 최상의 데이터에 액세스할 수 있도록 보장하면서 AI와 자동화를 모니터링하는 것은 효율성을 높이는 데 중요한 차별화 요소가 될 것입니다. 신속하게 적응할 수 없는 사람들은 뒤처질 것입니다.

기업은 이 역동적인 환경에서 성공하기 위해 새로운 데이터 분석 접근 방식을 받아들여야 합니다. 이 새로운 패러다임은 네 가지 개념을 중심으로 합니다.

  1. 분산형 제어 및 데이터 연합
  2. 협업 및 공유
  3. 데이터 프로젝트가 아닌 데이터 제품에 집중하세요
  4. 혁신과 실험

분산화 제어 및 데이터 연합

분산 클라우드 환경에서 효율적으로 작동하도록 설계된 강력한 쿼리 기술이 등장하고 있습니다. Facebook에서 개발한 Trino와 같은 오픈소스 기술은 컴퓨팅 기능을 스토리지에서 분리하여 각각 독립적으로 확장할 수 있도록 합니다. 이 기술은 또한 쿼리 프로세스를 별도의 단계로 나눕니다. 이 아키텍처는 코디네이터라고 알려진 코드 한 조각을 실행하여 각 개별 데이터베이스를 쿼리하는 프로세스를 실행하는 여러 작업자 프로그램을 관리합니다. 이 기술을 사용하면 단일 쿼리로 다양한 소스에서 동시에 데이터를 가져올 수 있습니다. 또한 병렬 처리를 허용하여 대규모 데이터 세트에 훨씬 더 빠르게 액세스할 수 있습니다.

여러 데이터베이스에 저장된 데이터를 단일 페더레이션 SQL 쿼리로 액세스할 수 있으므로 데이터 분석이 훨씬 간단하고 빨라집니다. IT 및 데이터 엔지니어는 데이터를 소스에서 대상 데이터베이스로 옮기기 위해 복잡한 ETL 파이프라인을 만들 필요가 없으며, 이는 분석을 위해 준비되기 전에 병합 및 변환되어야 합니다. 또한 데이터는 한 곳에 유지되므로 IT 부지에 저장된 복제된 데이터의 양이 줄어들고 저장 비용과 오류가 줄어듭니다. 데이터를 통합하고 거버넌스를 추가하지 마십시오. 데이터를 있는 그대로 두고 거버넌스, 메타데이터 및 검색 가능성을 중앙 집중화하십시오.

통합 메타데이터

연합 데이터 쿼리는 데이터를 얻는 데는 좋지만 찾는 데는 좋지 않습니다. 적절한 데이터를 찾는 데 필요한 시간을 단축하려면 맵이나 인덱스가 필요합니다. 이러한 과제는 혁신적인 검색 메커니즘의 생성으로 이어지고 있습니다. 메타데이터 관리 전략은 연합 쿼리가 훨씬 더 효율적으로 작동할 수 있도록 합니다. 연합 쿼리 엔진은 메타데이터를 중앙 위치에 통합함으로써 모든 쿼리에 대해 각기 다른 데이터베이스를 스캔하지 않고도 데이터를 찾을 위치를 빠르게 결정할 수 있습니다.

통합된 메타데이터는 데이터 카탈로그에 구성할 수 있으며, 서로 다른 데이터 세트 간의 연결은 지식 그래프를 사용하여 매핑할 수 있습니다. 메타데이터를 인덱싱하면 페더레이션 쿼리를 실행하는 데 걸리는 시간이 크게 줄어들어 데이터를 더 쉽게 찾을 수 있고 분석이 더 효율적입니다.

분산화된 거버넌스

오픈소스 소프트웨어는 훌륭하지만 일반적으로 엔터프라이즈에 적합하지 않습니다. 조직이 데이터가 안전하다고 확신하고 의사 결정권자가 데이터가 정확하고 완전하다고 신뢰하려면 적절한 거버넌스가 필요합니다.

데이터 연합 전략을 구현하기 전에는 데이터가 중앙 집중화되어 ETL 데이터 파이프라인에서 액세스되었을 때 IT는 각 파이프라인에 보안과 거버넌스를 구축해야 했습니다. 이러한 기술적 장벽이 사라지면서 거버넌스에 대한 새로운 접근 방식이 가능해졌습니다.

Trino와 같은 오픈소스 소프트웨어가 지원하는 페더레이션 계층은 거버넌스를 보다 효율적으로 구현할 수 있는 더 많은 제어를 가능하게 합니다. 액세스는 각 개별 소스 시스템에서 제어 및 관리할 필요가 없고, 오히려 중앙 집중화된 계층에서 관리됩니다. 자세한 메타데이터를 중앙 집중화하면 액세스 및 데이터 품질을 데이터 소스가 아닌 중앙 플랫폼에서 관리할 수 있습니다. 이 구성은 훨씬 더 많은 효율성과 세분화된 액세스 제어를 가능하게 합니다. ETL을 통해 데이터를 중앙 집중화하면 컨텍스트가 손실되고 계보 추적이 더 어려워집니다. 소스 시스템에 직접 액세스하면 데이터 계보가 훨씬 더 간단해집니다.

협업 및 공유

데이터 분석 아키텍처의 새로운 전환으로 공유와 협업이 더 쉬워졌습니다. 메타데이터를 중앙 집중화하면 데이터와 컨텍스트를 더 쉽게 이해할 수 있어 도메인 간에 데이터를 안전하게 공유하는 것이 훨씬 더 간단해집니다. 기술 수준이 아닌 데이터 수준에서 액세스를 정의할 수 있습니다. 데이터 엔지니어는 누가 어떤 소스 시스템에 액세스할 수 있는지 결정하고 해당 정책을 파이프라인에 빌드할 필요가 없습니다. 소스 데이터에서 메타데이터를 추상화하면 데이터 테이블 수준에서 액세스를 정의하여 훨씬 더 효과적인 데이터 공유가 가능합니다.

데이터 공유를 통해 데이터 분석은 팀 스포츠가 됩니다. 데이터 리터러시가 커지고 데이터 과학 지식은 모든 의사 결정권자의 핵심 기술이 됩니다. 데이터 과학자는 더 많은 작업을 데이터에 정통한 동료가 관리할 수 있기 때문에 신과 같은 존재가 덜 되었습니다. 모든 직원이 데이터 과학자는 아니지만 데이터 과학 개념을 이해하는 것이 핵심 기술이 되고 있습니다.

데이터 제품 대 데이터 프로젝트

데이터를 재사용 가능한 데이터 제품으로 패키징하면 이 새로운 패러다임에서 새로운 기회가 제공됩니다. 단일 장소에서 사용 가능한 데이터에 액세스하고 관리하는 도구를 사용하면 재사용 가능한 데이터 제품을 간소화할 수 있습니다. 통합된 메타데이터 관리를 통해 데이터를 더 잘 이해하게 되면 데이터를 검색하고 이해하고 독립적으로 거버넌스를 적용하는 일회성 데이터 파이프라인 프로젝트를 구축하는 것이 더 이상 유일한 옵션이 아닙니다. 데이터를 거버넌스와 함께 패키징되고 보다 유연하고 재사용 가능하도록 설계된 제품으로 생각할 수 있습니다. 데이터 제품은 통합, 정리, 정규화 및 증강된 데이터로 구축되어 가장 높은 가치의 데이터 세트를 제공합니다.

더 세분화된 액세스 제어를 통해 더 많은 사용자가 데이터 제품에 액세스할 수 있습니다. 이 접근 방식은 액세스를 소스 시스템 수준에서 정의해야 하는 유연하지 않은 모놀리식 사용자 지정 데이터 프로젝트에서 크게 변경되었습니다. 데이터 제품을 패키징하여 마켓플레이스에 게시하면 더 쉽게 액세스하고 셀프 서비스할 수 있습니다.

데이터 제품으로 전환하면 데이터 분석이 반응적이기보다는 보다 사전 예방적이 됩니다. 데이터 요청에 응답하는 대신 관리자는 어떤 데이터 제품이 필요할지 예상할 수 있습니다. 이러한 전환은 제품 관리 경험을 귀중하게 만듭니다. 데이터 소비자의 미래 요구 사항과 가치를 가장 잘 전달하는 방법을 고려하는 사고방식은 성공적인 데이터 제품 전략을 지원하는 특성입니다.

실험과 혁신

새로운 데이터 분석 패러다임은 더 큰 혁신과 실험을 가져올 것입니다. IT 자산 전반에 걸쳐 데이터를 색인하는 글로벌 데이터 카탈로그를 지원하는 중앙 집중식 메타데이터를 사용하면 새로운 데이터를 훨씬 더 간단하게 발견할 수 있습니다. 분석가, 엔지니어 및 데이터 제품 관리자는 새로운 데이터 소스를 탐색하여 분석 또는 데이터 제품을 개선할 수 있습니다. 마켓플레이스에서 제공되는 데이터 제품을 사용하면 의사 결정권자와 데이터 과학자는 마우스를 몇 번만 클릭하면 데이터 세트에 액세스할 수 있습니다. Eckerson Group - 데이터 분석 컨설팅 및 연구 그룹은 모든 대규모 조직이 3~5년 내에 데이터 제품 마켓플레이스를 갖게 될 것이라고 예측합니다.

새로운 데이터 소스와 데이터 세트의 발견 가능성은 더 큰 실험과 혁신의 열쇠입니다. 통합된 데이터 카탈로그와 데이터 제품 마켓플레이스는 발견 가능성을 훨씬 더 쉽게 만듭니다.

AI 시대의 새로운 패러다임

진화하는 쿼리 아키텍처는 더 큰 효율성과 도달 범위를 위해 AI를 활용할 수 있는 기회를 만듭니다. SQL 기술과 적절한 권한이 있는 사람이라면 누구나 단일 스크립트로 조직의 어느 곳에서나 데이터를 가져오기 위해 페더레이션 쿼리 엔진을 활용할 수 있기 때문에 데이터가 점점 더 민주화되고 있습니다. 이 기능을 AI와 결합하면 데이터가 더욱 셀프 서비스화됩니다. 대규모 언어 모델을 사용하여 일반적인 비즈니스 언어를 SQL 쿼리로 변환하여 SQL을 알 필요가 없습니다. Gen AI는 또한 비즈니스 사용자가 AI 엔진에 분석을 수행하도록 요청할 수 있는 증강 분석을 지원합니다. 챗봇에 질문하면 AI가 데이터 세트 간의 상관 관계를 표시하거나 추세를 주도하는 요소를 식별합니다. 이를 통해 비기술 분석가와 의사 결정권자가 더욱 효과적으로 셀프 서비스 데이터에 액세스할 수 있습니다.

새로운 기능

AI가 더욱 강력해지고 데이터 접근 장벽이 줄어들면서 AI 통찰력은 자동화 워크플로에 직접 공급되어 인간의 개입 없이 문제를 직접 해결할 것입니다. 이는 유토피아적으로 들리지만, 우리가 깨닫기도 전에 현실이 다가올 수도 있습니다. 인간은 이러한 프로세스를 모니터링하고 AI 출력을 다시 확인해야 합니다. 이러한 모델을 구축할 뿐만 아니라 모니터링할 수 있는 기능을 갖추려면 인간이 데이터에 쉽게 액세스하고 이러한 모델의 작동 방식을 이해해야 합니다.

Discover the Latest in Data and AI Innovation

  • Blog

    AWS re:Invent 요약

    Read More

  • Blog

    데이터 분석의 생성 AI - AI가 데이터 액세스를 더 쉽게 만드는 방법

    Read More

  • E-book

    최신 데이터 스택을 사용한 비정형 데이터

    Read More

Request a Demo TODAY!

Take the leap from data to AI