데이터 수요가 증가함에 따라 데이터 중심 의사 결정을 지원하기 위한 최상의 데이터에 액세스하는 것이 상당한 비용이 되고 있습니다. 클라우드에서 컴퓨팅과 스토리지가 확산되기 전에 개발된 데이터를 이동하고 액세스하는 방법은 이제 효율적으로 확장하여 따라잡는 데 어려움을 겪고 있습니다.
레거시 데이터 액세스 기술은 클라우드의 항상 켜지고 연결된 실시간 기능을 처리하도록 설계되지 않았습니다. 클라우드 이전에는 데이터를 분석하려면 애플리케이션 근처에 저장해야 했습니다. 클라우드의 실시간 특성에도 불구하고 데이터를 이동, 병합 및 분석에 준비하는 기본적인 방법은 크게 바뀌지 않았습니다. 이러한 적응력 부족은 분석 속도를 저해하고 인프라 및 데이터 엔지니어링 비용을 낮출 수 있는 기회를 간과합니다.
다음 분석에서는 ETL(추출, 변환, 로드)을 사용하여 기존 방식으로 데이터에 액세스하는 데 드는 비용을 살펴보고, 클라우드의 강력한 기능을 활용하는 연합 데이터를 사용하는 혁신적인 접근 방식과 비교해 보겠습니다.
ETL 파이프라인을 만드는 데 드는 정확한 비용을 계산하는 것은 어렵지만, 공개적으로 사용 가능한 데이터를 평가하고 몇 가지 가정을 통해 이러한 비용을 추정할 수 있습니다.
ETL 파이프라인을 구축하려면 상당한 시간과 리소스 투자가 필요합니다. 처음부터 ETL 파이프라인을 만드는 데는 여러 리소스가 필요하지만, 데이터 엔지니어가 대부분의 작업을 수행합니다. 이 고도로 숙련된 전문가는 스크립트를 수동으로 프로그래밍하여 데이터를 추출하고, 분석을 위해 변환하고, 대상 데이터베이스에 로드합니다. Glassdoor에 따르면, 미국에서 데이터 엔지니어의 평균 연봉은 150,000달러를 넘습니다. 혜택과 비용의 총 FTE 비용을 고려하면, 이는 연간 195,000달러 또는 시간당 95달러입니다.
추정에 따르면 기본적인 ETL 파이프라인을 만드는 데 1~3주가 걸립니다. ETL 파이프라인을 구축하는 데 평균 노력이 80시간이라고 가정하면 파이프라인당 7,600달러에 해당합니다. 또한 이러한 파이프라인에는 유지 관리가 필요하며, 매년 원래 노력의 20% 또는 연간 1,520달러가 추가로 필요할 수 있습니다. 더 복잡한 ETL 파이프라인은 구축하는 데 몇 달 또는 몇 년이 걸릴 수 있으며, 수십만 달러의 비용이 듭니다. 데이터 커넥터 하나만 구축하고 테스트하는 데 6주 반이 걸릴 수 있습니다.
웨이크필드 리서치 에서 실시한 조사에 따르면 기업들은 데이터 파이프라인을 구축하고 유지관리하는 데 연간 52만 달러를 지출하는 것으로 추정됩니다.
ETL 파이프라인을 처음부터 코딩하고 관리하는 것은 비용이 많이 들 수 있지만, 프로세스를 간소화하고 일부 코딩 요구 사항을 자동화할 수 있는 도구가 있습니다. 덜 복잡한 ETL 파이프라인은 무코드 플랫폼을 사용하여 빌드할 수 있습니다.
이러한 플랫폼은 자동화와 AI를 활용하여 ETL 파이프라인을 구축하는 데 필요한 시간과 기술 세트를 줄입니다. 현재 사용 가능한 일부 도구를 활용하면 ETL 파이프라인을 단 3일 만에 만들 수 있습니다.
이러한 플랫폼은 파이프라인을 수동으로 구축하는 데 필요한 리소스 요구 사항을 낮출 수 있지만 비용이 발생합니다. 일반적으로 이러한 솔루션은 데이터 볼륨과 플랫폼에 연결된 데이터베이스 수를 기반으로 합니다. 대기업의 경우 이러한 비용이 빠르게 증가하고 많은 에지 사용 사례가 무코드 솔루션에서 지원되지 않을 수 있습니다.
노코드 솔루션으로 ETL 파이프라인을 구축하는 비용이 크게 감소함에 따라 파이프라인의 수는 증가할 것입니다. ETL 파이프라인의 이러한 확산은 데이터 중복과 증가하는 저장 비용이라는 새로운 문제를 야기합니다.
저장 전략은 다양한 구성과 아키텍처로 제공되므로 정확한 저장 추정은 매우 복잡합니다. 그러나 공개적으로 사용 가능한 데이터를 기반으로 ETL 전략에 의해 생성된 중복 데이터를 저장하고 관리하는 데 관련된 비용을 정량화할 수 있습니다.
데이터 세트를 한 시스템에서 추출하여 다른 시스템에 로드할 때마다 중복 데이터 세트가 생성되고 이를 저장해야 합니다. 파이프라인과 데이터 요청이 많을수록 중복 데이터 세트가 더 많이 생성되어 저장 비용이 증가합니다.
빅데이터의 성장과 방대한 데이터 이동으로 인해 데이터 저장소에 보관되는 중복되고 오래되고 사소한(ROT) 데이터가 증가했습니다. Statista는 기업이 보유한 모든 데이터의 8%가 원본이고 91%가 복제되었다고 보고합니다. Veritas Technologies는 유사한 연구 프로젝트를 수행하여 데이터의 16%가 비즈니스에 중요하고 30%가 중복되고 쓸모없는 사소한(ROT)이며 54%가 데이터의 가치를 알 수 없는 다크 데이터라는 것을 발견했습니다. 두 연구 모두 비슷한 결론에 도달했습니다. 기업에서 엄청난 양의 쓸모없는 데이터를 유지 관리하고 있으며, 이로 인해 쓸모없는 데이터를 저장하는 데 상당한 양의 리소스가 낭비되고 있습니다.
Google Cloud가 클라우드 스토리지에 대해 월 1GB당 $.02를 청구한다고 가정하면, 테라바이트당 $20, 페타바이트당 $20,000입니다. Veritas Technologies에 따르면, 평균적인 조직은 비핵심 데이터를 저장하는 데 연간 $650,000을 지출합니다.
여러 요인이 ROT 성장을 주도하고 있으며, 데이터 사일로 유지 관리가 중요한 원동력입니다. 모든 비즈니스 기능이 각 운영을 지원하기 위해 자체 데이터베이스를 유지 관리함에 따라 이러한 데이터베이스 중 다수에서 공통 데이터 세트가 반복되어 스토리지 리소스가 낭비됩니다.
ROT를 저장하는 것은 저장 비용에 영향을 미칠 뿐만 아니라 위험도 증가시킵니다. 동일한 데이터 세트의 여러 사본은 상충되는 진실의 출처로 이어지고, 다양한 데이터 형식은 혼란으로 이어집니다.
낮은 데이터 품질을 피하려면 효과적인 데이터 거버넌스 정책을 구현해야 합니다. 2021년 가트너는 낮은 데이터 품질로 인해 조직이 연간 평균 1,290만 달러의 손실을 입었다고 추정했습니다.
기존의 수동 데이터 거버넌스 프로세스는 더 이상 충분하지 않으며, 자동화된 데이터 거버넌스 도구와 전략에 대한 투자가 필요합니다. 보고서를 수동으로 검토하고 사용자 지정 규칙을 설정하는 데는 시간이 많이 걸립니다. 이러한 정책, 규칙 및 감독을 각 ETL 파이프라인에 대해 독립적으로 구현하려면 신중한 주의와 시간 투자가 필요합니다.
나쁜 데이터를 예방하는 데 투자하는 것은 잘 쓴 돈입니다. 나쁜 데이터를 예방하는 데 1달러가 든다면, 그것을 고치는 데 10달러가 들고, 실패하면 100달러가 듭니다.Data Warehousing Institute에 따르면 나쁜 데이터는 매년 회사에 6,000억 달러의 손실을 초래합니다.
중복된 데이터는 또한 개인정보 보호 위험을 초래합니다. 데이터 사일로에 복제되는 데이터의 대부분은 PII 데이터(개인 식별 정보)를 포함합니다. 이러한 접근 방식은 데이터 침해 가능성을 높입니다.
데이터 수집 및 저장의 지속적인 기하급수적 성장은 비효율적인 데이터 통합 및 관리 전략으로 인해 생성된 중복 데이터와 관련된 문제를 악화시킬 뿐입니다. Statista는 2025년까지 181제타바이트가 생성, 소비, 복사 및 캡처될 것으로 추정합니다.
처음부터 ETL 파이프라인을 개발하거나 코드 없는 플랫폼을 사용하는 데 필요한 시간으로 인해 데이터 액세스가 가능한 만큼 민첩하지 않습니다. 분석가와 의사 결정권자가 양질의 데이터에 신속하게 액세스할 수 없을 때 기회가 손실됩니다. 이러한 기회 비용은 정량화하기 어렵지만 매우 실제적입니다. 조직 전체에서 내리는 의사 결정의 수를 고려하면 통찰력에 걸리는 시간을 약간이라도 늘리는 것이 중요합니다. 조직 전체에서 의사 결정을 최적화함으로써 좋은 의사 결정이 더 나은 의사 결정과 옵션으로 이어지면서 기회 비용 절감이 복합적으로 발생합니다.
데이터 액세스 및 관리 비용을 줄일 새로운 접근 방식 또는 데이터 액세스 패러다임이 등장하고 있습니다. 이 접근 방식은 ETL에서 벗어나 데이터 제품을 중심으로 중앙 거버넌스, 보안 및 액세스에 중점을 둡니다. (새로운 데이터 패러다임을 더 자세히 알아보려면 이 블로그 게시물을 읽어보세요)
이 새로운 접근 방식은 데이터를 이동하거나 복제하지 않고도 데이터에 액세스할 수 있도록 합니다. 이 전략은 또한 모든 사용 사례에 대해 ETL 파이프라인을 만들 필요성을 없애는 재사용 가능한 데이터 제품을 활용합니다. 이러한 전환은 셀프 서비스를 위한 데이터 프로비저닝에 40-50%의 시간을 절약할 수 있으며, 개별 파이프라인당 4,100달러, ETL 파이프라인에 리소스를 사용하는 일반적인 조직의 경우 225,000달러를 절약할 수 있습니다.
ETL 프로세스를 통해 한 데이터베이스에서 다른 데이터베이스로 데이터를 이동할 필요가 없으므로 저장 비용이 절감됩니다. ETL 파이프라인에서 중복 데이터가 생성되지 않으므로 저장 및 준비 비용을 30-40% 절감할 수 있습니다.
이 새로운 패러다임은 데이터 제품을 활용하여 분석 플랫폼에 데이터를 전달함으로써 데이터 파이프라인에 비해 이러한 데이터 제품을 만드는 데 필요한 노력과 비용을 줄입니다. 만드는 데 걸리는 시간이 짧고 비용이 덜 드는 기술 세트가 필요합니다. 데이터 제품을 만드는 데 걸리는 시간은 약 24시간으로, 기본적인 ETL 파이프라인을 만드는 데 걸리는 시간보다 70% 적습니다. 또한 데이터 엔지니어 대신 데이터 분석가가 작업을 수행할 수도 있습니다. 미국 데이터 분석가의 급여는 평균 77,000달러이고 총 FTE 비용은 100,000달러입니다. 이 비용은 시간당 50달러인 반면 데이터 엔지니어의 비용은 96달러입니다. 이러한 추정치를 기반으로 계산하면 하나의 데이터 제품을 만드는 데 드는 비용은 1,200달러인 반면 단일 단순 데이터 파이프라인의 경우 7,600달러입니다.
새로운 데이터 제품 접근 방식은 데이터 저장에 대한 수요를 줄이지만, 대신 데이터에 실시간으로 액세스하면 네트워크 및 데이터베이스 처리 비용이 증가합니다. 트레이드오프가 있기는 하지만, 네트워킹 비용은 쓸모없고 사용되지 않는 데이터를 저장함으로써 발생하는 저장 비용과 달리, 분석을 위해 귀중한 데이터가 전달될 때만 발생합니다.
데이터 거버넌스 자동화의 발전은 오늘날의 데이터 관리 환경에서 상당한 비용 절감을 촉진합니다. 자동화된 거버넌스에는 데이터 분류, 액세스 제어, 메타데이터 관리 및 데이터 계보 추적을 자동화하는 것이 포함됩니다. 데이터 거버넌스 솔루션을 사용하면 조직에서 알고리즘과 워크플로를 활용하여 데이터 정책 적용을 자동화하고, 데이터 사용을 모니터링하고, 문제가 되기 전에 데이터 품질 문제를 해결할 수 있습니다. Informatica는 조직에서 자동화된 거버넌스 솔루션을 사용하여 475,000달러에서 712,000달러를 절약할 수 있다고 추정합니다.
일반적으로 이러한 솔루션은 데이터 파이프라인에 볼트로 고정된 독립형 패키지로, 25명의 사용자를 기준으로 연간 약 20,000달러가 소요됩니다. 데이터 제품 플랫폼 접근 방식은 거버넌스를 프로세스의 중심에 두고 플랫폼 비용에 포함됩니다.
일반적으로 ETL 파이프라인은 하나의 특정 사용 사례에 맞게 구축되며, 이를 구축하는 데 드는 비용보다 더 큰 이점을 제공해야 하므로 그 가치가 비교적 잘 이해되고 고정됩니다. 데이터 제품의 적응성은 그 가치를 더 확장 가능하게 만듭니다. 표준 플랫폼에 구축된 데이터 제품을 사용하면 여러 데이터 제품을 쉽게 결합하여 새로운 데이터 제품을 만들 수 있습니다. 또한 특정 데이터 제품은 특정 사용 사례에 맞게 의도되었지만 별도의 애플리케이션에서 가치를 추가할 수 있는 다른 기회에 쉽게 적용할 수 있습니다.
이러한 적응성 덕분에 데이터 제품은 원래 개발자가 상상하지 못했을 수 있는 새로운 사용 사례를 다룰 수 있으므로 가치가 증가합니다. 가치가 증가하고 해당 데이터 제품을 만드는 데 드는 비용이 정체되면 해당 투자 수익이 증가합니다. 이는 데이터 제품이 새로운 통찰력과 가치를 제공하는 데 드는 비용을 낮추는 데 도움이 되는 또 다른 방법입니다.
데이터 제품 전략이 비용을 절감하고 더 나은 의사 결정과 AI 교육을 가능하게 하는 방법은 여러 가지가 있습니다. 데이터 제품 전략이 비용을 절감하는 데 도움이 되지만, 실제 이점은 민첩성과 경쟁력 향상과 관련이 있습니다. 이 이점은 복합적이고 정량화할 수 없지만 매우 현실적입니다.