모든 조직이 데이터 중심이 되려는 경쟁이 벌어지고 있습니다. 이유는 무엇일까요? 데이터를 사용하여 의사 결정을 내릴 가능성이 더 높은 회사가 더 나은 성과를 내기 때문입니다. 하지만 오늘날의 데이터 관리 기술은 데이터 사일로를 무너뜨리고 모든 사람이 데이터에 액세스할 수 있도록 하는 데는 아직 갈 길이 멉니다. 데이터 가상화를 기반으로 하는 새로운 기술 생태계는 데이터 액세스와 사용성을 개선할 수 있습니다.
분석가가 필요한 데이터에 액세스하려면 일반적으로 데이터베이스 쿼리를 작성하고 데이터 세트를 가져올 수 있는 SQL, Python 또는 Java 기술을 보유한 바쁜 데이터 엔지니어에게 접근해야 합니다. 엔지니어는 또한 어떤 데이터를 쿼리해야 하는지 알기 위해 관련 메타데이터와 데이터 모델에 익숙해야 합니다. 여러 부서에서 고유한 데이터 모델을 사용함에 따라 추가적인 복잡성을 관리해야 합니다. 데이터를 변환하여 다른 데이터 테이블과 병합해야 하는 경우 파이프라인을 구축하기 위해 더 많은 기술적 기술이 필요합니다. ETL 파이프라인을 구축한 후에는 매우 엄격해지는 경향이 있으므로 유지 관리도 어려운 일입니다. 변경이 필요한 경우 리엔지니어링하고 테스트해야 하므로 변경이 어려울 뿐만 아니라 단일 파이프라인을 여러 용도로 사용하기 어렵습니다.
데이터 수요가 너무 빨리 증가함에 따라 이 모델은 건물 압력을 견뎌낼 수 없습니다. 조직은 데이터 엔지니어링 팀에 끝없이 새로운 엔지니어를 추가할 수 없습니다. 비용이 많이 들 뿐만 아니라 시장에 충분한 엔지니어가 없기 때문입니다.
이러한 과제의 결과로 기업들은 사업 결정을 내리는 속도가 느려지고, 경쟁에서 불리한 입장에 놓이게 됩니다.
데이터 가상화 서비스는 데이터 액세스에 대한 새로운 접근 방식의 기반을 제공합니다. 데이터 시각화 도구는 데이터를 분석에 사용할 수 있도록 가상으로 표현하는 미들웨어를 제공합니다. ETL을 사용하여 데이터를 분석 위치로 옮기는 접근 방식과 달리 가상화된 데이터는 그대로 유지됩니다. 데이터를 소스 시스템에서 데이터 레이크로 옮긴 다음 분석을 위해 다른 시스템으로 옮길 필요가 없습니다. 이는 일반적인 관행입니다. 실제 데이터는 그대로 유지되지만 메타데이터는 중앙 저장소에서 분리되어 통합됩니다.
데이터 가상화 전략을 사용하면 로직과 기본 데이터를 분리하여 데이터 쿼리를 훨씬 더 쉽게 변경할 수 있습니다. 메타데이터가 데이터 소스에 내장되어 있고 ETL 파이프라인을 변경해야 하는 경우 엔지니어는 데이터 모델뿐만 아니라 연결이 어떻게 설정되어 있는지, 종속성을 고려해야 하는지 이해해야 합니다. 데이터가 가상화될 때 데이터 소스를 추가하는 것은 훨씬 더 간단합니다. 메타데이터를 참조하고 쿼리를 조정하기만 하면 데이터가 가상화될 때 작업이 완료됩니다. 더 큰 유연성을 통해 데이터 제품 또는 데이터 자산은 반복적으로 진화하여 데이터 소비자에게 훨씬 더 많은 가치를 창출할 수 있습니다.
메타데이터를 설명하는 데이터에서 분리하고 중앙화하면 수많은 새로운 기능이 활성화됩니다. 데이터 연합이 그 중 하나입니다. 이는 여러 소스의 메타데이터가 통일된 데이터 모델을 통해 데이터에 액세스할 수 있도록 구성되는 경우입니다. 메타데이터를 통합함으로써 범용 데이터 모델은 서로 다른 데이터베이스에 분산된 기본 데이터를 훨씬 더 쉽게 이해할 수 있게 해주고, 이에 액세스하는 프로세스를 훨씬 더 단순하게 만듭니다.
통합된 메타데이터 계층을 통해 분석가는 클라우드나 온프레미스 등 데이터가 어디에 저장되어 있든 관계없이 여러 데이터베이스에서 동시에 데이터를 가져오는 단일 쿼리를 만들 수 있습니다. 여러 데이터베이스에 액세스하고 실시간으로 데이터를 집계하고 변환할 수 있는 기능은 완전히 새로운 역량의 세계를 열어줍니다.
데이터 연합을 통해 통합된 데이터 모델을 사용할 수 있으므로, 그 위에 범용 의미론 계층을 구축하여 데이터를 보다 셀프 서비스로 만들 수 있습니다. 여러 데이터 저장소를 나타내고 데이터 자산을 단일 데이터 카탈로그에 나열하는 단일 데이터 모델을 채택하면 필요한 사실을 정확히 파악하기 위해 데이터를 탐색하기가 훨씬 더 쉽습니다. 범용 의미론의 가시성이 향상되지 않으면 분석가가 새 데이터를 쉽게 탐색, 실험 또는 발견할 수 없기 때문에 이를 통해 더 큰 혁신이 가능합니다. 사용성을 높이기 위해 범용 가상화 계층에는 비즈니스 용어와 지표를 표준화하는 비즈니스 용어집과 같은 추가 리소스가 포함될 수 있습니다. 이를 통해 데이터가 어떻게 구성되거나 어디에 저장되는지 잘 모르는 데이터 자산을 찾을 수 있는 비즈니스 사용자가 데이터에 더욱 쉽게 액세스할 수 있습니다.
데이터 거버넌스는 데이터가 안전하고, 비공개이며, 정확하고, 사용 가능하며, 사용 가능하도록 보장하기 위해 수행하는 모든 작업으로 정의됩니다. 떠오르는 최신 데이터 기술은 이러한 모든 목표와 함께 데이터 거버넌스를 개선합니다.
가상화된 계층은 단일 게이트웨이를 통해 중앙 집중화된 데이터 거버넌스와 보안을 시행할 수 있도록 합니다.
데이터를 더 잘 제어할 수 있는 위치에 보관함으로써 데이터 가상화는 여러 데이터 소스에서 액세스를 관리할 수 있습니다. 통합된 메타데이터를 사용하면 세분화된 액세스 제어를 사용하여 열 수준에서 데이터를 마스크하여 신원을 숨길 수 있습니다.
데이터를 한곳에 보관하면 데이터가 더 정확해질 수 있습니다. 데이터베이스를 동기화하거나 데이터를 이동할 필요가 없으므로 프로세스 중에 발생할 수 있는 잠재적인 오류가 줄어듭니다. 중복된 데이터 사본이 조직 곳곳에 분산되지 않으면 소스 시스템의 데이터가 단일 진실 소스가 되어 오래된 데이터 세트로 인해 발생하는 충돌하는 데이터가 줄어듭니다.
데이터 가상화는 데이터를 실시간으로 제공합니다. 또한 연합 데이터 거버넌스를 가능하게 하여 비즈니스 도메인에 필요한 사람에게 액세스를 승인할 수 있는 더 많은 자율권을 제공합니다.
데이터 가상화를 통해 가능해진 의미 계층을 통해 비즈니스 사용자는 여러 비즈니스 도메인에서 공통된 정의를 통해 데이터에 액세스할 수 있어 데이터의 활용성이 높아집니다.
데이터 가상화 계층이 데이터에 대한 단일 게이트웨이로 기능하면 누가 어떤 데이터 세트에 액세스할 수 있는지 제어하고 모니터링하기가 훨씬 쉬워집니다. 이러한 감독을 통해 IT가 여전히 고수준 거버넌스를 유지하는 동안 권한을 데이터 도메인에 분산할 수 있습니다. 연합 데이터 거버넌스와 범용 의미론은 도메인 지향적이고 데이터 제품을 중심으로 하는 데이터 메시 아키텍처를 가능하게 합니다. 여기에서 데이터 메시에 대해 자세히 알아보세요 .
데이터 패브릭은 또한 데이터 가상화, 데이터 페더레이션 및 범용 의미 계층에 구축됩니다. 이는 페더레이션 데이터 거버넌스를 접근 방식에 통합하지 않기 때문에 데이터 메시와 다릅니다. 이 모델에서 IT는 지식 그래프로 활성화된 조직의 데이터 및 데이터 검색에 대한 책임을 유지합니다.
데이터 가상화와 이를 둘러싼 기술의 생태계는 클라우드라는 플랫폼의 강점을 기반으로 구축되기 때문에 혁신적인 혁신을 이룹니다. 데이터 레이크와 ETL 기술은 클라우드의 기능을 고려하지 않고 온프레미스 생태계를 위해 설계되었습니다. 데이터가 클라우드로 이동함에 따라 이 새로운 환경에서 가능한 새로운 접근 방식을 고려해야 합니다. 클라우드의 상시 연결성과 즉각적인 확장성은 최신 데이터 관리 전략을 설계할 때 고려해야 할 기능입니다.
실시간으로 데이터를 얻을 수 있는데 왜 일괄 처리를 기다리나요? 분석하는 동안 데이터를 저장하기 위해 VM을 돌리는 건 어때요? 모든 데이터를 상호 연결하고 한곳에서 액세스하는 건 어때요?
새로운 플랫폼에 기존의 작업 방식을 적용하는 것은 기술 혁신과 플랫폼 도입에서 일반적인 추세입니다. 모바일 기기 플랫폼이 등장했을 때, 기업은 모바일 OS에서 실행되도록 엔터프라이즈 애플리케이션과 웹 애플리케이션을 수정했습니다. 이것이 효과가 있었지만, 전력과 대역폭이 제한적이고 모바일인 기기에 맞게 설계되지 않았습니다. 표준은 플랫폼에서 가능한 제약과 기회를 고려한 기본 운영 체제에 구축된 애플리케이션이 빠르게 되었습니다. 애플리케이션을 클라우드로 옮기는 것도 마찬가지입니다. 첫 번째 반복은 전체 모놀리스 애플리케이션을 컨테이너로 옮기고 클라우드 네이티브라고 부르는 것이었습니다. 현실은 애플리케이션이 여러 다른 컨테이너에서 실행되도록 설계되고 구축되어 클라우드의 항상 연결된 상호 연결성과 확장성을 활용하는 경우에만 진정한 클라우드 네이티브가 된다는 것입니다. 이제 데이터 관리가 클라우드 네이티브가 될 차례이며, 데이터 가상화가 기본 기술입니다.
데이터 가상화는 강력한 기술이며, 훨씬 더 복잡한 현대적 데이터 전략의 기반일 뿐입니다.