Elevando o gerenciamento de dados: navegando além das restrições com abordagens modernas para virtualização



Listen to this blog
Disclaimer

A corrida começou para que todas as organizações sejam mais orientadas por dados. Por quê? Porque as empresas que têm mais probabilidade de usar dados para informar a tomada de decisões têm melhor desempenho. Mas as tecnologias de gerenciamento de dados de hoje ainda têm um longo caminho a percorrer para quebrar os silos de dados e tornar os dados acessíveis a todos. Um ecossistema emergente de tecnologias construídas na virtualização de dados pode melhorar o acesso e a usabilidade dos dados.

Desafios com as abordagens atuais

Para que um analista tenha acesso aos dados de que precisa, ele normalmente deve abordar um engenheiro de dados ocupado que tenha habilidades em SQL, Python ou Java para criar uma consulta de banco de dados e extrair um conjunto de dados. O engenheiro também deve estar familiarizado com os metadados e o modelo de dados relevantes para saber quais dados consultar. Com diferentes departamentos usando seus próprios modelos de dados exclusivos, complexidade adicional precisa ser gerenciada. Se os dados precisarem ser transformados e mesclados com outra tabela de dados, mais habilidades técnicas serão necessárias para criar um pipeline. Depois que os pipelines ETL são criados, mantê-los também é um desafio, pois eles tendem a ser muito rígidos. Quando mudanças são necessárias, elas devem ser reprojetadas e testadas, o que não apenas torna as mudanças difíceis, mas também significa que é difícil usar um único pipeline para mais de uma finalidade.

Com a demanda por dados crescendo tão rapidamente, esse modelo não suportará a pressão crescente. As organizações não podem continuar a adicionar infinitamente novos engenheiros à sua equipe de engenharia de dados. Não apenas porque isso é proibitivo em termos de custo, mas também porque não há o suficiente deles no mercado.

O resultado líquido desses desafios é que as organizações são lentas para tomar decisões de negócios, o que as coloca em desvantagem competitiva.

Armazéns de dados

O que é Virtualização de Dados de Inteligência

Os serviços de virtualização de dados fornecem a base para uma nova abordagem ao acesso a dados. Uma ferramenta de visualização de dados fornece middleware que cria uma representação virtual de dados para torná-los disponíveis para análise. Ao contrário das abordagens que usam ETL que movem os dados para onde são analisados, os dados virtualizados permanecem no lugar. Os dados não precisam ser movidos de seu sistema de origem para um data lake e depois para outro sistema para análise, uma prática comum. Enquanto os dados reais permanecem no lugar, os metadados são separados e consolidados em um repositório central.

Com uma estratégia de virtualização de dados, separar a lógica e os dados subjacentes torna as alterações nas consultas de dados muito mais fáceis. Quando os metadados são incorporados na fonte de dados e os pipelines ETL precisam mudar, os engenheiros devem entender não apenas o modelo de dados, mas como as conexões são configuradas e se as dependências precisam ser consideradas. Adicionar fontes de dados quando os dados são virtualizados é muito mais simples. Apenas referenciar os metadados e ajustar a consulta fará o trabalho quando os dados forem virtualizados. Com maior flexibilidade, os produtos de dados ou ativos de dados podem evoluir iterativamente para gerar muito mais valor para os consumidores de dados.

A virtualização de dados permite a federação de dados

Quando desacoplamos metadados dos dados que eles descrevem e os centralizamos, vários novos recursos são habilitados. A federação de dados é um deles. É quando metadados de várias fontes são organizados para tornar os dados acessíveis por meio de um modelo de dados uniforme. Ao consolidar metadados, um modelo de dados universal torna muito mais fácil entender os dados subjacentes distribuídos em bancos de dados distintos, tornando o processo de acesso a eles muito mais simples.

Uma camada de metadados consolidada também permite que analistas criem uma única consulta para extrair dados de vários bancos de dados simultaneamente, não importa onde os dados estejam armazenados, seja na nuvem ou no local. A capacidade de acessar vários bancos de dados e agregar e transformar dados em tempo real abre um mundo totalmente novo de capacidades.

A federação de dados permite a camada semântica universal

Com um modelo de dados unificado disponível por meio da federação de dados, uma camada de semântica universal pode ser construída em cima para tornar os dados mais autossuficientes. Quando você adota um único modelo de dados que representa vários armazenamentos de dados e lista seus ativos de dados em um único catálogo de dados, é muito mais fácil explorar dados para identificar os fatos de que você precisa. Isso permite maior inovação porque, sem a visibilidade aprimorada da semântica universal, os analistas não seriam capazes de navegar, experimentar ou descobrir novos dados facilmente. Para maior usabilidade, uma camada de virtualização universal pode incluir recursos adicionais, como glossários de negócios que padronizam a terminologia e as métricas de negócios. Isso torna os dados ainda mais acessíveis aos usuários de negócios que podem encontrar ativos de dados com pouca compreensão de como os dados são organizados ou onde são armazenados.

A virtualização, federação e semântica de dados oferecem suporte a uma melhor governança de dados

Governança de dados é definida como tudo o que você faz para garantir que os dados sejam seguros, privados, precisos, disponíveis e utilizáveis. Tecnologias de dados modernas emergentes melhoram a governança de dados ao longo de todos esses objetivos.

Segurança
Segurança

A camada virtualizada permite que um único gateway imponha governança e segurança de dados centralizados

Privacidade
Privacidade

Ao manter os dados no lugar, onde podem ser melhor controlados, a virtualização de dados pode gerenciar o acesso em várias fontes de dados. Com metadados consolidados, controles de acesso refinados podem ser usados para mascarar dados no nível da coluna para obscurecer identidades.

Precisão
Precisão

Ao manter os dados em um só lugar, seus dados podem ser mais precisos. Não há necessidade de sincronizar bancos de dados ou mover dados, reduzindo possíveis erros que ocorrem durante o processo. Quando cópias duplicadas de dados não estão espalhadas pela organização, os dados no sistema de origem se tornam a única fonte de verdade, reduzindo dados conflitantes causados por conjuntos de dados antigos.

Disponibilidade
Disponibilidade

A virtualização de dados torna os dados disponíveis em tempo real. Ela também permite governança de dados federada, o que fornece aos domínios de negócios mais autonomia para autorizar o acesso para aqueles que precisam.

Usabilidade
Usabilidade

A camada semântica habilitada pela virtualização de dados permite que usuários empresariais acessem dados por meio de definições comuns em todos os domínios empresariais, tornando-os mais utilizáveis.

A pilha moderna de gerenciamento de dados permite estratégias modernas

Com a camada de virtualização de dados funcionando como um único gateway para dados, é muito mais fácil controlar e monitorar quem tem acesso a quais conjuntos de dados. Com essa supervisão, a autoridade pode ser distribuída para domínios de dados enquanto a TI ainda retém governança de alto nível. A governança de dados federada e a semântica universal permitem arquiteturas de malha de dados que são orientadas a domínio e centralizadas em produtos de dados. Leia mais sobre a malha de dados aqui

Os data fabrics também são construídos em virtualização de dados, federação de dados e camadas de semântica universal. Eles são diferentes de uma malha de dados porque não incorporam governança de dados federados na abordagem. Neste modelo, a TI retém a responsabilidade pelos dados da organização e pela descoberta de dados habilitada por gráficos de conhecimento.

Abordagem de dados nativos da nuvem

A virtualização de dados e o crescente ecossistema de tecnologias ao seu redor constituem uma inovação transformadora porque se baseiam nos pontos fortes da plataforma em que são executados – a nuvem. Data lakes e tecnologias ETL foram projetados para um ecossistema on-prem, sem levar em conta os recursos da nuvem. À medida que os dados migram para a nuvem, novas abordagens devem ser consideradas, que são habilitadas por esse novo ambiente. A interconectividade sempre ativa e a escalabilidade instantânea da nuvem são recursos que precisam ser considerados ao projetar uma estratégia moderna de gerenciamento de dados.

Por que esperar por processos em lote quando você pode obter dados em tempo real? Por que não criar uma VM para armazenar seus dados enquanto você os analisa? Por que não interconectar todos os seus dados e acessá-los de um único lugar?

processos em lote

Adaptar a maneira antiga de fazer as coisas para novas plataformas é uma tendência comum na transformação tecnológica e adoção de plataformas. Quando a plataforma de dispositivos móveis surgiu, as empresas modificaram seus aplicativos corporativos e aplicativos da web para rodar no sistema operacional móvel. Embora isso tenha funcionado, eles não foram projetados para um dispositivo que tinha potência e largura de banda limitadas e era móvel. O padrão rapidamente se tornou aplicativos construídos no sistema operacional nativo que considerava as restrições e oportunidades habilitadas pela plataforma. O mesmo com a mudança de aplicativos para a nuvem. A primeira iteração foi mover aplicativos monolíticos inteiros para um contêiner e chamá-lo de nativo da nuvem. A realidade é que os aplicativos só são verdadeiramente nativos da nuvem se forem projetados e construídos para rodar em vários contêineres diferentes, aproveitando a interconectividade e a escalabilidade sempre ativas da nuvem. Agora é a vez do gerenciamento de dados ser nativo da nuvem, e a virtualização de dados é a tecnologia fundamental.

A virtualização de dados é uma tecnologia poderosa e é apenas a base de uma estratégia de dados moderna infinitamente mais complexa.

Discover the Latest in Data and AI Innovation

  • Estratégias de integração e sincronização de dados em produtos de dados

    Read More

  • Como construir confiança com produtos de dados

    Read More

  • Ciclo de vida da saúde dos dados: estratégias de limpeza e transformação de dados

    Read More

Request a Demo TODAY!

Take the leap from data to AI