Definição de Data Mesh: O que é e por que preciso de uma?

Listen to this blog

Disclaimer

Dados são de vital importância para a tomada de decisões em qualquer empresa. Mas quando os tomadores de decisão precisam esperar que a TI construa um pipeline de dados para acessá-los, oportunidades são perdidas e as decisões são subótimas. Esse é o desafio enfrentado pela maioria das grandes empresas que tentam se tornar mais orientadas por dados para melhorar seu desempenho.

Um dos maiores desafios de gerenciamento de dados é que a tecnologia de ontem não consegue suportar a crescente demanda de dados de hoje. A abordagem ETL tem décadas e estruturas de governança centralizadas que funcionavam em tempos mais simples simplesmente não conseguem escalar para atender à complexidade da era da IA.

Abordagens inovadoras que são mais distribuídas, ágeis e flexíveis estão começando a chegar ao mercado. Uma estratégia de malha de dados é um exemplo.

O que é uma malha de dados?

Uma malha de dados é uma estratégia moderna de integração de dados. Ela é baseada em uma arquitetura de dados distribuída que se afasta do armazenamento e gerenciamento de dados consolidados e centralizados para uma abordagem mais compartilhada e federada. Ela é uma alternativa aos pipelines de dados ETL e data lakes que são construídos em arquiteturas monolíticas e dependem de inúmeras dependências.

A arquitetura de malha de dados é mais do que tecnologia, é uma estratégia abrangente que incorpora mudanças nas funções dos contribuidores dentro do gerenciamento e consumo de dados. Existem 4 inquilinos de uma estratégia de malha de dados. Uma verdadeira estratégia de malha de dados deve

Seja orientado por domínio

Aproveite a governança de dados federados

Trate os dados como um produto

Seja autossuficiente

Arquitetura orientada a domínio

A arquitetura de malha de dados redistribui mais comando e controle sobre os dados para domínios independentes. Domínios são grupos envolvidos em uma função de negócios específica. Pode ser uma operação regional, linha de negócios ou função de negócios, como vendas, marketing, RH ou finanças.

Esses domínios coletam uma quantidade significativa de dados enquanto realizam suas operações comerciais diárias. A abordagem orientada a domínio coloca mais responsabilidade de controlar e gerenciar esses dados nas mãos daqueles que os coletaram, não de uma autoridade centralizada.

Governança de dados federados

Com uma malha de dados, os domínios têm maior autonomia, mas não são livres para fazer o que quiserem. Em uma abordagem de governança de dados federada, a responsabilidade pela governança de dados é compartilhada entre as autoridades centrais de TI e aquelas no nível de domínio. A TI lida com a criação de estruturas e políticas que se aplicam uniformemente em todos os domínios, enquanto cada domínio individual gerencia regras que se aplicam apenas aos seus próprios dados e processos de negócios. Saiba mais sobre governança de dados federada aqui

Dados como um produto

Ao mudar para uma arquitetura de malha de dados, você muda de uma mentalidade de projeto para uma abordagem baseada em produto. Em vez de criar um pipeline ETL ad-hoc toda vez que um novo conjunto de dados é necessário, as equipes de domínio trabalham para construir proativamente produtos de dados reutilizáveis que entregam os dados exigidos pelos tomadores de decisão.

Para serem eficazes, esses produtos devem ser detectáveis, endereçáveis, confiáveis e autodescritivos. Isso significa;

Os consumidores de dados devem ser capazes de encontrar facilmente produtos de dados
Cada produto deve ter um endereço único para que possa ser integrado em aplicativos de software
Os dados devem ser confiáveis
Os consumidores de dados devem ser capazes de entender os dados contidos no produto de dados e o que eles representam

Análise de autoatendimento

A arquitetura de malha de dados deve ser acessível por consumidores de dados não técnicos sem assistência de profissionais técnicos. Isso pode ser por meio de um mercado de produtos de dados ou por meio de tecnologia que permite acesso direto a produtos de dados de uma ferramenta de análise ou modelagem. Um dos maiores pontos problemáticos que a malha de dados resolve é quebrar as barreiras técnicas entre os dados e aqueles que os consomem. O autoatendimento melhora a qualidade e a velocidade da tomada de decisões. Ele também alivia as demandas sobre engenheiros de dados que estão sobrecarregados com o atendimento de solicitações de dados.

Por que preciso de um?

No ambiente atual, a demanda por dados está superando a capacidade das operações de TI de entregá-los. As organizações sabem que mais decisões baseadas em dados levam a melhores resultados e desempenho, mas o desafio de fornecer acesso aos dados certos, adequados ao propósito e confiáveis, é desafiador técnica e culturalmente.

As abordagens atuais não podem ser adaptadas à demanda futura

Na organização típica, os dados são coletados e armazenados em silos de dados. Seja um aplicativo de transação legado ou um CRM SaaS. Compartilhar dados entre esses silos é difícil. Para atender à demanda de compartilhamento de dados, programadores experientes devem criar pipelines para mover dados entre esses silos. Esses desenvolvedores devem ser versados em tecnologias como Python, SQL, R e Java para atender às solicitações de dados. Infelizmente, simplesmente não há desenvolvedores qualificados o suficiente para atender à demanda. Em muitos casos, quando as solicitações de dados são atendidas, a necessidade não existe mais, resultando em oportunidades perdidas. Com as decisões de negócios já sendo tomadas em um ritmo alucinante e a IA posicionada para aumentar esse ritmo a uma taxa exponencial, essa abordagem não funcionará no futuro.

A malha de dados permite que a comunidade forneça acesso mais fácil a melhores dados

Uma malha de dados permite que pessoas e tecnologias sofisticadas trabalhem juntas para que os tomadores de decisão em toda a organização possam obter os dados de que precisam quando precisam.

De uma perspectiva cultural, uma estratégia de malha de dados capacita indivíduos ao fornecer mais propriedade e responsabilidade para administrar os dados em seu domínio. Isso os torna mais engajados em garantir que os dados sejam acessíveis e confiáveis. Cada parte interessada no processo tem uma função.

Os recursos de autoatendimento da malha de dados e catálogos de dados robustos permitem que os analistas de dados explorem e implantem os dados de que precisam por meio de produtos de dados. Esses analistas não são mais forçados a lutar com tarefas manuais ou esperar que a TI acesse os dados. Eles podem fornecer mais insights e análises aos tomadores de decisão com as habilidades que têm.

Os gerentes de domínio, que entendem os dados que coletam mais do que uma autoridade central de governança, têm poder para administrá-los. Essa maior compreensão do contexto em torno de seus dados os coloca na melhor posição para gerenciá-los e aumentar seu valor.

Ao mudar para uma malha de dados, os profissionais de TI e engenheiros de dados se tornam capacitados para aumentar o valor que eles fornecem ao entregar serviços mais estratégicos. Os engenheiros de dados podem gastar menos tempo codificando processos de ETL e trabalhar mais próximos dos produtores de produtos de dados para acessar dados de qualidade de forma mais eficiente. Eles podem aconselhar sobre regras de governança de nível de domínio e impor métricas de qualidade. Os engenheiros de dados também podem desempenhar um papel maior no gerenciamento de infraestrutura para capacitar seus colegas.

A tecnologia distribuída reduz custos e aumenta a agilidade.

Uma malha de dados é executada em uma arquitetura distribuída. Em vez de despejar dados em um data lake, os dados permanecem no sistema que os coletou. Quando os dados são necessários, eles são extraídos da fonte em vez de serem copiados para outro banco de dados onde são analisados. Isso significa que os custos de armazenamento são reduzidos e as discrepâncias entre vários armazenamentos de dados redundantes são minimizadas.

Um sistema distribuído também é mais escalável, ágil e acessível. Enquanto os dados reais permanecem no lugar, os metadados são consolidados em um único banco de dados. Ao separar os metadados dos dados que eles descrevem, os ativos de dados podem ser descobertos em um único catálogo e as consultas de dados podem ser construídas independentemente dos dados. Isso permite;

Consultas de dados federados

É possível criar consultas de dados únicas que podem acessar dados em vários sistemas diferentes simultaneamente usando o mesmo modelo de dados.

Dados para permanecer no lugar

Os dados também não precisam ser movidos por um processo em lote, mas podem ser mesclados em tempo real e alterações podem ser feitas rapidamente.

Maior escalabilidade

Ao separar os dados da lógica, as dependências criadas por pipelines de dados infinitos podem ser reduzidas, permitindo maior escalabilidade.

Governança e segurança são mais eficientes

Autoridade maior nem sempre significa melhor segurança. Os profissionais que coletam dados estão em uma posição muito melhor para entender sua sensibilidade. Isso os coloca em uma posição para implementar políticas de governança de dados mais inteligentes do que uma autoridade central.

Uma hierarquia de governança de estrutura flexível também pode ser muito mais eficaz para garantir que os dados sejam precisos, seguros e acessíveis. Ao dar aos domínios a autonomia para trabalhar dentro de uma estrutura mais ampla, eles podem criar políticas que funcionem melhor para eles, mas ainda atendam aos padrões de governança organizacional. Estando mais próximos dos dados, eles também estão em melhor posição para fazer mudanças conforme as ameaças e as demandas mudam.

Mais autonomia também reduz a tendência de analistas recorrerem a soluções não sancionadas. Se as regras forem muito restritivas e/ou inaplicáveis a um determinado caso de uso, os operadores encontrarão maneiras de contorná-las. Isso cria vulnerabilidades opacas que podem levar a sérias ameaças à segurança.

À medida que a tecnologia e os sistemas amadurecem, eles geralmente se tornam mais sofisticados, complexos e distribuídos. Com menos controle centralizado, os sistemas de dados podem evoluir rapidamente e ser mais ágeis e resilientes. Ao confiar dados às pessoas, mas criando barreiras de proteção apropriadas para garantir a ordem, os dados se tornam mais acessíveis e úteis.