Dados armazenados em qualquer organização têm imenso valor, e o conhecimento derivado deles pode diferenciar uma empresa de seus concorrentes. Não ter uma estratégia sólida para quebrar silos de dados é um erro estratégico.
Embora métodos tradicionais como pipelines ETL e data lakes sejam comuns, abordagens mais inovadoras e distribuídas como malha de dados e tecidos de dados estão ganhando força. O objetivo final dessas estratégias é democratizar o acesso aos dados, fomentando um modelo de autoatendimento e promovendo uma cultura mais colaborativa e orientada a dados. As organizações devem permanecer ágeis, adaptando-se a esses conceitos e tecnologias em evolução para manter uma vantagem competitiva.
Um Data Mesh é uma arquitetura de dados projetada para facilitar o compartilhamento de dados em uma organização. Um data mesh é agnóstico em relação à tecnologia e é definido por quatro princípios.
A função comercial que coleta dados detém autoridade sobre eles.
Os dados são agrupados em produtos de dados, simplificando o compartilhamento em toda a organização.
Dados e produtos de dados devem ser acessíveis a pessoas não técnicas para análise independente, sem a necessidade de assistência da TI ou do domínio que os compartilha.
A responsabilidade de governar e proteger os dados é compartilhada entre o domínio e as autoridades centrais de TI.
Para saber mais sobre malha de dados, leia nosso blog sobre o que é uma malha de dados e por que você precisa de uma.
Gartner define data fabric como um conceito de design que serve como uma camada de integração de dados e processos de conexão. Ele usa análises contínuas sobre ativos de metadados detectáveis e inferidos existentes para dar suporte ao design, implantação e utilização de dados integrados e reutilizáveis em todos os ambientes. De fato, tanto o conceito de Data Mesh quanto o Data Fabrics compartilham um objetivo comum: abordar o desafio dos silos de dados e aprimorar o acesso aos dados dentro das organizações.
Desde o início do conceito de Data Mesh, a estratégia evoluiu. Nos primeiros dias, havia uma inclinação para conceder aos domínios o poder de usar quaisquer ferramentas para criar produtos de dados para compartilhar. Esse conceito amadureceu à medida que surgiram preocupações em torno da padronização e interoperabilidade. Reforçar o conceito de silos de dados e não definir como os produtos de dados interoperam pode não ser a melhor abordagem, mesmo que os líderes de domínio tenham o melhor entendimento dos dados. As implementações de data mesh de hoje enfatizam processos e plataformas padronizados, garantindo fácil criação, compartilhamento e integração de produtos de dados.
Ao mesmo tempo, arquiteturas de Data Fabric também surgiram, com foco em tecnologia, automação e controle de governança central. Embora a malha de dados e a malha de dados possam não competir, elas influenciam uma à outra, solicitando adaptações para atender às necessidades do mercado. Os profissionais de dados modernos exploram como a arquitetura de malha de dados pode dar suporte a conceitos de malha de dados, como governança federada, produtos de dados e propriedade de domínio. Essa intersecção reflete uma evolução contínua nas estratégias de gerenciamento de dados.
A integração de dados é essencial para ambas as abordagens, malha de dados e malha de dados, com a democratização de dados por meio da virtualização emergindo como a arquitetura de escolha. A virtualização permite que os dados permaneçam em seus domínios de origem e virtualiza conjuntos de dados para permitir a democratização de dados. No entanto, os conceitos de malha de dados e malha de dados divergem em termos de governança, automação e consumo/descoberta.
O data fabric aproveita a automação para permitir o autoatendimento, enquanto o data mesh depende de especialistas no domínio para incorporar sua expertise em produtos de dados.
O data fabric depende do controle de governança central, enquanto o data mesh adota uma abordagem federada com domínios responsáveis por governar seus próprios dados.
O data fabric consolida ativos de dados em catálogos de dados ou implementa gráficos de conhecimento para mapear ativos de dados em toda a organização. Uma abordagem de malha de dados expõe dados por meio de produtos de dados criados por domínio, normalmente publicados por meio de um mercado de produtos de dados.
À medida que esses conceitos de malha de dados e a tecnologia de tecidos de dados evoluem, eles começaram a convergir. Os profissionais estão experimentando vários níveis de controle, consolidação de dados e automação. A IA está desempenhando um papel importante em permitir essa convergência.
À medida que o mercado evolui, ele se torna menos sobre automação vs. pessoas federadas vs. governança central ou ativos de dados vs. produto de dados e mais sobre estratégias que incorporam todos os melhores recursos e alavancam a ferramenta certa para o trabalho certo. Plataformas de gerenciamento de dados e gateways de análise estão dando suporte a essas abordagens integradas.
Em abordagens modernas de malha de dados e tecido de dados, ambas as estratégias atingem um equilíbrio entre especialistas de domínio e automação, incorporando esses recursos de maneiras distintas. Tecidos de dados usam automação para integrar dados em tempo real. Os humanos desempenham um papel mais passivo no tratamento de problemas identificados por alertas de IA.
A malha de dados foca em produtos de dados criados por produtores de dados. A IA ajuda os produtores a automatizar tarefas repetitivas, eliminando a necessidade de habilidades de codificação; no entanto, o humano que entende a nuance dos dados continua sendo central para o processo. Processos automatizados de manipulação de dados e classificação de dados assistida por IA são exemplos dessa relação simbiótica.
As abordagens podem coexistir na mesma estratégia com diferentes participantes no processo contando com a automação de diferentes maneiras. A chave é encontrar o equilíbrio certo entre expertise humana e automação para otimizar os processos de dados de forma eficaz.
No gerenciamento de dados, as arquiteturas de Data Fabric produzem ativos de dados, enquanto uma malha de dados produz produtos de dados. Ambas as abordagens de descoberta e consumo podem existir em uma estratégia combinada com uma malha de dados, adicionando mais controles para empacotar ativos de dados em produtos de dados.
A abordagem de malha de dados foca no produto de dados como o principal veículo para compartilhamento de dados. Produtos de dados publicados em um mercado de produtos de dados são mais ricos e, sem dúvida, mais valiosos. Eles normalmente são compostos de ativos de dados que foram mesclados e normalizados sob a orientação de um especialista em domínio experiente. Produtos de dados são reutilizáveis, mais permanentes e melhores para uso externo além de domínios de dados específicos.
Abordagens combinadas podem expor catálogos de dados consolidados a consumidores de dados menos técnicos, permitindo que eles criem produtos de dados para compartilhamento. Aproveitar a IA para expor esses ativos de dados a consumidores de dados, semelhante a um data fabric, reduz as habilidades técnicas necessárias para acessar dados. O LLM capacita consumidores de dados com experiência limitada em SQL para explorar e consultar ativos de dados de forma eficaz.
Seja um data fabric ou mesh, o catálogo de dados se torna uma parte muito importante da estratégia. As plataformas de gateway estão criando catálogos de dados unificados que abrangem toda a organização e organizam ativos de dados de forma eficiente. Essas plataformas também aproveitam as ferramentas GenAI para reduzir o trabalho manual, ajudando na classificação e normalização de dados para dar suporte a modelos de dados robustos e glossários de negócios.
Os avanços contínuos em IA continuarão a aumentar a eficiência dos produtores de dados para criar produtos de dados alavancando a automação. Além disso, os especialistas têm a oportunidade de treinar IA para ajudar os consumidores de dados a obter o máximo de seus dados. Essa sinergia entre humanos qualificados e máquinas poderosas representa uma abordagem do melhor dos dois mundos no cenário em evolução do gerenciamento de dados.
Plataformas e ferramentas emergentes estão permitindo maior federação de governança. Ferramentas de governança tornam mais fácil para a TI central abrir mão de mais controle, mantendo uma supervisão eficaz.
A integração de controles de governança de dados em plataformas de gerenciamento de dados capacita todos os membros da equipe de dados a participar ativamente e assumir a responsabilidade pela governança.
Controles do Gerenciador de Domínios | Controles do gerente de TI | Controles dos produtores de dados |
---|---|---|
Controla o acesso aos domínios | Controla o acesso às plataformas de dados | Controles de acesso detalhados ao nível da tabela |
Controla o acesso granular aos dados | Controla como os domínios são organizados |
A integração da automação na governança de dados está evoluindo com o surgimento da governança ativa de dados – uma tecnologia que monitora ativos de dados e envia alertas aos produtores e consumidores quando surgem problemas.
No contexto de malha de dados, a governança se estende além dos ativos de dados para cobrir o ciclo de vida de dados de ponta a ponta, da fonte ao produto de dados. O gerenciamento da governança e da qualidade dos dados não termina com o ativo de dados em uma malha de dados. Os produtos de dados públicos são continuamente aprimorados e monitorados por meio de loops de feedback humano. Esse processo iterativo garante que os produtos de dados permaneçam relevantes e valiosos para os consumidores.
Com as capacidades de data fabrics e data mesh convergindo, há uma flexibilidade crescente no acesso a dados. Os usuários podem acessar e descobrir dados por meio de uma abordagem que se alinha com suas habilidades técnicas e compreensão dos dados. O futuro provavelmente verá uma mistura de elementos de data mesh e data fabric, resultando em combinações únicas que alavancam os pontos fortes de pessoas, máquinas, governança e táticas de consumo. A distinção entre data meshes e data fabrics pode desaparecer, dando origem a estratégias de gerenciamento de dados mais personalizadas e adaptáveis.