O que é linhagem de dados?

Listen to this blog

Disclaimer

A linhagem de dados é o processo de registrar e rastrear dados ao longo de seu ciclo de vida e é vital para a qualidade dos dados. Para garantir que os dados usados para dar suporte a decisões comerciais críticas sejam confiáveis, é preciso saber sua origem. Os dados estão constantemente mudando, atualizando, mesclando e transformando. A linhagem de dados documenta todos esses processos, incluindo quem alterou os dados, onde os dados se originaram e por que os dados foram modificados. À medida que os dados fluem pelos pipelines, metadados são criados para alimentar ferramentas de linhagem de dados que mapeiam conexões e criam visualizações de como os dados se movem por seu ciclo de vida. O mapeamento de conexões de dados fornece insights sobre como os dados upstream e downstream são conectados. A linhagem de dados fornece uma trilha de auditoria para dados.

Rastreando a linhagem por meio do ciclo de vida dos dados

Os dados de linhagem são rastreados por vários estágios do ciclo de vida dos dados, incluindo coleta, processamento, acesso, armazenamento, consulta de dados e análise de dados. Entender como e por que os dados de linhagem são coletados em cada estágio dará suporte a uma compreensão mais completa da linhagem de dados.

Coleção

O primeiro estágio da linhagem de dados começa com a coleta de dados. Uma vez que os dados entram em um sistema, a fonte dos dados precisa ser documentada. Os sistemas devem rastrear de onde os dados vieram e a confiabilidade da fonte. Ele deve observar o quão válidos e precisos os dados são e quaisquer transformações ou manipulações realizadas em um conjunto de dados antes de entrar em um novo sistema.

Processamento

Uma vez que os dados foram coletados, a linhagem de dados precisa rastrear como eles são agregados, transformados e manipulados. A probabilidade de erros que criam dados ruins é alta quando os dados são processados, mesclados ou filtrados. Esses erros podem não ser identificados até que usuários downstream acessem e analisem os dados, portanto, a documentação adequada é essencial para rastrear qualquer fonte de erros. A linhagem eficaz requer que metadados para cada etapa de processamento sejam criados e armazenados.

Acesso e Armazenamento

Uma vez que os dados são processados e armazenados, os dados de linhagem ainda precisam ser capturados. Dados sobre quem está acessando os dados são necessários para dar suporte a auditorias de conformidade. Os dados podem ser comprometidos quando não armazenados corretamente, portanto, rastrear como e onde eles são armazenados também é essencial para a linhagem de dados de ponta a ponta.

Consulta e análise de dados

Capturar dados que detalham como os dados são consultados e analisados também é uma capacidade significativa ao buscar uma estratégia completa de linhagem de dados. A linhagem de dados nem sempre é sobre rastrear a saúde dos dados, mas também o desempenho do sistema. Dados sobre a rapidez e eficiência com que as consultas são realizadas podem ser analisados para entender onde pode haver oportunidades de otimizar todo o pipeline. Os administradores também podem usar esses metadados para entender melhor como os dados são usados e prever padrões de uso futuros para antecipar as necessidades dos usuários.

Por que a linhagem de dados é importante

Rastrear a linhagem de dados é um componente essencial na entrega de dados confiáveis. Entender como os dados se movem por diferentes sistemas e processos e como os conjuntos de dados são conectados ajuda os administradores a manter os dados e os sistemas saudáveis. A capacidade de acompanhar cada estágio da evolução de um conjunto de dados também é crucial para identificar as causas raiz dos erros de dados.

Ao rastrear mudanças em cada fase do ciclo de vida e mapear como cada uma dessas mudanças está relacionada, os solucionadores de problemas podem rastrear erros upstream para identificar a raiz do erro. Em muitos casos, erros nos dados não são identificados até que o conjunto de dados tenha se movido mais para baixo para análise. Anomalias nos dados podem sinalizar uma tendência de mudança, ou pode ser apenas um erro nos dados. Saber a diferença é fundamental para não perder uma oportunidade ou evitar tomar decisões com base em dados errados. Rastrear um conjunto de dados do processo de análise até quando ele foi coletado pela primeira vez fornece muito mais confiança na saúde dos pipelines de dados. Identificar as causas raiz e implementar soluções também ajudará a eliminar a possibilidade dos mesmos erros se repetirem.

Entender como diferentes conjuntos de dados são conectados também ajuda a evitar erros em primeiro lugar. A capacidade de rastrear dependências downstream permite que desenvolvedores e engenheiros de dados prevejam o impacto de alterações em aplicativos e modelos dependentes. Por exemplo, um engenheiro de dados entenderá as implicações de alterar o esquema da tabela antes de fazer um ajuste. Esse conhecimento pode ajudá-los a encontrar um caminho diferente ou editar aplicativos downstream para refletir a alteração upstream e evitar erros ou falhas.

Com uma maneira de monitorar seus processos de dados em toda a sua pilha de dados, você tem um mecanismo para validar a precisão e a integridade dos seus dados. A capacidade de rastrear dados de volta à sua fonte permite que os tomadores de decisão julguem sua validade. Esse conhecimento é particularmente importante se os dados se originam fora da organização. O grupo que criou um conjunto de dados está tão focado na qualidade dos dados quanto os usuários? Essas são informações valiosas se você toma decisões comerciais importantes com base nesses dados.

A Data Lineage ajuda a estar em conformidade com as regulamentações rastreando como e onde os dados são armazenados e acessados. Aderindo às regras de privacidade e soberania de dados, por exemplo, como a linhagem de dados pode dizer se os dados foram movidos através das fronteiras do país. Programas robustos de linhagem de dados também são importantes para facilitar auditorias rápidas de conformidade. Com a linhagem de dados, os administradores podem verificar se os dados foram gerenciados adequadamente em todo o pipeline de dados de ponta a ponta.

Diferentes abordagens para gerenciar a linhagem de dados

Embora o valor da linhagem de dados de ponta a ponta possa ser evidente, o acesso a todos os metadados relevantes nem sempre é possível. Existem algumas abordagens diferentes para analisar dados para criar linhagem. Baseada em padrões, baseada em tags, autocontida e análise sintática.

Baseado em padrões

Com o rastreamento de linhagem de dados baseado em padrões, a análise de padrões em metadados revela o histórico de um conjunto de dados. Essa abordagem analisa metadados em tabelas, colunas e relatórios para fazer conexões. Se duas tabelas tiverem nomes e valores de dados semelhantes, pode-se presumir que são versões diferentes da mesma tabela, e um link pode ser observado em um mapa de linhagem de dados. Essa abordagem é independente de tecnologia porque se concentra em padrões de dados e pode funcionar em qualquer sistema. Enquanto a linhagem de dados baseada em padrões funciona bem com um número menor de conjuntos de dados e pode não ser tão eficaz com relacionamentos de dados complexos.

Baseado em tags

Uma abordagem baseada em tags alavanca um mecanismo de transformação para marcar dados, permitindo que eles sejam rastreados conforme se movem pelo pipeline. Essa abordagem é muito eficiente, mas só funciona se uma ferramenta uniforme for usada para processar e marcar dados.

Autocontido

Essa abordagem usa ferramentas de gerenciamento de dados mestres (MDM) para gerenciar metadados centralmente. Metadados criados por vários processos no sistema são centralizados em uma ferramenta MDM que pode capturar dados de linhagem. O desafio é que processos realizados fora do sistema que não interagem com a ferramenta MDM não podem ser rastreados.

Linhagem por análise

Este processo funciona por meio de engenharia reversa de transformações de dados. Ao ler a lógica usada para transformar dados, a linhagem dos dados pode ser conjecturada. Este é um processo complexo, e todas as linguagens e processos usados para gerenciar dados em sua pilha de dados devem ser bem compreendidos. Embora complexo, este processo é melhor para rastrear a linhagem de dados de ponta a ponta em todos os sistemas.

Melhores práticas para gerenciar a linhagem de dados

Focar na tecnologia e nos metadados em torno da sua estratégia de linhagem de dados é importante, mas seus esforços serão desperdiçados se os tomadores de decisão não entenderem. Os dados de linhagem devem ser compreensíveis para usuários comerciais e técnicos.

A linhagem empresarial também deve ser considerada como parte da sua estratégia. Organize sua linhagem de dados com o contexto empresarial certo para que os usuários empresariais possam entender como os dados fluem pelos processos empresariais. Entender quais dados estão fluindo pelos seus pipelines é tão importante quanto a linhagem técnica que rastreia o como.

Linhagem de dados na construção e uso de produtos de dados

A linhagem de dados é vital na construção e uso de produtos de dados. Os produtores de dados podem auditar a linhagem de dados para garantir a confiabilidade dos dados que fluem para seu produto de dados. A linhagem também pode ajudar os produtores de produtos de dados a entender dependências e relacionamentos entre diferentes conjuntos de dados em seus produtos de dados.

Usuários empresariais de produtos de dados também podem aproveitar a linhagem de dados para entender o fluxo de dados e sua fonte. Essas informações os ajudam a julgar a validade dos dados e sua aplicabilidade a certos casos de uso. No centro de ótimos produtos de dados está um extenso catálogo de dados com recursos de linhagem de dados robustos integrados. Os catálogos de dados ajudam os produtores de produtos de dados a encontrar e acessar os dados de que precisam, e os dados de linhagem de dados fornecem informações valiosas sobre esses dados.

Estratégias de linhagem de dados são recursos essenciais da pilha de dados moderna. À medida que os pipelines de dados se tornam cada vez mais complexos, um programa de linhagem de dados sólido será essencial para garantir a qualidade dos dados.