Ciclo de vida da saúde dos dados: estratégias de limpeza e transformação de dados



Listen to this blog
Disclaimer

Um sistema saudável com dados limpos é crucial para organizações que buscam ter um resultado financeiro saudável. Dados não saudáveis levam a tomadas de decisão inferiores, oportunidades desperdiçadas e custos mais altos. Manter dados de qualidade requer limpeza diligente de dados para mantê-los saudáveis.

Pesquisas de G. Loabovitz e Y. Chang levaram à regra 1-10-100 da qualidade de dados. Essa regra destaca o custo crescente de erros de dados devido à baixa qualidade de dados: se custa US$ 1 para verificar um registro, custa US$ 10 por registro para corrigir erros uma vez criados e US$ 100 por registro se os erros não forem resolvidos. Essa pesquisa afirma que quanto mais proativo você for em garantir a saúde dos seus dados, mais custos de qualidade de dados serão evitados.

Uma estratégia completa de saúde de dados que considera a saúde dos dados, da estrutura do banco de dados aos aplicativos, leva a dados de maior qualidade. Dados e sistemas precisam ser limpos e avaliados em três níveis.

Nível Estrutural do Banco de Dados

banco de dados e tabelas de dados precisam ser organizados efetivamente e operar corretamente para evitar erros. Processos eficazes de reparo de banco de dados corrigem problemas de qualidade de dados na fonte.

Dados em repouso

os dados em seu banco de dados devem passar por um processo regular de limpeza de dados que procura erros, inconsistências, duplicações e entradas ausentes.

Transformação de Dados

novos erros de dados são criados conforme os dados são convertidos e movidos. As organizações precisam de estratégias para garantir a saúde dos dados por meio de diferentes transformações, incluindo ETL (Extract, Transform, Load) e processos de data wrangling.

Reparo de banco de dados

Garantir que seus bancos de dados e suas estruturas estejam em boas condições pode impactar significativamente sua estratégia de saúde de dados. Ao focar na fonte de dados, problemas repetitivos de qualidade de dados downstream são reduzidos. Os primeiros passos para manter seus dados saudáveis são atualizar a tecnologia de banco de dados e reparar bancos de dados mal estruturados.

Avaliar como os bancos de dados são organizados e estruturados reduz a ocorrência de dados não saudáveis. Consolidar formatos de dados em uma estrutura comum pode diminuir dados conflitantes e duplicados. Criar um formato de número de telefone padrão é um exemplo. Em vez de manter vários formatos com traços, pontos, códigos de área e códigos de país, as organizações podem definir um formato de sequência de texto somente numérico para ser usado em todos os sistemas. Essa tática reduz o número de tipos de dados, diminuindo as chances de confusão.

Alterar o esquema para melhorar o desempenho é outra maneira de organizar bancos de dados para promover a saúde dos dados. Exemplos incluem consolidar chaves primárias para aumentar a consistência. Corrigir e padronizar tabelas de origem pode reduzir o esforço necessário para padronizar dados cada vez que eles são extraídos para análise. Embora ajustar o esquema para ser mais uniforme possa limitar erros no futuro, pode causar problemas de curto prazo, pois os aplicativos downstream precisam ser ajustados para incorporar as alterações do esquema. Uma camada de federação que funciona como um gateway para seu banco de dados pode ajudar a detectar alterações de esquema para garantir que os aplicativos downstream sejam atualizados adequadamente.

Práticas Essenciais de Limpeza de Dados

Ao contrário do reparo de banco de dados, a limpeza de dados foca nos dados em si. A limpeza de banco de dados é um processo que requer atenção consistente e regular. Em um hospital, contaminantes estão constantemente encontrando seu caminho para dentro da instalação, então a esterilização regular é necessária para evitar que germes deixem as pessoas doentes. Seus bancos de dados não são diferentes.

Os processos regulares de limpeza devem se concentrar em:

Eliminando Duplicatas
Eliminando Duplicatas

Dados duplicados desperdiçam espaço em um banco de dados e criam confusão, dificultando informações precisas. Com a quantidade de dados coletados e armazenados em silos de dados, várias versões do mesmo registro frequentemente ocorrem. A desduplicação de dados é um exercício vital de limpeza de dados, pois a contagem dupla dos mesmos pontos de dados distorce sua análise.

Reparando dados incorretos
Reparando dados incorretos

Erros como erros de ortografia, erros de capitalização e inconsistências de nomenclatura podem confundir aplicativos e análises que dependem de formatos padronizados. Encontrar e corrigir esses erros ajuda a manter os dados limpos.

Manipulando dados ausentes
Manipulando dados ausentes

Dados ausentes podem distorcer a análise. Abordar problemas de dados ausentes pode exigir adicionar dados com suposições razoáveis ou eliminar uma coluna ou conjunto de dados inteiros se os dados ausentes forem muito excessivos.

Removendo dados irrelevantes ou antigos
Removendo dados irrelevantes ou antigos

dados antigos ou irrelevantes ocupam espaço de armazenamento, criando confusão. Dados antigos também podem entrar em conflito com dados mais novos ou ser confundidos com dados novos, contaminando a análise.

Filtrando dados periféricos

Outliers no seu conjunto de dados podem sinalizar um erro, mas nem sempre. Identificar outliers, determinar sua causa e tomar as medidas adequadas reduz o número de pontos de dados errôneos em seus conjuntos de dados.

A validação de dados pode ajudar a evitar alguns desses erros durante a entrada de dados. Construir regras de validação e incorporá-las à sua pilha de dados pode dar suporte a testes em tempo real para identificar erros antecipadamente.

Preparação e transformação de dados

Os processos se complicam quando os dados são transferidos de um banco de dados para outro, transformados ou mesclados com um novo conjunto de dados. Garantir que seus processos de transformação não introduzam ou perpetuem dados ruins é essencial para manter dados saudáveis. Quando os dados se originam de bancos de dados separados, as chances de que os dados sejam duplicados são altas. Rotulagem diferente entre bancos de dados também pode levar a erros.

Os dados são transformados de muitas maneiras, mas normalmente são transformados e preparados para análise ou padronizados para serem carregados em um banco de dados para aplicações ou análises futuras.

Os processos Extract, Transform, and Load (ETL) são a abordagem de transformação mais comum para mover dados de um banco de dados para outro. O processo ETL extrai dados de um banco de dados, transforma-os e, em seguida, carrega-os no banco de dados de destino. A estrutura do banco de dados de destino normalmente dita essas transformações, que são bem definidas e sistemáticas. Elas escalam bem e são apropriadas para grandes conjuntos de dados.

Os processos de data wrangling são diferentes e muito mais ágeis. Esses processos são essenciais para preparar conjuntos de dados para análise. As tecnologias de data wrangling acomodam dados estruturados e não estruturados.

Entender essas diferenças é importante para dar suporte a dados mais saudáveis.

ETL

Os processos ETL normalmente começam com dados bem organizados e estruturados. Essa estrutura permite processos de transformação mais automatizados e sistemáticos. Esses programas de transformação são criados por desenvolvedores tecnicamente orientados usando tecnologias poderosas como Python e Scala. Embora uma maior automação seja ótima para eficiência, ela também pode perpetuar dados ruins e erros muito mais rapidamente. Essas automações também são desafiadoras de criar, então são difíceis de mudar, tornando o processo ETL muito menos ágil. Acertar na primeira vez é a chave para manter os dados saudáveis.

O primeiro passo no processo ETL é extrair dados do banco de dados de origem. Erros podem ocorrer quando os dados de origem não estão limpos, então é importante fazer algum perfil de dados para entender a qualidade dos dados. Se a qualidade dos dados não for ótima para começar, atormentada por valores ausentes, duplicatas e valores que estão fora do intervalo, você terá que voltar para fazer alguma limpeza de dados.

O processo de transformação reformata os dados para que eles possam ser ingeridos em bancos de dados de destino. Isso inclui a normalização de dados para que os formatos sejam consistentes entre os bancos de dados de origem e de destino. Erros podem ocorrer se os dados forem rotulados incorretamente ou se as estruturas de dados não estiverem alinhadas, tornando a limpeza de dados uma parte importante do processo de transformação. Rotinas para identificar dados sujos e retificar erros podem ser incorporadas ao programa ETL. A filtragem de dados remove dados indesejados, reduzindo a complexidade. Finalmente, verificações de validação são executadas para verificar inconsistências ou identificar outliers.

A etapa final do processo é carregar dados no banco de dados de destino. Se ocorrerem erros neste estágio, é essencial ter um processo de versionamento em vigor para que você possa voltar a uma versão anterior do seu código para solucionar erros.

Disputa de dados

Assim como ETL, data wrangling é um processo de transformação onde erros de dados podem ocorrer. Data wrangling é o processo de criação de ativos de dados para serem usados em um caso de uso analítico definido. Os requisitos do caso de uso analítico conduzem transformações. Esse requisito exige mais agilidade e a capacidade de incorporar dados não estruturados.

Com a disputa de dados, um processo mais manual e dinâmico é necessário. Para garantir que a análise seja baseada em dados da mais alta qualidade, as equipes devem descobrir, organizar, limpar, enriquecer e validar os dados.

Com a disputa de dados, o primeiro passo para a análise de qualidade é entender a saúde e a aplicabilidade dos conjuntos de dados subjacentes. Isso significa entender o que está disponível, o que atenderá ao requisito e avaliar a qualidade dos conjuntos de dados. Métricas de qualidade de dados, como testes de distribuição e testes de intervalo de validade, fornecem insights sobre a saúde dos dados. Entender os problemas existentes, o tamanho do conjunto de dados e os formatos de dados são fatores que precisam ser considerados antes de usar os dados para dar suporte à análise. Ao contrário dos processos de ETL, a disputa de dados não é restringida por automações de pré-construção. Essa diferença significa que os analistas têm a flexibilidade de pesquisar os melhores conjuntos de dados, evitando dados menos higienizados. Catálogos de dados robustos que são acessíveis e mantêm e rastreiam esses dados são benéficos para medir a saúde dos dados.

Organizar conjuntos de dados para serem usados em análise é outro processo crítico. Ao trabalhar com dados não estruturados, esse processo se torna muito mais difícil. Dados não estruturados precisam ser organizados em linhas e colunas para serem analisados. Técnicas de marcação podem ser usadas para criar mais estrutura em torno desses dados e fornecer mais informações sobre documentos não estruturados para que eles possam ser organizados de forma mais eficiente. Esse processo está surgindo como um caso de uso viável para GenAI. Essas tecnologias podem analisar documentos para entender seu significado e marcá-los adequadamente. A rotulagem de dados saudável reduz as chances de que o GenAI cometa erros.

Assim como no ELT, os processos de limpeza de dados são essenciais na manipulação de dados. Estratégias de limpeza podem identificar outliers e preparar dados para análise, eliminando ruídos nos dados e garantindo que os conjuntos de dados sejam relevantes. Corrigir ortografia e padronizar abreviações é muito mais complexo ao trabalhar com texto não estruturado. A IA pode ser aproveitada para corrigir isso.

O processo de normalização de dados no data wrangling difere um pouco do ETL porque os padrões são orientados pelo caso de uso comercial em vez de estrutura e esquema de banco de dados rígidos. Mecanismos robustos de gerenciamento de metadados podem melhorar esse processo. Com o GenAI integrado e glossários comerciais, os usuários comerciais podem normalizar e combinar dados com base em definições e cálculos comerciais.

O enriquecimento de dados é outra técnica que envolve a combinação de conjuntos de dados ou produtos de dados pré-construídos para fornecer maior contexto para uma análise mais profunda e limpa. Preencher dados ausentes com dados sintéticos é outra estratégia para reforçar a qualidade dos conjuntos de dados.

Assim como os processos ETL, os testes de validação de dados são essenciais para garantir a limpeza dos dados após a execução dos processos de manipulação de dados.

Ferramentas de construção de dados

Ter as ferramentas e os processos certos para construir transformações de dados é a melhor maneira de aderir às melhores práticas e reduzir o potencial de erros em suas transformações de dados. Assim como as ferramentas DevOps no espaço de software, as Data Build Tools oferecem suporte a processos de transformação de dados com bancadas de trabalho de desenvolvimento e controles de qualidade. Os recursos incluem controles de versão, testes e registro.

As transformações de dados estão em constante evolução. Para garantir a qualidade, elas precisam ser testadas sempre que o código for atualizado. Criar ou ajustar consultas pode levar a uma infinidade de problemas, incluindo junções de dados ruins que introduzem erros no pipeline. Ter um processo para criar transformações é essencial para evitar erros.

Ferramentas como dbt (data build tool) permitem fluxos de trabalho de transformação saudáveis. A ferramenta permite que analistas:

  • Crie consultas e transformações SQL complexas usando lógica de negócios.
  • Teste transformações para prever proativamente como as mudanças afetarão as dependências posteriores.
  • Execute o código.
  • Crie documentação.

Depois de todo o trabalho de limpeza de dados que você fez, faz todo o sentido reduzir a chance de introduzir dados incorretos com ferramentas e fluxos de trabalho eficazes.

Integrar essas ferramentas com sua pilha de dados as torna mais fáceis de usar e simplifica seu processo de transformação de dados. Modelos e transformações pré-testadas podem ser facilmente acessados e implementados. Esse recurso não apenas reduz erros potenciais, mas também diminui o esforço para criar produtos e processos de dados.

A combinação de ferramentas, fluxos de trabalho e dados cria uma estrutura para dar suporte a dados saudáveis. Por meio de um adaptador dpt, os usuários da plataforma Data to AI, Avrio, podem escrever e testar transformações SQL complexas que utilizam o mecanismo de consulta federado da Avrio, dando suporte aos seus requisitos de qualidade de dados.

Entender como limpar dados e mantê-los limpos durante toda a sua jornada, da coleta à análise, é extremamente importante para construir confiança nos dados. As capacidades crescentes do GenAI para preparar dados não estruturados para análise estão criando novas oportunidades para maiores insights, mas novas complexidades podem levar a dados sujos. Ter uma estratégia complexa de saúde de dados em dados estruturados e não estruturados, do sistema de origem à análise, ajudará a garantir que dados limpos e relevantes sejam colocados nas mãos dos tomadores de decisão.

Discover the Latest in Data and AI Innovation

  • Estratégias de integração e sincronização de dados em produtos de dados

    Read More

  • Como construir confiança com produtos de dados

    Read More

  • Ciclo de vida da saúde dos dados: estratégias de limpeza e transformação de dados

    Read More

Request a Demo TODAY!

Take the leap from data to AI