Como construir confiança com produtos de dados



Listen to this blog
Disclaimer

Para que as organizações operem de forma eficiente, os tomadores de decisão devem ser capazes de tomar boas decisões baseadas em dados. É justo dizer que a confiança nos dados é primordial na organização baseada em dados de hoje. À medida que a aplicação de IA se torna popular, a qualidade dos dados se torna mais crítica. Se treinarmos modelos de IA por engano com dados ruins, resultados ruins inevitavelmente resultarão. Se os modelos de IA que interagem com os clientes tiverem um desempenho ruim, isso pode ter um impacto significativo nos negócios e no valor da marca a longo prazo. Você deve ser capaz de confiar em seus dados tão fortemente quanto confia em seus funcionários.

Embora a confiança nos dados seja vital, surpreendentemente ela é baixa. Em 2020, a KPMG descobriu que apenas 35% dos tomadores de decisão confiavam em seus dados empresariais. Outro estudo em 2023 pela Precisely e pela LeBow School of Business refletiu alguma melhora; no entanto, apenas 46% dos entrevistados tinham alta ou muito alta confiança em seus dados.

As organizações cometem vários erros que levam à baixa qualidade dos dados e à quebra da confiança:

  • Publicação de dados desatualizados
  • Publicação de dados imprecisos
  • Publicação de dados incompletos
  • Não fornecer o contexto para garantir que os dados sejam bem compreendidos

Esses erros levam a decisões ruins e desempenho comercial ruim. Por exemplo, se um funcionário assume um compromisso com um cliente com base em dados falhos e não consegue cumprir essa promessa, a empresa corre o risco de perder não apenas o cliente, mas também sua reputação.

Perder a confiança é fácil, mas, uma vez perdida, recuperá-la é muito difícil. Uma vez que os executivos consomem dados ruins ou revisam relatórios com erros, sua confiança em dados futuros é abalada.

Por que os produtos de dados são mais confiáveis do que os pipelines de dados

Melhorar a confiança dos dados requer uma mudança fundamental na maneira como acessamos e usamos os dados. O processo tradicional de acesso aos dados foi habilitado pelo lançamento de projetos individuais e pela construção de pipelines ETL. O sucesso desses projetos é medido em quanto código é desenvolvido e quantos dados são entregues. A qualidade dos dados, embora importante, é apenas parte da equação. Em uma mentalidade baseada em projetos, a quantidade de saída é a medida do sucesso.

No entanto, quando mudamos o objetivo para resultados comerciais, a qualidade dos dados se torna a principal medida de sucesso. A confiança é construída quando os objetivos e motivações dos profissionais de dados se alinham com os dos usuários de dados. Um produto de dados bem-sucedido não é medido pela quantidade de dados que ele fornece, mas por quão bem ele atende às necessidades de seus usuários. A gênese de qualquer produto de dados vem de um resultado comercial desejado. Mesmo que os produtos de dados forneçam acesso a grandes quantidades de dados muito rapidamente, eles não serão usados se não atenderem às necessidades dos usuários, limitando assim sua capacidade de fornecer resultados comerciais positivos. Para que um produto de dados seja bem-sucedido, os usuários devem confiar nele o suficiente para basear suas decisões em sua saída.

Maior visibilidade e colaboração reduzem erros e geram confiança

O sucesso dos produtos de dados é impulsionado por uma equipe diversificada com diferentes funções trabalhando juntas para entregar resultados comerciais superiores. Esse processo precisa ser construído com base na confiança, transparência, visibilidade e colaboração entre colegas. A confiança entre as equipes de produtos de dados se traduz em dados nos quais os usuários podem confiar.

Com processos ETL baseados em projeto, colaboração, visibilidade e transparência são um desafio. Normalmente, esses projetos se originam de uma solicitação de dados de um usuário, no entanto, uma vez que o pipeline é construído e os dados são entregues, o usuário pode não ter nenhuma visibilidade sobre como ou quando os dados foram coletados.

Da mesma forma, engenheiros de dados nem sempre sabem como os dados que entregam estão sendo usados downstream. Eles podem não estar cientes de como suas ações influenciarão a análise downstream de modelos de IA. Por exemplo, se um engenheiro de dados alterar o esquema de um conjunto de dados, isso pode quebrar algumas análises ou painéis que dependem desse conjunto de dados.

Além disso, há uma falta de processo para fornecer feedback. Como esses processos são codificados, é difícil mudar e incorporar feedback, mesmo que haja mais visibilidade sobre seu uso.

Construindo confiança com produtos de dados

Estratégias de produtos de dados bem-sucedidas são criadas em uma pilha ou plataforma de dados padrão que permite maior colaboração, visibilidade e transparência.

Colaboração

Comunicação e colaboração aprimoradas sempre geram mais confiança e, portanto, devem ser um aspecto integral de uma estratégia de produto de dados.

A colaboração em torno do acesso a dados e o compartilhamento de responsabilidade para proteger os dados cria um entendimento comum entre as equipes de dados. Estratégias de governança federadas, onde equipes centrais de TI e gerentes de domínio compartilham a responsabilidade pela governança de dados, são um recurso essencial das estratégias de dados criadas em produtos. O benefício dessa abordagem é que as pessoas mais familiarizadas com os dados, gerentes de domínio, estão mais envolvidas na governança de dados. Isso dá suporte a uma abordagem mais sutil e prática para a governança de dados. Compartilhar a responsabilidade pela governança de dados permite maior escalabilidade e agilidade, pois nem toda política de governança precisa ser executada pelo departamento de TI.

Para que essa estratégia funcione, os domínios e as autoridades de TI devem colaborar e confiar uns nos outros. Diferentes domínios e o departamento de TI precisam colaborar para definir quem é responsável pela governança de quais conjuntos de dados, onde o controle de TI termina e onde os domínios começam. Entendimento e comunicação claros evitam confusão. Isso resulta em produtos de dados flexíveis e adaptáveis com alta qualidade de dados nos quais os usuários podem confiar.

Produtores e consumidores de dados também podem construir confiança por meio da colaboração. Em vez de uma abordagem baseada em projeto, onde os dados são jogados por cima da proverbial "cerca", os produtos de dados estão em constante evolução. Os criadores de produtos de dados podem incorporar regularmente o feedback dos usuários. Essa troca de feedback cria confiança entre criadores e usuários, garantindo que os criadores tenham o resultado comercial dos usuários no centro do processo de desenvolvimento.

Os usuários também colaboram com outros usuários para construir validade. Normalmente, os marketplaces de produtos de dados permitirão que os usuários classifiquem produtos de dados para fornecer validação à qualidade e utilidade dos produtos de dados.

Fornecer uma plataforma para alinhar os participantes e permitir a colaboração e o feedback durante todo o processo aumenta a confiança da equipe e a confiança dos usuários em seus resultados.

Visibilidade e Transparência

Visibilidade e transparência são cruciais para entregar produtos de dados confiáveis. A falta de visibilidade leva a erros tipicamente em abordagens do tipo cascata linear que são frequentemente usadas para desenvolver pipelines ETL, fornecendo muito pouca visibilidade entre os usuários de dados e o engenheiro que desenvolve o processo. Se ocorrer um erro no processo de transformação, o usuário de dados pode não saber que há um problema e continuará a usar dados desatualizados ou errôneos em sua análise. Por outro lado, os engenheiros de dados normalmente não têm visibilidade sobre como as mudanças que incorporam no backend afetam os modelos dos analistas.

Produtos de dados, federação de dados e gerenciamento centralizado de metadados atuam como uma ponte entre engenheiros de dados e usuários de dados. Gerentes e produtores de produtos de dados facilitam melhor entendimento de requisitos, necessidades e preocupações entre engenheiros de dados e consumidores de dados.

Uma plataforma de produção de produtos de dados atua como um local central para colaboração, obtendo informações sobre a saúde dos produtos de dados e sua aplicação em casos de uso ou vários modelos. A chave para essa transparência é uma plataforma de governança federada que rastreia e gerencia políticas de governança em todos os domínios. Todos os participantes podem fornecer entradas e coletar dados sobre produtos de dados e os dados que os constituem, como:

  • Completude: contagem do número de registros com valores de dados incompletos ou nulos.
  • Validade: se os dados refletem a realidade ou o que você esperaria ver.
  • Oportunidade: quão atualizados os dados estão.
  • Linhagem: fonte dos dados e sua confiabilidade.
  • Precisão: medidas de precisão dos dados.
  • Unicidade: frequência de repetição de um valor.

O plano de controle de metadados está no centro desta plataforma, fornecendo transparência em metadados de toda a empresa. Uma plataforma de dados federada consolida dados de toda uma organização para fornecer maior visibilidade na qualidade e linhagem dos dados. Este repositório central também rastreia alterações de metadados na fonte para garantir que os analistas de dados possam adaptar seus modelos e análises adequadamente. Alertas automatizados são entregues aos usuários inscritos, informando-os sobre as alterações e a integridade dos dados com este sistema de rastreamento centralizado.

Contexto

Dados de alta qualidade são fundamentais para criar confiança nos dados, assim como fornecer o contexto correto em torno desses dados. A terminologia empresarial nem sempre é uniforme em todos os domínios. Se os usuários de dados estiverem confusos sobre o que um termo significa ou como os KPIs são calculados, ocorrerão erros e os usuários perderão a confiança. Os glossários de dados são extremamente úteis para garantir que os usuários entendam o significado dos dados com os quais estão trabalhando para evitar confusões e erros.

Descobertabilidade

A capacidade de encontrar o conjunto de dados certo para um projeto de análise também ajuda a construir confiança em seus ativos de dados. Avaliar métricas de saúde e qualidade em todos os conjuntos de dados a partir de um único painel de vidro permite que os analistas considerem múltiplas variáveis antes de adicionar um conjunto de dados à sua análise. Além disso, um mercado de produtos de dados que alavanca IA pode recomendar os melhores produtos de dados para os usuários. Essa capacidade cria confiança de que essas plataformas são projetadas para fornecer não apenas melhores dados, mas melhores resultados de negócios.

Na era dos dados e da IA, dependeremos cada vez mais dos dados que coletamos e nos quais baseamos nossas decisões. A capacidade de confiar na qualidade desses dados terá efeitos profundos nos resultados comerciais. Aqueles que tiverem sucesso farão da qualidade e integridade dos dados uma prioridade máxima.

Para saber mais sobre como criar produtos de dados confiáveis com a plataforma Avrio, agende uma demonstração.

Discover the Latest in Data and AI Innovation

  • Estratégias de integração e sincronização de dados em produtos de dados

    Read More

  • Como construir confiança com produtos de dados

    Read More

  • Ciclo de vida da saúde dos dados: estratégias de limpeza e transformação de dados

    Read More

Request a Demo TODAY!

Take the leap from data to AI