Unificando o Modelo de Dados e o Glossário de Negócios



Listen to this blog
Disclaimer

A crescente adoção da democratização de dados está criando novas estruturas e tecnologias para compartilhar dados entre silos de dados. Essas estratégias estão reduzindo o atrito do compartilhamento de dados entre domínios de negócios, e o acesso aos dados está se tornando fácil. Um dos principais desafios com a integração de dados é trabalhar com modelos de dados díspares que descrevem diversos bancos de dados e conjuntos de dados de maneiras únicas.

A abordagem tradicional para mesclar conjuntos de dados era extrair um conjunto de dados de seu banco de dados, transformá-lo e carregá-lo em outro banco de dados para corresponder à estrutura de dados desse banco de dados. Para executar o processo ETL, os engenheiros de dados precisam entender os aspectos técnicos de mover e transformar dados, além de organizar e rotular cada conjunto de dados. Sua compreensão de como os dois conjuntos de dados são modelados é muito importante para garantir que eles possam ser mapeados juntos em um.

A tecnologia moderna de virtualização de dados fornece maior acesso a fontes de dados díspares ao abstrair dados de sua estrutura de dados subjacente, simplificando o processo e eliminando a necessidade de ETL. Embora essa tecnologia seja poderosa, ela não fornece uma maneira uniforme de acessar dados.

A virtualização de dados fornece uma única interface ou camada de conectividade que permite o acesso a dados distribuídos de um só lugar. Mas para entender o que os dados significam, os analistas ainda devem confiar em cada modelo de dados separado para cada banco de dados para obter contexto. Para uma análise eficaz, precisamos entender o que os dados em cada sistema representam e como eles se relacionam entre si. Esses insights exigem uma estratégia de federação de dados eficaz que padronize como acessamos diferentes armazenamentos de dados. Um modelo de dados unificado que mapeia dados e relacionamentos em silos de dados é um componente crucial. Para um acesso ainda mais fácil, um glossário de negócios que mapeia esses relacionamentos para termos de negócios pode tornar esse modelo de dados ainda mais valioso, aumentando sua acessibilidade a líderes de negócios e tomadores de decisão.

O modelo de dados federados

Um modelo de dados federado é baseado em metadados extraídos dos sistemas de origem conectados e mesclados em uma estrutura de dados lógica uniforme. Quando os dados são organizados em torno de um único modelo de dados, as plataformas de dados podem interagir com todos os seus bancos de dados heterogêneos como se fossem um. Usando essa abordagem, você pode extrair dados de vários sistemas com uma consulta federada. Esse recurso economiza uma quantidade substancial de tempo para engenheiros de dados e analistas qualificados ao integrar dados e criar ativos de dados e produtos de dados.

Abstrair a lógica da camada física também facilita a análise de dados self-service, pois as ferramentas são menos complexas e não precisam interagir com diversas estruturas de banco de dados subjacentes.

Catálogo de Dados Federados

Em uma estratégia de dados federados, metadados são usados para criar um catálogo de dados global ou federado para acessar os dados. Este catálogo de dados aproveita o repositório central de metadados para criar um inventário pesquisável de ativos de dados para analistas construírem as consultas de dados federados.

Um catálogo de dados federados permite pesquisas em todos os seus ativos de dados. Ele também pode consolidar a linhagem para que usuários e administradores de dados possam entender como os dados foram alterados no passado.

Uma estratégia de dados federados também pode gerenciar quem tem acesso a quais dados. Em vez de gerenciar o acesso em cada banco de dados individualmente ou aplicar regras uniformes a todos os bancos de dados, um catálogo de dados federados pode atuar como um gateway de segurança para gerenciar identidade em um só lugar. Além disso, ele oferece suporte ao acesso autorizado a todos os ativos de dados.

Com um catálogo de dados padronizado, criar recursos de autoatendimento é muito menos complexo. Plataformas de autoatendimento podem automatizar o processo de acesso a dados, mas com terminologia mais uniforme. Como os usuários empresariais sabem quais dados estão procurando, tornando-os muito mais autossuficientes. Um modelo mais simples também ajuda a IA a entender melhor como acessar dados. Um conjunto consolidado e padronizado de semântica de dados que define uniformemente os elementos de dados torna mais fácil para um modelo LLM traduzir solicitações de dados em uma consulta SQL, usando terminologia empresarial.

Glossário de negócios unificado

Embora um modelo de dados federado seja ótimo para criar consultas de dados únicas em fontes de dados, esses modelos normalmente não são voltados para usuários empresariais. Glossários empresariais são particularmente importantes ao federar dados em domínios e regiões, pois os termos empresariais às vezes são definidos de forma diferente em cada domínio empresarial. A terminologia também difere entre regiões.

Por exemplo, “Turnover” no Reino Unido vs. “revenues” nos EUA. Ambos os termos significam a mesma coisa no modelo de dados, mas cada região usa um léxico diferente. Um glossário de negócios detalhado que define precisamente os termos de negócios e seus sinônimos torna mais fácil encontrar os dados e entender seu significado, especialmente para tomadores de decisão orientados para os negócios.

No passado, os glossários de negócios existiam em documentos autônomos que definiam cada termo. Hoje, os glossários de negócios são conectados a dicionários de dados e catálogos de dados, tornando-os automaticamente acessíveis para os usuários obterem os dados usando apenas termos de negócios. Essa melhoria permite que os usuários de negócios acessem dados livremente na organização com apenas uma compreensão dos termos de negócios que descrevem os dados que eles buscam.

Os glossários empresariais modernos incluem:

Repositório centralizado
Repositório centralizado

Esse recurso cria uma única fonte de verdade para termos comerciais, definições e metadados associados.

Taxonomia estruturada
Taxonomia estruturada

Esta funcionalidade organiza termos de negócios em taxonomias ou hierarquias estruturadas. A categorização hierárquica permite que os usuários explorem termos e conceitos relacionados, promovendo uma compreensão mais profunda do domínio da organização.

Atribuição Automática
Atribuição Automática

Às vezes, termos comerciais de glossários podem ser atribuídos automaticamente a ativos de dados, vinculando metadados técnicos com contexto comercial relevante. Esse processo de atribuição automática ajuda a normalizar metadados técnicos adicionando essência comercial a cada ativo de dados, aprimorando sua relevância e usabilidade.

Normalização
Normalização de metadados técnicos

Esse recurso conecta termos comerciais com metadados técnicos. O glossário comercial ajuda a padronizar a terminologia em conjuntos de dados. A normalização de metadados técnicos garante consistência nas descrições de dados, facilitando a interpretação e a análise de informações pelos usuários.

Padronizando um Glossário Empresarial

O glossário de negócios deve ser construído de cima para baixo, alinhando-se com os requisitos do negócio. Uma excelente maneira de criar seu glossário de negócios é usando a terminologia padrão existente do setor. Essa abordagem lhe dará uma base sólida e facilitará o compartilhamento aprimorado de dados com terceiros. Você também pode utilizar uma estrutura de taxonomia hierárquica para construir seu glossário de negócios, o que ajudará a organizar e classificar os dados de forma mais eficaz.

Gestão de conflitos de interpretação de dados

Com cada domínio tendo seus próprios glossários de negócios e modelos lógicos, conflitos podem surgir em torno de como diferentes grupos de negócios interpretam termos e dados, quando mesclados. Ter um recurso para gerenciar essas divergências é parte integrante de um glossário de dados universal que funcione bem.

Os administradores de dados também podem ser úteis na marcação de ativos de dados para designar seu valor ou sinalizar problemas de qualidade de dados. Embora os administradores de dados possam assumir a liderança na classificação de dados, classificar corretamente os dados para que sejam mais acessíveis e detectáveis é responsabilidade de todos ao interagir com ativos de dados. A IA pode ajudar a dar suporte a esse processo em toda a organização. A IA pode aprender com modelos de dados existentes e sugerir designações de classificação se surgirem conflitos ou incertezas.

Um modelo de dados unificado e um glossário de negócios podem ser um grande trunfo no alinhamento dos dados de negócios e do próprio negócio. À medida que diferentes domínios pensam sobre dados de forma mais uniforme e se comunicam de forma mais consistente, a tomada de decisões pode ser mais colaborativa e eficiente, pois a terminologia e as métricas de negócios são padronizadas.

Aplicação de IA para Catálogo Inteligente de Dados

A IA será cada vez mais importante para facilitar catálogos de dados eficientes e glossários de negócios. À medida que os modelos de IA se tornam mais eficazes, eles obterão uma melhor compreensão dos ativos de dados em sua organização. Com a assistência da IA, os analistas terão um copiloto para ajudá-los a encontrar o conjunto de dados exato que os permite obter as respostas de que precisam.

Unificar o acesso a dados e abstrair metadados dos dados reais permite maior agilidade na utilização de dados. Um catálogo de dados unificado torna a localização e o acesso a dados muito mais rápidos e eficientes. Perguntas de negócios podem ser respondidas mais rápida e efetivamente com esse recurso. Quanto mais rápido as organizações puderem tomar decisões de qualidade, mais competitivas elas serão no mercado.

A crescente demanda por dados cria um ambiente em que replicar dados onde quer que sejam necessários por meio de pipelines ETL é insustentável. Um modelo que consolida informações sobre onde os dados são armazenados e como acessá-los é muito mais escalável. Estratégias de dados federados que gerenciam metadados e o contexto em torno dos dados fornecem a flexibilidade e a agilidade necessárias para o futuro.

Discover the Latest in Data and AI Innovation

  • Blog

    Promover uma cultura baseada em dados

    Read More

  • E-book

    Dados não estruturados com a pilha de dados moderna

    Read More

  • Blog

    Caso - Construindo uma estratégia confiável de qualidade de dados na era da IA

    Read More

Request a Demo TODAY!

Take the leap from data to AI