Semântica universal é a chave para dados de autoatendimento



Listen to this blog
Disclaimer

Os dados precisam de contexto; sem ele, os dados são apenas palavras e números. Para que os dados tenham valor, as pessoas precisam entender o que eles representam. As pessoas precisam de contexto. Para entender melhor os dados, os analistas também precisam saber detalhes sobre quando, onde e como eles foram coletados. Em muitos casos, isso pode ser matizado e conflitante. Os dados foram coletados em Massachusetts ou nos Estados Unidos? Eles foram coletados no primeiro trimestre do calendário ou no primeiro trimestre fiscal?

A semântica de dados fornece esse contexto e é um componente essencial da sua pilha de dados. A camada de semântica fornece uma visão lógica dos dados, facilitando o trabalho dos empresários com eles. Ela traduz a estrutura técnica de dados em terminologia que os usuários empresariais podem entender.

Os principais componentes da camada semântica são:

Catálogo de Dados
Catálogo de Dados

O catálogo de dados é um inventário dos ativos de dados de uma organização, descrevendo-os para que os profissionais de dados possam encontrar facilmente o que precisam.

Dicionário de Dados
Dicionário de Dados

O dicionário de dados define a estrutura de dados da organização, o significado e o uso de elementos de dados.

Glossário de negócios
Glossário de negócios

O glossário de negócios define termos, conceitos e regras de negócios comumente usados.

Semântica Fragmentada

Como a semântica é tão importante, ela vive em toda a organização. Camadas semânticas evoluíram ao longo dos anos e foram implementadas em vários lugares, cada uma com padrões exclusivos. Essa falta de definições e contexto uniformes dificulta que os consumidores de dados acessem os dados de que precisam de forma padronizada, criando paredes e silos de dados.

A camada semântica é normalmente criada para o ambiente no qual será implantada. Embora possa ser ótima para servir ao propósito para o qual foi criada, a fragmentação semântica é um abismo crescente que prejudica o compartilhamento de dados.

Por exemplo, ferramentas de BI têm camadas semânticas únicas, cada uma com suas próprias definições de dados. A organização típica usa quase quatro ferramentas de BI diferentes, tornando a colaboração entre departamentos bastante desafiadora.

Camadas semânticas também são programadas em pipelines de dados muito rígidos, exigindo que um desenvolvedor execute quaisquer alterações. Conforme os requisitos do pipeline mudam, os programadores, que normalmente não entendem completamente o contexto dos dados, precisam implementar atualizações. O contexto dos dados geralmente fica distorcido nesse processo, tornando-o cada vez mais inconsistente com outros pipelines e ferramentas.

Os data warehouses também têm suas próprias camadas semânticas integradas aos datamarts que ficam em cima deles. Elas são tipicamente exclusivas para cada data warehouse ou grupo que mantém o datamart. Essa fragmentação torna desafiador compartilhar dados com colegas de outros departamentos que podem não entender as nuances do modelo de dados.

Armazéns de dados

As organizações têm usado data lakes para reunir dados em um só lugar, facilitando o acesso. Ainda assim, a disparidade entre modelos de dados continua sendo uma barreira para a integração e o compartilhamento de dados. Mesmo que os dados possam estar no mesmo lugar em um data lake, sem as mesmas definições de dados, não é fácil comparar maçãs com maçãs. Por exemplo, alguns conjuntos de dados podem considerar um cliente um indivíduo em comparação a outros que podem categorizar um cliente como uma empresa. Isso realmente depende do contexto de como e por que os dados foram coletados. A semântica de cada conjunto de dados deve ser normalizada para analisar os dados compartilhados adequadamente.

O desafio de gerenciar um ecossistema semântico fragmentado só aumentará à medida que os dados se tornarem mais críticos e o mundo continuar coletando o máximo possível.

Fragmentação domesticada com virtualização de dados e camada de semântica universal

A virtualização de dados e uma camada semântica universal podem controlar a fragmentação semântica e permitir maior compartilhamento de dados e autoatendimento.

Uma camada de semântica universal é uma única fonte de verdade que traduz dados em termos comerciais uniformemente. Ela é independente de plataforma e não está vinculada a um pipeline, ferramenta ou warehouse, mas foi projetada para ficar entre ativos de dados brutos e ferramentas de análise. Para que a semântica universal funcione, as ferramentas de virtualização de dados devem separar os metadados e a semântica do plano de dados. Essa abordagem permite que os analistas trabalhem com uma representação dos dados enquanto os dados originais permanecem no sistema de origem, e os analistas interagem com eles por meio de um modelo de dados uniforme. Enquanto os dados permanecem no local, os metadados são consolidados em uma única fonte e organizados em um único conjunto de semântica. Quando uma camada de semântica universal é habilitada pela virtualização de dados, os analistas de repente têm uma única visão de dados comerciais fáceis de entender que podem consultar, não importa onde estejam. Essa uniformidade permite que uma única consulta de dados acesse vários armazenamentos de dados simultaneamente, elevando a descoberta de dados para o próximo nível. Com a complexidade do armazenamento de dados e a inconsistência da sintaxe de dados abstraídas, usuários menos técnicos podem acessar os dados de que precisam sem depender de especialistas para encontrar os dados e explicar seu significado.

A virtualização de dados também elimina muitas das tecnologias que impulsionam a fragmentação semântica. Os dados podem ser consultados diretamente da fonte, então há menos dependência de pipelines de dados com semântica integrada. Ao alavancar a virtualização e um modelo de dados uniforme, as plataformas de BI podem acessar dados da fonte, ignorando a semântica nativa. Os datamarts também não são mais necessários.

Quando catálogos de dados, dicionários de dados e glossários de negócios são consolidados em uma única plataforma, os consumidores de dados podem descobrir e acessar conjuntos de dados de toda a organização. Essa capacidade cria muitas novas oportunidades para melhorar a tomada de decisões orientada por dados.

Semântica e o Futuro da Gestão de Dados

Semântica unificada e dados virtualizados são componentes críticos de estratégias emergentes de gerenciamento de dados modernos, como malha de dados e tecidos de dados. Essas estratégias e tecnologias estão conectando a última milha, tornando os dados muito mais acessíveis aos consumidores de dados. Elas permitem novos canais de consumo e descoberta, como produtos de dados ou gráficos de conhecimento.

Com uma camada semântica consolidada, os humanos não só conseguem entender melhor todos os dados dentro e ao redor de sua organização, mas também facilita para as máquinas. Os recursos de pesquisa semântica permitem que você pesquise produtos de dados com base em linguagem e termos comerciais. Quando a Gen AI pode analisar um único repositório de metadados acessível, ela pode aprender a recuperar dados com comandos de linguagem simples. Combinando isso com a IA que pode criar visualizações automaticamente, a oportunidade de reduzir o trabalho analítico tedioso é revolucionária.

Discover the Latest in Data and AI Innovation

  • Estratégias de integração e sincronização de dados em produtos de dados

    Read More

  • Como construir confiança com produtos de dados

    Read More

  • Ciclo de vida da saúde dos dados: estratégias de limpeza e transformação de dados

    Read More

Request a Demo TODAY!

Take the leap from data to AI