La creciente adopción de la democratización de los datos está creando nuevos marcos y tecnologías para compartir datos entre silos de datos. Estas estrategias están reduciendo la fricción que supone compartir datos entre dominios empresariales y el acceso a los datos se está volviendo cada vez más sencillo. Uno de los principales desafíos de la integración de datos es trabajar con modelos de datos dispares que describen bases de datos y conjuntos de datos diversos de formas únicas.
El enfoque tradicional para fusionar conjuntos de datos consistía en extraer un conjunto de datos de su base de datos, transformarlo y cargarlo en otra base de datos para que coincidiera con la estructura de datos de esa base de datos. Para realizar el proceso ETL, los ingenieros de datos deben comprender los aspectos técnicos de mover y transformar datos, además de organizar y etiquetar cada conjunto de datos. Su comprensión de cómo se modelan los dos conjuntos de datos es muy importante para garantizar que se puedan mapear juntos en uno solo.
La tecnología de virtualización de datos moderna proporciona un mayor acceso a fuentes de datos dispares al abstraer los datos de su estructura subyacente, simplificando el proceso y eliminando la necesidad de ETL. Si bien esta tecnología es poderosa, no proporciona una forma uniforme de acceder a los datos.
La virtualización de datos proporciona una única interfaz o capa de conectividad que permite el acceso a datos distribuidos desde un único lugar. Pero para entender lo que significan los datos, los analistas deben seguir confiando en cada modelo de datos independiente de cada base de datos para obtener contexto. Para un análisis eficaz, necesitamos entender qué representan los datos de cada sistema y cómo se relacionan entre sí. Estos conocimientos requieren una estrategia de federación de datos eficaz que estandarice la forma en que accedemos a los diferentes almacenes de datos. Un modelo de datos unificado que mapee los datos y las relaciones entre los silos de datos es un componente crucial. Para un acceso aún más sencillo, un glosario empresarial que mapee estas relaciones con los términos empresariales puede hacer que este modelo de datos sea aún más valioso al aumentar su accesibilidad para los líderes empresariales y los tomadores de decisiones.
Un modelo de datos federado se basa en metadatos extraídos de los sistemas de origen conectados y fusionados en una estructura de datos lógica uniforme. Cuando los datos se organizan en torno a un único modelo de datos, las plataformas de datos pueden interactuar con todas las bases de datos heterogéneas como si fueran una sola. Con este enfoque, puede extraer datos de varios sistemas con una consulta federada. Esta capacidad ahorra una cantidad sustancial de tiempo a los ingenieros de datos y analistas expertos a la hora de integrar datos y crear activos y productos de datos.
Abstraer la lógica de la capa física también facilita el análisis de datos de autoservicio, ya que las herramientas son menos complejas y no necesitan interactuar con múltiples estructuras de bases de datos subyacentes.
En una estrategia de datos federados, los metadatos se utilizan para crear un catálogo de datos global o federado para acceder a los datos. Este catálogo de datos aprovecha el repositorio de metadatos central para crear un inventario de recursos de datos que se pueda buscar para que los analistas creen consultas de datos federados.
Un catálogo de datos federado permite realizar búsquedas en todos sus activos de datos. También puede consolidar el linaje para que los usuarios y administradores de datos puedan comprender cómo se modificaron los datos en el pasado.
Una estrategia de datos federados también puede gestionar quién tiene acceso a qué datos. En lugar de gestionar el acceso a cada base de datos de forma individual o aplicar reglas uniformes a todas las bases de datos, un catálogo de datos federados puede actuar como una puerta de enlace de seguridad para gestionar la identidad en un solo lugar. Además, admite el acceso autorizado a todos los activos de datos.
Con un catálogo de datos estandarizado, crear capacidades de autoservicio es mucho menos complejo. Las plataformas de autoservicio pueden automatizar el proceso de acceso a los datos, pero con una terminología más uniforme. Como los usuarios comerciales saben qué datos están buscando, son mucho más autosuficientes. Un modelo más simple también ayuda a la IA a comprender mejor cómo acceder a los datos. Un conjunto consolidado y estandarizado de semántica de datos que define de manera uniforme los elementos de datos facilita que un modelo LLM traduzca las solicitudes de datos en una consulta SQL, utilizando terminología empresarial.
Si bien un modelo de datos federado es ideal para crear consultas de datos individuales en distintas fuentes de datos, estos modelos no suelen estar orientados a los usuarios comerciales. Los glosarios comerciales son particularmente importantes cuando se federan datos en distintos dominios y regiones, ya que los términos comerciales a veces se definen de manera diferente en cada dominio comercial. La terminología también difiere entre regiones.
Por ejemplo, “facturación” en el Reino Unido frente a “ingresos” en los EE. UU. Ambos términos significan lo mismo en el modelo de datos, pero cada región utiliza un léxico diferente. Un glosario empresarial detallado que define con precisión los términos empresariales y sus sinónimos facilita la búsqueda de los datos y la comprensión de su significado, especialmente para los responsables de la toma de decisiones orientadas a los negocios.
En el pasado, los glosarios empresariales existían en documentos independientes que definían cada término. Hoy en día, los glosarios empresariales están conectados a diccionarios y catálogos de datos, lo que permite que los usuarios puedan acceder a ellos automáticamente con solo usar términos empresariales. Esta mejora permite a los usuarios empresariales acceder a los datos libremente en la organización con solo comprender los términos empresariales que describen los datos que buscan.
Esta capacidad crea una única fuente de verdad para términos comerciales, definiciones y metadatos asociados.
Esta función organiza los términos empresariales en taxonomías o jerarquías estructuradas. La categorización jerárquica permite a los usuarios explorar términos y conceptos relacionados, lo que promueve una comprensión más profunda del dominio de la organización.
En ocasiones, los términos comerciales de los glosarios se pueden asignar automáticamente a los activos de datos, lo que vincula los metadatos técnicos con el contexto comercial relevante. Este proceso de asignación automática ayuda a normalizar los metadatos técnicos al agregar esencia comercial a cada activo de datos, lo que mejora su relevancia y facilidad de uso.
Esta capacidad conecta los términos comerciales con los metadatos técnicos. El glosario comercial ayuda a estandarizar la terminología en los conjuntos de datos. La normalización de los metadatos técnicos garantiza la coherencia en las descripciones de los datos, lo que facilita a los usuarios la interpretación y el análisis de la información.
El glosario empresarial debe crearse de arriba hacia abajo, en consonancia con los requisitos de la empresa. Una excelente manera de crear un glosario empresarial es utilizar la terminología estándar existente en la industria. Este enfoque le proporcionará una base sólida y facilitará un mejor intercambio de datos con terceros. También puede utilizar una estructura de taxonomía jerárquica para crear su glosario empresarial, lo que le ayudará a organizar y clasificar los datos de forma más eficaz.
Dado que cada dominio tiene sus propios glosarios y modelos lógicos empresariales, pueden surgir conflictos en torno a cómo los distintos grupos empresariales interpretan los términos y los datos cuando se fusionan. Disponer de un recurso para gestionar estos desacuerdos es parte integral de un glosario de datos universal que funcione correctamente.
Los administradores de datos también pueden ser útiles para etiquetar los activos de datos para designar su valor o señalar problemas de calidad de los datos. Si bien los administradores de datos pueden tomar la iniciativa en la clasificación de datos, clasificarlos correctamente para que sean más accesibles y fáciles de descubrir es responsabilidad de todos cuando interactúan con los activos de datos. La IA puede ayudar a respaldar este proceso en toda la organización. La IA puede aprender de los modelos de datos existentes y sugerir designaciones de clasificación si surge un conflicto o incertidumbre.
Un modelo de datos unificado y un glosario empresarial pueden ser un recurso enorme para alinear los datos empresariales y la empresa en sí. A medida que los diferentes dominios piensan en los datos de manera más uniforme y se comunican de manera más coherente, la toma de decisiones puede ser más colaborativa y eficiente, ya que la terminología y las métricas empresariales están estandarizadas.
La IA será cada vez más importante para facilitar catálogos de datos y glosarios empresariales eficientes. A medida que los modelos de IA se vuelvan más eficaces, comprenderán mejor los activos de datos de toda la organización. Con la ayuda de la IA, los analistas tendrán un copiloto que los ayudará a encontrar el conjunto de datos exacto que les permita obtener las respuestas que necesitan.
Unificar el acceso a los datos y abstraer los metadatos de los datos reales permite una mayor agilidad en la utilización de los datos. Un catálogo de datos unificado permite encontrar y acceder a los datos de forma mucho más rápida y eficiente. Con esta capacidad, las preguntas empresariales se pueden responder de forma más rápida y eficaz. Cuanto más rápido puedan tomar decisiones de calidad las organizaciones, más competitivas serán en el mercado.
La creciente demanda de datos crea un entorno en el que la replicación de datos donde sea necesario a través de canales ETL es insostenible. Un modelo que consolida la información sobre dónde se almacenan los datos y cómo acceder a ellos es mucho más escalable. Las estrategias de datos federados que gestionan los metadatos y el contexto en torno a los datos proporcionan la flexibilidad y la agilidad necesarias para el futuro.