¿Qué es el linaje de datos?



Listen to this blog
Disclaimer

El linaje de datos es el proceso de registro y seguimiento de datos a lo largo de su ciclo de vida y es vital para la calidad de los datos. Para garantizar que los datos utilizados para respaldar decisiones comerciales críticas sean confiables, es necesario conocer su origen. Los datos cambian, se actualizan, se fusionan y se transforman constantemente. El linaje de datos documenta todos estos procesos, incluido quién cambió los datos, dónde se originaron y por qué se modificaron. A medida que los datos fluyen a través de los canales, se crean metadatos para alimentar las herramientas de linaje de datos que mapean las conexiones y crean visualizaciones de cómo se mueven los datos a lo largo de su ciclo de vida. El mapeo de las conexiones de datos proporciona información sobre cómo se conectan los datos ascendentes y descendentes. El linaje de datos proporciona un registro de auditoría de los datos.

Seguimiento del linaje a lo largo del ciclo de vida de los datos

Los datos de linaje se rastrean a través de múltiples etapas del ciclo de vida de los datos, que incluyen la recopilación, el procesamiento, el acceso, el almacenamiento, la consulta de datos y el análisis de datos. Comprender cómo y por qué se recopilan los datos de linaje en cada etapa permitirá una comprensión más completa del linaje de datos.

Recopilación

La primera etapa del linaje de datos comienza con la recopilación de datos. Una vez que los datos ingresan a un sistema, se debe documentar la fuente de los mismos. Los sistemas deben rastrear de dónde provienen los datos y la confiabilidad de la fuente. Deben registrar la validez y precisión de los datos y cualquier transformación o manipulación realizada en un conjunto de datos antes de ingresar a un nuevo sistema.

Tratamiento

Una vez que se han recopilado los datos, el linaje de datos debe realizar un seguimiento de cómo se agregan, transforman y manipulan. La probabilidad de errores que generan datos incorrectos es alta cuando se procesan, fusionan o filtran los datos. Es posible que estos errores no se identifiquen hasta que los usuarios posteriores accedan a los datos y los analicen, por lo que la documentación adecuada es esencial para realizar un seguimiento de cualquier fuente de errores. Un linaje eficaz requiere que se creen y almacenen metadatos para cada paso del procesamiento.

Acceso y almacenamiento

Una vez que los datos se procesan y almacenan, aún es necesario capturar los datos de linaje. Se requieren datos sobre quién accede a los datos para respaldar las auditorías de cumplimiento. Los datos pueden verse comprometidos si no se almacenan correctamente, por lo que rastrear cómo y dónde se almacenan también es esencial para el linaje de datos de extremo a extremo.

Consulta y análisis de datos

La captura de datos que detallan cómo se consultan y analizan los datos también es una capacidad importante a la hora de seguir una estrategia completa de linaje de datos. El linaje de datos no siempre tiene que ver con el seguimiento del estado de los datos, sino también con el rendimiento del sistema. Los datos sobre la rapidez y la eficiencia con que se realizan las consultas se pueden analizar para comprender dónde puede haber oportunidades de optimizar todo el proceso. Los administradores también pueden utilizar estos metadatos para comprender mejor cómo se utilizan los datos y predecir patrones de uso futuros para anticipar las necesidades de los usuarios.

Por qué es importante el linaje de datos

El seguimiento del linaje de los datos es un componente clave para ofrecer datos confiables. Comprender cómo se mueven los datos a través de diferentes sistemas y procesos y cómo se conectan los conjuntos de datos ayuda a los administradores a mantener los datos y los sistemas en buen estado. La capacidad de seguir cada etapa de la evolución de un conjunto de datos también es crucial para identificar las causas fundamentales de los errores de datos.

Al realizar un seguimiento de los cambios en cada fase del ciclo de vida y mapear cómo se relaciona cada uno de estos cambios, los solucionadores de problemas pueden rastrear errores en sentido ascendente para identificar la raíz del error. En muchos casos, los errores en los datos no se identifican hasta que el conjunto de datos se ha movido más abajo para su análisis. Las anomalías en los datos pueden indicar un cambio de tendencia, o podría ser simplemente un error en los datos. Conocer la diferencia es fundamental para no perder una oportunidad o evitar tomar decisiones basadas en datos erróneos. Rastrear un conjunto de datos desde el proceso de análisis hasta el momento en que se recopiló por primera vez brinda una confianza mucho mayor en el estado de las canalizaciones de datos. Identificar las causas raíz e implementar soluciones también ayudará a eliminar la posibilidad de que se repitan los mismos errores.

Comprender cómo se conectan los diferentes conjuntos de datos también ayuda a evitar errores desde el principio. La capacidad de rastrear las dependencias posteriores permite a los desarrolladores e ingenieros de datos predecir el impacto de los cambios en las aplicaciones y los modelos dependientes. Por ejemplo, un ingeniero de datos comprenderá las implicaciones de cambiar el esquema de la tabla antes de realizar un ajuste. Este conocimiento puede ayudarlo a encontrar una ruta diferente o editar aplicaciones posteriores para reflejar el cambio anterior y evitar errores o fallas.

Si tiene una forma de monitorear los procesos de datos en toda su pila de datos, tendrá un mecanismo para validar la precisión e integridad de sus datos. La capacidad de rastrear los datos hasta su origen permite a los tomadores de decisiones juzgar su validez. Este conocimiento es particularmente importante si los datos se originan fuera de la organización. ¿El grupo que creó un conjunto de datos está tan centrado en la calidad de los datos como los usuarios? Esta es una información valiosa si toma decisiones comerciales importantes basadas en estos datos.

Data Lineage ayuda a cumplir con las regulaciones al rastrear cómo y dónde se almacenan y se accede a los datos. Por ejemplo, el cumplimiento de las reglas de soberanía y privacidad de los datos permite saber si los datos se han trasladado a través de las fronteras de un país. Los programas de linaje de datos sólidos también son importantes para facilitar auditorías de cumplimiento rápidas. Con el linaje de datos, los administradores pueden verificar que los datos se hayan administrado adecuadamente en todo el flujo de datos de extremo a extremo.

Diferentes enfoques para gestionar el linaje de datos

Si bien el valor del linaje de datos de extremo a extremo puede ser evidente, no siempre es posible acceder a todos los metadatos relevantes. Existen algunos enfoques diferentes para analizar datos a fin de crear un linaje: basado en patrones, basado en etiquetas, autónomo y análisis.

Basado en patrones

Con el seguimiento del linaje de datos basado en patrones, el análisis de patrones en los metadatos revela el historial de un conjunto de datos. Este enfoque analiza los metadatos en tablas, columnas e informes para establecer conexiones. Si dos tablas tienen nombres y valores de datos similares, se puede suponer que son versiones diferentes de la misma tabla y se puede observar un vínculo en un mapa de linaje de datos. Este enfoque es independiente de la tecnología porque se centra en los patrones de datos y puede funcionar en cualquier sistema. Si bien el linaje de datos basado en patrones funciona bien con una cantidad menor de conjuntos de datos, puede no ser tan eficaz con relaciones de datos complejas.

Basado en etiquetas

Un enfoque basado en etiquetas aprovecha un motor de transformación para etiquetar los datos, lo que permite realizar un seguimiento de ellos a medida que avanzan por el proceso. Este enfoque es muy eficiente, pero solo funciona si se utiliza una herramienta uniforme para procesar y etiquetar los datos.

Autónomo

Este enfoque utiliza herramientas de gestión de datos maestros (MDM) para gestionar los metadatos de forma centralizada. Los metadatos creados por varios procesos del sistema se centralizan en una herramienta MDM que puede capturar datos de linaje. El desafío es que no se pueden rastrear los procesos que se realizan fuera del sistema y que no interactúan con la herramienta MDM.

Linaje por análisis

Este proceso funciona mediante ingeniería inversa de las transformaciones de datos. Al leer la lógica utilizada para transformar los datos, se puede deducir el linaje de los mismos. Se trata de un proceso complejo y se deben comprender bien todos los lenguajes y procesos utilizados para gestionar los datos en toda la pila de datos. Si bien es complejo, este proceso es el mejor para realizar un seguimiento del linaje de datos de extremo a extremo en todos los sistemas.

Mejores prácticas para gestionar el linaje de datos

Es importante centrarse en la tecnología y los metadatos relacionados con su estrategia de linaje de datos, pero sus esfuerzos serán en vano si los responsables de la toma de decisiones no los comprenden. Los datos de linaje deben ser comprensibles tanto para los usuarios comerciales como para los técnicos.

El linaje empresarial también debe considerarse como parte de su estrategia. Organice su linaje de datos con el contexto empresarial adecuado para que los usuarios empresariales puedan comprender cómo fluyen los datos a través de los procesos empresariales. Comprender qué datos fluyen a través de sus canales es tan importante como el linaje técnico que rastrea el cómo.

Linaje de datos en la creación y uso de productos de datos

El linaje de datos es vital para crear y utilizar productos de datos. Los productores de datos pueden auditar el linaje de datos para garantizar la confiabilidad de los datos que fluyen hacia su producto de datos. El linaje también puede ayudar a los productores de productos de datos a comprender las dependencias y relaciones entre los diferentes conjuntos de datos en sus productos de datos.

Los usuarios comerciales de productos de datos también pueden aprovechar el linaje de datos para comprender el flujo de datos y su origen. Esta información los ayuda a juzgar la validez de los datos y su aplicabilidad a determinados casos de uso. En el núcleo de los grandes productos de datos se encuentra un amplio catálogo de datos con sólidas capacidades de linaje de datos integradas. Los catálogos de datos ayudan a los productores de productos de datos a encontrar y acceder a los datos que necesitan, y los datos de linaje de datos proporcionan información valiosa sobre esos datos.

Las estrategias de linaje de datos son características esenciales de la pila de datos moderna. A medida que las cadenas de datos se vuelven cada vez más complejas, un programa de linaje de datos sólido será esencial para garantizar la calidad de los datos.

Discover the Latest in Data and AI Innovation

  • Blog

    Fomentar una cultura basada en datos

    Read More

  • E-book

    Datos no estructurados con la pila de datos moderna

    Read More

  • Blog

    Caso: Creación de una estrategia confiable de calidad de datos en la era de la IA

    Read More

Request a Demo TODAY!

Take the leap from data to AI