Observabilidad en productos de datos


No se puede gestionar ni optimizar lo que no se puede ver. Se necesita capacidad de observación para entender cómo funciona un sistema y si está funcionando de manera eficaz. Los productos de datos están ofreciendo un nuevo modelo de acceso a los datos, y quienes crean productos de datos deben realizar un seguimiento de su calidad y utilidad.

Se necesitan materias primas de calidad para crear productos de calidad. La calidad de los datos que se utilizan en los productos de datos es fundamental para el éxito de una estrategia de productos de datos. Para obtener resultados superiores es necesario realizar un seguimiento de la calidad de los datos desde el origen hasta el consumo y observar los sistemas de datos que gestionan el proceso.

Observabilidad de productos de datos

Muchas organizaciones están adoptando una estrategia de productos de datos que crea productos de datos reutilizables en lugar de crear un flujo de datos único para cada caso de uso. Los productos de datos son conjuntos de datos de fácil acceso que se crean una sola vez y se adaptan a múltiples casos de uso.

Un enfoque basado en productos de datos requiere que los ingenieros de datos piensen de manera más proactiva y consideren los resultados de los datos como productos. Esta estrategia se basa en que los creadores consideren las necesidades y los puntos débiles de sus usuarios. Para fundamentar las decisiones sobre las características de los productos, los productores necesitan información sobre cómo se utilizan sus productos de datos. Esta retroalimentación permite a los creadores mejorar su cartera actual y crear mejores productos de datos para el futuro.

La observabilidad de los productos de datos permite hacer un seguimiento de quiénes utilizan los distintos productos de datos y cómo los utilizan. Comprender los roles de los usuarios puede ayudar a los productores a entender mejor qué grupos obtienen el mayor valor de sus productos de datos y cuáles no. La comprensión de cómo se utilizan los productos de datos para respaldar modelos, paneles y análisis también puede ayudar a generar ideas innovadoras para nuevos productos de datos. Al comprender estas tendencias, los creadores de productos de datos podrán ser más proactivos, de modo que los datos estén listos para los usuarios cuando los necesiten.

Los productores de productos de datos también pueden mejorar sus productos mediante la recopilación de comentarios directos sobre los mismos. Crear una cultura de trabajo en equipo e implementar canales formales de comentarios de los usuarios es una excelente táctica para aumentar el valor. Implementar foros en los que los usuarios y los productores puedan interactuar, brindar comentarios, identificar problemas y sugerir nuevos productos de datos aumenta el valor del ecosistema de productos de datos.

El seguimiento de los costos y las operaciones financieras son otro componente vital de la observabilidad de los productos de datos. ¿Los productos de datos utilizan los recursos de la nube de manera eficiente? ¿Se podrían optimizar para reducir los recursos? Este tipo de seguimiento de datos es fundamental para una estrategia de productos de datos rentable. Identificar qué productos de datos consumen más memoria es un ejemplo de observabilidad de costos.

Los mecanismos que brindan visibilidad de los productos de datos también deben extenderse a todos los dominios de la empresa. Por lo general, los productores y usuarios no suelen interactuar regularmente con los gerentes y analistas de las diferentes unidades de negocio. Esta separación limita el valor y la amplitud que puede ofrecer un producto de datos. Un foro central para que todos se reúnan virtualmente es fundamental para lograr una mayor participación y visibilidad de los productos de datos.

Los productores de datos son componentes fundamentales de las estrategias de productos de datos y también se debe hacer un seguimiento de su productividad. ¿Quién crea la mayor cantidad de productos de datos y en qué dominio se obtiene una mayor visibilidad de la eficacia de su personal?

Si bien el seguimiento del uso de los productos de datos es importante para el éxito, también lo es garantizar que los productos de datos sean confiables. Para que los productos de datos sean confiables, los analistas y los usuarios deben poder observar su calidad. Esto podría incluir el seguimiento de métricas sobre coincidencias difusas, sensibilidad de los datos e identidad referencial.

Coincidencia difusa

Esta prueba mide las similitudes entre distintas filas de productos de datos. Esta prueba rastrea la probabilidad de que existan filas duplicadas en un producto de datos. La prueba no identifica coincidencias exactas, pero señala similitudes que requieren una investigación adicional para evitar la duplicación. Esta prueba es útil cuando se unen varios conjuntos de datos en un producto de datos que pueden tener datos duplicados similares.

Sensibilidad de los datos

Esta prueba mide la integridad de los datos en el producto de datos. Esta prueba cuenta la cantidad de filas de una tabla en el producto de datos y la compara con un estándar de referencia. Una prueba de integridad determinará si este número está dentro del rango especificado. Si el número no es correcto, es posible que falten datos o que se hayan insertado o duplicado datos erróneos.

Identidad referencial

Esta prueba verifica si la clave de una tabla secundaria coincide con la clave principal de la tabla principal. Si las claves cambian en las tablas principales, esta prueba también garantizará que el cambio se refleje en las tablas secundarias.

Los datos de linaje también brindan una mayor comprensión de la confiabilidad de los productos de datos. Los usuarios pueden ver la fuente de los datos en un producto de datos y juzgar la calidad. Si los datos provienen de fuentes confiables, los tomadores de decisiones pueden estar seguros de que están accediendo a datos de calidad dentro de los productos de datos.

Observar y probar los productos de datos de esta manera ayuda a garantizar que solo ofrece productos de datos de la mejor calidad a sus usuarios. Los puntajes de confianza que resumen las métricas de calidad y los comentarios de los usuarios son una excelente manera de que los usuarios de productos de datos tengan cierta visibilidad sobre la calidad de los productos de datos.

Observabilidad de datos

Observar el funcionamiento de los productos de datos es importante, pero también es imprescindible tener visibilidad de los sistemas que producen datos para dichos productos. Las organizaciones deben contar con estrategias para supervisar, comprender y solucionar problemas relacionados con los datos y los sistemas que los producen y almacenan. Las organizaciones deben poder observar varios factores importantes que respaldan la integridad de los datos. Estos factores incluyen la frescura, la calidad, el volumen, el esquema y el linaje.

Frescura

La actualidad representa el tiempo transcurrido desde que se actualizaron los datos. Los datos obsoletos son de baja calidad y no son confiables.

Calidad

La calidad rastrea el valor y la exactitud. Las pruebas de datos de calidad pueden ayudarlo a obtener una mejor observabilidad de sus datos. Métricas como,

  • Completitud: esta métrica rastrea cuántos valores nulos o valores "0" hay en un conjunto de datos
  • Unicidad: esta métrica rastrea el porcentaje de valores únicos en una columna en particular. Si la unicidad es alta, tiene un número mínimo de duplicados.
  • Validez: esta prueba garantiza la validez de los datos comparando los patrones de datos del conjunto de datos con los patrones de datos esperados. Por ejemplo, si no es posible encontrar números negativos, las pruebas de validez medirían la cantidad de números no negativos.
Volumen

Las pruebas de volumen cuentan la cantidad de filas en su conjunto de datos. Si hay muy pocas o demasiadas, esto puede indicar un problema. Las pruebas que miden el volumen incluyen:

  • Sensibilidad de los datos: compara la cantidad de filas de una tabla con una referencia y mide si está dentro del rango.
  • Longitud de columna válida: esta prueba garantiza que tenga la longitud de columna correcta o que esté dentro de un rango específico.
Esquema

El esquema define la organización de los datos. Si se modifica esta organización, pueden producirse errores. Realizar un seguimiento de quién realizó cambios en el esquema de datos y cuándo es fundamental para realizar un seguimiento del estado de los datos.

Linaje

El linaje detalla cómo se conectan los activos de datos y cómo se relacionan las tablas de datos. También rastrea el flujo desde la fuente de datos hasta el consumo. Cuando hay problemas, debe poder observar el linaje de datos para rastrear las causas fundamentales.

¿Por qué es importante?

Observar los datos en toda la pila de datos es esencial para mantenerlos limpios. Identificar errores con prontitud reduce la posibilidad de que puedan causar daños. Si los responsables de la toma de decisiones reciben datos incorrectos, los directivos pierden la confianza en la integridad de los datos de la empresa. Esta pérdida de confianza reduce la capacidad de las organizaciones para tomar decisiones. Una vez que se pierde la confianza, es difícil recuperarla.

Las buenas soluciones de observación de datos no solo identificarán errores, sino que también ayudarán a identificar la fuente de estos errores. Estas herramientas pueden ayudar a reducir el tiempo medio de resolución de errores e identificar cuellos de botella para optimizar la funcionalidad del sistema.

Desafíos

Obtener una observabilidad de extremo a extremo en toda la pila de datos puede ser un desafío. Las complejas canalizaciones de datos y los silos de datos distribuidos dificultan la observación de los datos a medida que se mueven por los sistemas de datos. Es posible que distintos departamentos y equipos de datos utilicen distintas herramientas para observar los datos en su dominio, lo que hace que la observabilidad consistente en todos estos silos sea mucho más difícil. Esta fragmentación también dificulta el seguimiento de las causas fundamentales de los errores en diferentes sistemas y canalizaciones.

Federación de datos y gestión de metadatos

La aparición de la federación de datos y de herramientas sólidas de gestión de metadatos consolidados está ayudando a conectar la visibilidad de los datos entre estos silos de datos. La federación de datos vincula cada silo de datos a una base de datos de gestión de metadatos centralizada. Los metadatos rastrean información sobre conjuntos de datos como el esquema, la actualidad y el volumen, componentes clave de la observabilidad de los datos. La centralización de estos datos permite la observabilidad entre los silos de datos, lo que es mucho más difícil en una canalización ETL donde los datos pueden hacer varias paradas y los metadatos de la fuente original pueden no cargarse en las bases de datos de destino.

Las innovaciones en la gestión de metadatos también incorporan la automatización para registrar automáticamente los cambios en los metadatos cuando se producen cambios en los datos de origen. Estos datos se rastrean en una plataforma central, que puede facilitar una mejor generación de informes y resolución de errores.

La observabilidad es fundamental para obtener productos de datos valiosos y de calidad. En una era en la que los datos impulsan cada vez más nuestra toma de decisiones y alimentan la inteligencia artificial, realizar un seguimiento del estado de nuestros datos y sistemas es vital para aprovechar al máximo este recurso.

Discover the Latest in Data and AI Innovation

  • Blog

    Fomentar una cultura basada en datos

    Read More

  • E-book

    Datos no estructurados con la pila de datos moderna

    Read More

  • Blog

    Caso: Creación de una estrategia confiable de calidad de datos en la era de la IA

    Read More

Request a Demo TODAY!

Take the leap from data to AI