La definición de malla de datos: ¿Qué es y por qué necesito una?

Listen to this blog

Disclaimer

Los datos son de vital importancia para la toma de decisiones en cualquier empresa. Pero cuando los responsables de la toma de decisiones tienen que esperar a que el departamento de TI cree un canal de datos para acceder a ellos, se pierden oportunidades y las decisiones no son óptimas. Este es el desafío al que se enfrentan la mayoría de las grandes empresas que intentan basarse más en los datos para mejorar su rendimiento.

Uno de los mayores desafíos de la gestión de datos es que la tecnología de ayer no puede satisfacer la creciente demanda de datos de hoy. El enfoque ETL tiene décadas de antigüedad y las estructuras de gobernanza centralizadas que funcionaban en épocas más sencillas simplemente no pueden escalar para satisfacer la complejidad de la era de la IA.

Están empezando a aparecer en el mercado enfoques innovadores más distribuidos, ágiles y flexibles. Una estrategia de malla de datos es un ejemplo.

¿Qué es una malla de datos?

Una malla de datos es una estrategia de integración de datos moderna. Se basa en una arquitectura de datos distribuida que se aleja del almacenamiento y la gestión de datos centralizados y consolidados para adoptar un enfoque más compartido y federado. Es una alternativa a las canalizaciones de datos ETL y los lagos de datos que se basan en arquitecturas monolíticas y dependen de numerosas dependencias.

La arquitectura de malla de datos es más que una tecnología, es una estrategia integral que incorpora cambios en los roles de los contribuyentes dentro de la gestión y el consumo de datos. Hay 4 pilares de una estrategia de malla de datos. Una verdadera estrategia de malla de datos debe

Ser impulsado por el dominio

Aproveche la gobernanza de datos federada

Tratar los datos como un producto

Ser autoservicio

Arquitectura basada en dominios

La arquitectura de malla de datos redistribuye más comando y control sobre los datos a dominios independientes. Los dominios son grupos que participan en una función empresarial específica. Puede tratarse de una operación regional, una línea de negocio o una función empresarial como ventas, marketing, recursos humanos o finanzas.

Estos dominios recopilan una cantidad significativa de datos mientras llevan a cabo sus operaciones comerciales diarias. El enfoque basado en dominios pone más responsabilidad de control y gestión de estos datos en manos de quienes los recopilan, no de una autoridad centralizada.

Gobernanza de datos federada

Con una malla de datos, los dominios tienen mayor autonomía, pero no son libres de hacer lo que quieran. En un enfoque de gobernanza de datos federada, la responsabilidad de la gobernanza de datos se comparte entre las autoridades de TI centrales y las del nivel de dominio. TI se encarga de crear marcos y políticas que se aplican de manera uniforme en todos los dominios, mientras que cada dominio individual administra las reglas que se aplican solo a sus propios datos y procesos comerciales. Obtenga más información sobre la gobernanza de datos federada aquí

Los datos como producto

Cuando se pasa a una arquitectura de malla de datos, se pasa de una mentalidad de proyecto a un enfoque basado en productos. En lugar de crear un proceso de extracción, transformación y carga ad hoc cada vez que se necesita un nuevo conjunto de datos, los equipos de dominio trabajan para crear de forma proactiva productos de datos reutilizables que proporcionen los datos que necesitan los responsables de la toma de decisiones.

Para ser eficaces, estos productos deben ser fáciles de descubrir, accesibles, confiables y autodescriptivos. Esto significa:

Los consumidores de datos deben poder encontrar fácilmente productos de datos
Cada producto debe tener una dirección única para poder integrarse en aplicaciones de software.
Los datos deben ser confiables
Los consumidores de datos deben poder comprender los datos dentro del producto de datos y lo que representan.

Análisis de autoservicio

La arquitectura de malla de datos debe ser accesible para consumidores de datos no técnicos sin la ayuda de profesionales técnicos. Esto podría ser a través de un mercado de productos de datos o mediante tecnología que permita el acceso directo a los productos de datos desde una herramienta de análisis o modelado. Uno de los principales problemas que resuelve la malla de datos es la eliminación de las barreras técnicas entre los datos y quienes los consumen. El autoservicio mejora la calidad y la velocidad de la toma de decisiones. También alivia las demandas de los ingenieros de datos que están abrumados por la tarea de satisfacer las solicitudes de datos.

¿Por qué necesito uno?

En el entorno actual, la demanda de datos supera la capacidad de las operaciones de TI para proporcionarlos. Las organizaciones saben que tomar decisiones basadas en datos conduce a mejores resultados y rendimiento, pero el desafío de proporcionar acceso a los datos correctos que sean adecuados para el propósito y confiables es un desafío técnico y cultural.

Los enfoques actuales no pueden adaptarse a la demanda futura

En una organización típica, los datos se recopilan y almacenan en silos de datos, ya sea una aplicación de transacciones heredada o un CRM SaaS. Compartir datos entre estos silos es difícil. Para satisfacer la demanda de compartir datos, los programadores expertos deben crear canales para mover los datos entre estos silos. Estos desarrolladores deben estar versados en tecnologías como Python, SQL, R y Java para poder responder a las solicitudes de datos. Lamentablemente, simplemente no hay suficientes desarrolladores capacitados para satisfacer la demanda. En muchos casos, cuando se satisfacen las solicitudes de datos, la necesidad ya no existe, lo que da como resultado oportunidades perdidas. Dado que las decisiones comerciales ya se toman a un ritmo vertiginoso y la IA está posicionada para aumentar ese ritmo a un ritmo exponencial, este enfoque no funcionará en el futuro.

La malla de datos permite a la comunidad proporcionar un acceso más fácil a mejores datos

Una malla de datos permite que las personas y la tecnología sofisticada trabajen juntas para que los tomadores de decisiones en toda la organización puedan obtener los datos que necesitan cuando los necesitan.

Desde una perspectiva cultural, una estrategia de malla de datos empodera a las personas al brindarles más propiedad y responsabilidad para administrar los datos en su dominio. Esto hace que se involucren más en garantizar que los datos sean accesibles y confiables. Cada parte interesada en el proceso tiene un rol.

Las capacidades de autoservicio de la malla de datos y los catálogos de datos sólidos permiten a los analistas de datos explorar e implementar los datos que necesitan a través de productos de datos. Estos analistas ya no se ven obligados a luchar con tareas manuales o esperar a que el departamento de TI acceda a los datos. Pueden brindar más información y análisis a los tomadores de decisiones con las habilidades que tienen.

Los administradores de dominios, que comprenden los datos que recopilan mejor que una autoridad de gobernanza central, están capacitados para administrarlos. Esta mayor comprensión del contexto que rodea a sus datos los coloca en la mejor posición para administrarlos y aumentar su valor.

Al migrar a una malla de datos, los profesionales de TI y los ingenieros de datos se empoderan para mejorar el valor que brindan al brindar servicios más estratégicos. Los ingenieros de datos pueden dedicar menos tiempo a codificar procesos ETL y trabajar más de cerca con los productores de productos de datos para acceder de manera más eficiente a datos de calidad. Pueden brindar asesoramiento sobre reglas de gobernanza a nivel de dominio y hacer cumplir métricas de calidad. Los ingenieros de datos también pueden desempeñar un papel más importante en la gestión de la infraestructura para empoderar a sus colegas.

La tecnología distribuida reduce costos y aumenta la agilidad.

Una malla de datos funciona en una arquitectura distribuida. En lugar de volcar los datos en un lago de datos, los datos permanecen en el sistema que los recopiló. Cuando se necesitan los datos, se extraen de la fuente en lugar de copiarlos en otra base de datos donde se analizan. Esto significa que se reducen los costos de almacenamiento y se minimizan las discrepancias entre varios almacenes de datos redundantes.

Un sistema distribuido también es más escalable, ágil y accesible. Mientras que los datos reales permanecen en su lugar, los metadatos se consolidan en una única base de datos. Al separar los metadatos de los datos que describen, los activos de datos se pueden descubrir en un único catálogo y se pueden crear consultas de datos independientes de los datos. Esto permite:

Consultas de datos federados

Se pueden crear consultas de datos individuales que puedan acceder a datos de múltiples sistemas diferentes simultáneamente utilizando el mismo modelo de datos.

Los datos deben permanecer en su lugar

Tampoco es necesario mover los datos a través de un proceso por lotes, sino que se pueden fusionar en tiempo real y se pueden realizar cambios sobre la marcha.

Mayor escalabilidad

Al separar los datos de la lógica, se pueden reducir las dependencias creadas por las interminables canalizaciones de datos, lo que permite una mayor escalabilidad.

La gobernanza y la seguridad son más eficientes

Una autoridad superior no siempre significa una mayor seguridad. Los profesionales que recopilan datos están en una posición mucho mejor para comprender su confidencialidad, lo que los coloca en una posición para implementar políticas de gobernanza de datos más inteligentes que una autoridad central.

Una jerarquía de gobernanza de marco flexible también puede ser mucho más eficaz para garantizar que los datos sean precisos, seguros y accesibles. Al dar a los dominios la autonomía para trabajar dentro de un marco más amplio, pueden crear políticas que funcionen mejor para ellos y, al mismo tiempo, cumplir con los estándares de gobernanza organizacional. Al estar más cerca de los datos, también están en una mejor posición para realizar cambios a medida que cambian las amenazas y las demandas.

Una mayor autonomía también reduce la tendencia de los analistas a recurrir a soluciones no autorizadas. Si las reglas son demasiado restrictivas o inaplicables para un determinado caso de uso, los operadores encontrarán formas de eludirlas. Esto crea vulnerabilidades opacas que pueden dar lugar a graves amenazas a la seguridad.

A medida que la tecnología y los sistemas maduran, suelen volverse más sofisticados, complejos y distribuidos. Con un control menos centralizado, los sistemas de datos pueden evolucionar rápidamente y ser más ágiles y resistentes. Al confiar los datos a las personas pero creando las barreras adecuadas para garantizar el orden, los datos se vuelven más accesibles y útiles.