Los datos almacenados en cualquier organización tienen un valor inmenso y el conocimiento que se deriva de ellos puede diferenciar a una empresa de sus competidores. No tener una estrategia sólida para romper los silos de datos es un error estratégico.
Si bien los métodos tradicionales, como los pipelines ETL y los lagos de datos, son comunes, están ganando terreno enfoques distribuidos más innovadores, como las mallas y los tejidos de datos. El objetivo final de estas estrategias es democratizar el acceso a los datos, fomentando un modelo de autoservicio y promoviendo una cultura más colaborativa e impulsada por los datos. Las organizaciones deben mantenerse ágiles y adaptarse a estos conceptos y tecnologías en evolución para mantener una ventaja competitiva.
Una malla de datos es una arquitectura de datos diseñada para facilitar el intercambio de datos en toda una organización. Una malla de datos es independiente de la tecnología y se define mediante cuatro principios.
La función empresarial que recopila datos tiene autoridad sobre ellos.
Los datos se empaquetan en productos de datos, lo que simplifica su intercambio en toda la organización.
Los datos y los productos de datos deben ser accesibles para personas sin conocimientos técnicos para realizar análisis independientes sin necesidad de asistencia del departamento de TI o del dominio que los comparte.
La responsabilidad de gobernar y proteger los datos se comparte entre el dominio y las autoridades centrales de TI.
Para obtener más información sobre la malla de datos, lea nuestro blog sobre qué es una malla de datos y por qué necesita una.
Gartner define la estructura de datos como un concepto de diseño que funciona como una capa de integración de datos y de conexión de procesos. Utiliza análisis continuos sobre activos de metadatos existentes que se pueden descubrir e inferir para respaldar el diseño, la implementación y la utilización de datos integrados y reutilizables en todos los entornos. De hecho, tanto el concepto de malla de datos como el de estructuras de datos comparten un objetivo común: abordar el desafío de los silos de datos y mejorar el acceso a los datos dentro de las organizaciones.
Desde el inicio del concepto de Data Mesh, la estrategia ha evolucionado. En los primeros tiempos, existía una tendencia a otorgar a los dominios el poder de usar cualquier herramienta para crear productos de datos para compartir. Este concepto ha madurado a medida que surgieron preocupaciones en torno a la estandarización y la interoperabilidad. Reforzar el concepto de silos de datos y no definir cómo interoperan los productos de datos puede no ser el mejor enfoque, incluso si los líderes del dominio tienen la mejor comprensión de los datos. Las implementaciones de Data Mesh actuales enfatizan los procesos y plataformas estandarizados, lo que garantiza una fácil creación, intercambio e integración de productos de datos.
Al mismo tiempo, también han surgido arquitecturas de tejido de datos, centradas en la tecnología, la automatización y el control de gobernanza central. Si bien la malla de datos y el tejido de datos pueden no competir, se influyen mutuamente, lo que impulsa adaptaciones para satisfacer las necesidades del mercado. Los profesionales de datos modernos exploran cómo la arquitectura de tejido de datos puede respaldar conceptos de malla de datos como la gobernanza federada, los productos de datos y la propiedad de dominios. Esta intersección refleja una evolución continua en las estrategias de gestión de datos.
La integración de datos es clave para ambos enfoques, Data Mesh y Data Fabric, y la democratización de datos a través de la virtualización surge como la arquitectura preferida. La virtualización permite que los datos permanezcan en sus dominios de origen y virtualiza los conjuntos de datos para permitir la democratización de los datos. Sin embargo, los conceptos de Data Fabric y Data Mesh difieren en términos de gobernanza, automatización y consumo/descubrimiento.
La estructura de datos aprovecha la automatización para permitir el autoservicio, mientras que la malla de datos se basa en expertos del dominio para integrar su experiencia en los productos de datos.
La estructura de datos se basa en un control de gobernanza central, mientras que la malla de datos adopta un enfoque federado con dominios responsables de gobernar sus propios datos.
La estructura de datos consolida los activos de datos en catálogos de datos o implementa gráficos de conocimiento para mapear los activos de datos en toda la organización. Un enfoque de malla de datos expone los datos a través de productos de datos creados por el dominio, que normalmente se publican a través de un mercado de productos de datos.
A medida que estos conceptos de malla de datos y la tecnología de los tejidos de datos evolucionan, han comenzado a converger. Los profesionales están experimentando con varios niveles de control, consolidación de datos y automatización. La IA está desempeñando un papel importante a la hora de hacer posible esta convergencia.
A medida que el mercado evoluciona, la cuestión no es tanto la automatización, sino la federación de personas, la gobernanza central o los activos de datos, sino las estrategias que incorporan las mejores características y aprovechan la herramienta adecuada para el trabajo adecuado. Las plataformas de gestión de datos y las pasarelas de análisis respaldan estos enfoques integrados.
En los enfoques modernos de malla de datos y tejido de datos, ambas estrategias logran un equilibrio entre los expertos en el dominio y la automatización, incorporando estos recursos de distintas maneras. Los tejidos de datos utilizan la automatización para integrar datos en tiempo real. Los humanos desempeñan un papel más pasivo a la hora de abordar los problemas identificados por las alertas de IA.
La malla de datos se centra en los productos de datos creados por los productores de datos. La IA ayuda a los productores a automatizar tareas repetitivas, eliminando la necesidad de habilidades de codificación; sin embargo, el ser humano que comprende los matices de los datos sigue siendo fundamental para el proceso. Los procesos automatizados de manipulación de datos y la clasificación de datos asistida por IA son ejemplos de esta relación simbiótica.
Los enfoques pueden coexistir en la misma estrategia con diferentes participantes en el proceso que recurran a la automatización de diferentes maneras. La clave es encontrar el equilibrio adecuado entre la experiencia humana y la automatización para optimizar los procesos de datos de manera eficaz.
En la gestión de datos, las arquitecturas de Data Fabric producen activos de datos, mientras que una malla de datos produce productos de datos. Tanto los enfoques de descubrimiento como de consumo pueden coexistir en una estrategia combinada con una malla de datos, lo que agrega más controles para empaquetar los activos de datos en productos de datos.
El enfoque de malla de datos se centra en el producto de datos como el principal vehículo para compartir datos. Los productos de datos publicados en un mercado de productos de datos son más completos y posiblemente más valiosos. Por lo general, están compuestos por activos de datos que se han fusionado y normalizado bajo la guía de un experto en el dominio. Los productos de datos son reutilizables, más permanentes y mejores para el uso externo más allá de dominios de datos específicos.
Los enfoques combinados pueden exponer catálogos de datos consolidados a consumidores de datos menos técnicos, lo que les permite crear productos de datos para compartir. Aprovechar la IA para exponer estos activos de datos a los consumidores de datos, de manera similar a una estructura de datos, reduce las habilidades técnicas necesarias para acceder a los datos. LLM permite a los consumidores de datos con conocimientos limitados de SQL explorar y consultar activos de datos de manera eficaz.
Ya sea que se trate de una estructura o malla de datos, el catálogo de datos se convierte en una parte muy importante de la estrategia. Las plataformas de acceso están creando catálogos de datos unificados que abarcan toda la organización y organizan los activos de datos de manera eficiente. Estas plataformas también aprovechan las herramientas GenAI para reducir el trabajo manual, lo que ayuda en la clasificación y normalización de datos para respaldar modelos de datos sólidos y glosarios comerciales.
Los avances continuos en IA seguirán mejorando la eficiencia de los productores de datos para crear productos de datos aprovechando la automatización. Además, los expertos tienen la oportunidad de entrenar a la IA para ayudar a los consumidores de datos a aprovechar al máximo sus datos. Esta sinergia entre humanos capacitados y máquinas potentes representa un enfoque que combina lo mejor de ambos mundos en el panorama cambiante de la gestión de datos.
Las plataformas y herramientas emergentes están permitiendo una mayor federación de la gobernanza. Las herramientas de gobernanza facilitan que el departamento de TI central ceda más control y, al mismo tiempo, mantenga una supervisión eficaz.
La integración de controles de gobernanza de datos en las plataformas de gestión de datos permite a todos los miembros del equipo de datos participar activamente y asumir la responsabilidad de la gobernanza.
Controles del administrador de dominios | Controles del administrador de TI | Controles de los productores de datos |
---|---|---|
Controla el acceso a los dominios | Controla el acceso a las plataformas de datos | Controles de acceso de grano fino al nivel de la mesa |
Controla el acceso granular a los datos. | Controla cómo se organizan los dominios |
La integración de la automatización en la gobernanza de datos está evolucionando con el surgimiento de la gobernanza de datos activa, una tecnología que monitorea los activos de datos y envía alertas a productores y consumidores cuando surgen problemas.
En el contexto de la malla de datos, la gobernanza se extiende más allá de los activos de datos para cubrir el ciclo de vida de los datos de extremo a extremo, desde la fuente hasta el producto de datos. La gestión de la gobernanza y la calidad de los datos no termina con el activo de datos en una malla de datos. Los productos de datos públicos se mejoran y monitorean continuamente a través de ciclos de retroalimentación humana. Este proceso iterativo garantiza que los productos de datos sigan siendo relevantes y valiosos para los consumidores.
Con la convergencia de las capacidades de los tejidos de datos y las mallas de datos, existe una creciente flexibilidad en el acceso a los datos. Los usuarios pueden acceder a los datos y descubrirlos mediante un enfoque que se alinee con sus habilidades técnicas y su comprensión de los datos. Es probable que en el futuro veamos una combinación de elementos de los tejidos de datos y las mallas de datos, lo que dará como resultado combinaciones únicas que aprovechen las fortalezas de las personas, las máquinas, la gobernanza y las tácticas de consumo. La distinción entre los tejidos de datos y las mallas de datos puede desaparecer, dando lugar a estrategias de gestión de datos más personalizadas y adaptables.