La carrera por la adopción de datos está en marcha para todas las organizaciones. ¿Por qué? Porque las empresas que tienen más probabilidades de utilizar datos para fundamentar la toma de decisiones obtienen mejores resultados. Pero las tecnologías de gestión de datos actuales aún tienen un largo camino por recorrer para eliminar los silos de datos y hacer que estos sean accesibles para todos. Un ecosistema emergente de tecnologías basadas en la virtualización de datos puede mejorar el acceso y la usabilidad de los datos.
Para que un analista pueda acceder a los datos que necesita, normalmente debe recurrir a un ingeniero de datos muy ocupado que tenga conocimientos de SQL, Python o Java para crear una consulta de base de datos y extraer un conjunto de datos. El ingeniero también debe estar familiarizado con los metadatos y el modelo de datos relevantes para saber qué datos consultar. Dado que los distintos departamentos utilizan sus propios modelos de datos únicos, es necesario gestionar una complejidad adicional. Si es necesario transformar los datos y fusionarlos con otra tabla de datos, se requieren más habilidades técnicas para crear una canalización. Una vez que se crean las canalizaciones ETL, su mantenimiento también es un desafío, ya que tienden a ser muy rígidas. Cuando se necesitan cambios, se deben rediseñar y probar, lo que no solo dificulta los cambios, sino que también significa que es difícil utilizar una única canalización para más de un propósito.
Con una demanda de datos que crece tan rápidamente, este modelo no resistirá la presión de la construcción. Las organizaciones no pueden seguir incorporando nuevos ingenieros a su equipo de ingeniería de datos, no solo porque es prohibitivo en términos de costos, sino también porque no hay suficientes en el mercado.
El resultado neto de estos desafíos es que las organizaciones tardan en tomar decisiones comerciales, lo que las coloca en desventaja competitiva.
Los servicios de virtualización de datos proporcionan la base para un nuevo enfoque del acceso a los datos. Una herramienta de visualización de datos proporciona middleware que crea una representación virtual de los datos para que estén disponibles para su análisis. A diferencia de los enfoques que utilizan ETL, que trasladan los datos al lugar donde se analizan, los datos virtualizados permanecen en su lugar. No es necesario trasladar los datos desde su sistema de origen a un lago de datos y luego a otro sistema para su análisis, una práctica habitual. Mientras que los datos reales permanecen en su lugar, los metadatos se separan y se consolidan en un repositorio central.
Con una estrategia de virtualización de datos, separar la lógica y los datos subyacentes facilita enormemente los cambios en las consultas de datos. Cuando los metadatos están integrados en la fuente de datos y es necesario cambiar los procesos de ETL, los ingenieros deben comprender no solo el modelo de datos, sino también cómo se configuran las conexiones y si es necesario considerar las dependencias. Agregar fuentes de datos cuando los datos están virtualizados es mucho más sencillo. Con solo hacer referencia a los metadatos y ajustar la consulta se logrará el objetivo cuando los datos están virtualizados. Con una mayor flexibilidad, los productos o activos de datos pueden evolucionar de manera iterativa para generar mucho más valor para los consumidores de datos.
Cuando separamos los metadatos de los datos que describen y los centralizamos, se habilitan numerosas capacidades nuevas. La federación de datos es una de ellas. Esto es cuando los metadatos de múltiples fuentes se organizan para que los datos sean accesibles a través de un modelo de datos uniforme. Al consolidar los metadatos, un modelo de datos universal hace que sea mucho más fácil comprender los datos subyacentes distribuidos en bases de datos dispares, lo que hace que el proceso de acceso a ellos sea mucho más simple.
Una capa de metadatos consolidada también permite a los analistas crear una única consulta para extraer datos de varias bases de datos simultáneamente, sin importar dónde estén almacenados, ya sea en la nube o en las instalaciones. La capacidad de acceder a varias bases de datos y agregar y transformar datos en tiempo real abre un mundo completamente nuevo de capacidades.
Con un modelo de datos unificado disponible a través de la federación de datos, se puede crear una capa de semántica universal para que los datos sean más autogestionados. Cuando se adopta un modelo de datos único que representa múltiples almacenes de datos y enumera los activos de datos en un único catálogo de datos, es mucho más fácil explorar los datos para identificar los hechos que se necesitan. Esto permite una mayor innovación porque, sin la visibilidad mejorada de la semántica universal, los analistas no podrían explorar, experimentar o descubrir nuevos datos fácilmente. Para una mayor facilidad de uso, una capa de virtualización universal podría incluir recursos adicionales, como glosarios comerciales que estandaricen la terminología y las métricas comerciales. Esto hace que los datos sean aún más accesibles para los usuarios comerciales que pueden encontrar activos de datos sin comprender demasiado cómo se organizan los datos o dónde se almacenan.
La gobernanza de datos se define como todo lo que se hace para garantizar que los datos sean seguros, privados, precisos, disponibles y utilizables. Las tecnologías de datos modernas emergentes mejoran la gobernanza de datos en todos estos objetivos.
La capa virtualizada permite que una única puerta de enlace aplique una gobernanza y seguridad de datos centralizadas.
Al mantener los datos en un lugar donde se puedan controlar mejor, la virtualización de datos puede gestionar el acceso a través de múltiples fuentes de datos. Con metadatos consolidados, se pueden utilizar controles de acceso detallados para enmascarar datos a nivel de columna y ocultar identidades.
Al mantener los datos en un solo lugar, estos pueden ser más precisos. No es necesario sincronizar bases de datos ni mover datos, lo que reduce los posibles errores que ocurren durante el proceso. Cuando no hay copias duplicadas de datos dispersas por toda la organización, los datos del sistema de origen se convierten en la única fuente de información veraz, lo que reduce los datos conflictivos causados por conjuntos de datos obsoletos.
La virtualización de datos permite que los datos estén disponibles en tiempo real. También permite la gobernanza de datos federada, lo que brinda a los dominios empresariales más autonomía para autorizar el acceso a quienes lo necesitan.
La capa semántica habilitada por la virtualización de datos permite a los usuarios comerciales acceder a los datos a través de definiciones comunes en todos los dominios comerciales, lo que los hace más utilizables.
Con la capa de virtualización de datos funcionando como una única puerta de enlace a los datos, es mucho más fácil controlar y supervisar quién tiene acceso a qué conjuntos de datos. Con esta supervisión, la autoridad se puede distribuir a los dominios de datos mientras que TI sigue conservando la gobernanza de alto nivel. La gobernanza de datos federada y la semántica universal permiten arquitecturas de malla de datos orientadas al dominio y centradas en productos de datos. Lea más sobre la malla de datos aquí
Las estructuras de datos también se basan en virtualización de datos, federación de datos y capas de semántica universal. Se diferencian de una malla de datos porque no incorporan la gobernanza de datos federados en el enfoque. En este modelo, TI conserva la responsabilidad de los datos de la organización y del descubrimiento de datos habilitado por los gráficos de conocimiento.
La virtualización de datos y el creciente ecosistema de tecnologías que la rodea constituyen una innovación transformadora porque se basan en las fortalezas de la plataforma en la que se ejecutan: la nube. Los lagos de datos y las tecnologías ETL se diseñaron para un ecosistema local, sin tener en cuenta las capacidades de la nube. A medida que los datos se han trasladado a la nube, se deben considerar nuevos enfoques que sean posibles gracias a este nuevo entorno. La interconectividad permanente y la escalabilidad instantánea de la nube son características que se deben tener en cuenta al diseñar una estrategia de gestión de datos moderna.
¿Por qué esperar a que se realicen procesos por lotes cuando puede obtener datos en tiempo real? ¿Por qué no crear una máquina virtual para almacenar sus datos mientras los analiza? ¿Por qué no interconectar todos sus datos y acceder a ellos desde un único lugar?
Adaptar la antigua forma de hacer las cosas a las nuevas plataformas es una tendencia común en la transformación tecnológica y la adopción de plataformas. Cuando surgió la plataforma de dispositivos móviles, las empresas modificaron sus aplicaciones empresariales y aplicaciones web para que se ejecutaran en el sistema operativo móvil. Si bien esto funcionó, no estaban diseñadas para un dispositivo que tenía potencia y ancho de banda limitados y era móvil. El estándar rápidamente se convirtió en aplicaciones creadas en el sistema operativo nativo que consideraba las limitaciones y oportunidades que permitía la plataforma. Lo mismo ocurre con el traslado de aplicaciones a la nube. La primera iteración fue trasladar aplicaciones monolíticas completas a un contenedor y llamarlo nativo de la nube. La realidad es que las aplicaciones solo son verdaderamente nativas de la nube si se diseñaron y crearon para ejecutarse en varios contenedores diferentes, aprovechando la interconectividad y la escalabilidad siempre activas de la nube. Ahora es el turno de la gestión de datos de ser nativa de la nube, y la virtualización de datos es la tecnología fundamental.
La virtualización de datos es una tecnología poderosa y es solo la base de una estrategia de datos moderna infinitamente más compleja.