Mejorar la gestión de datos: cómo superar las limitaciones con enfoques modernos de virtualización



Listen to this blog
Disclaimer

La carrera por la adopción de datos está en marcha para todas las organizaciones. ¿Por qué? Porque las empresas que tienen más probabilidades de utilizar datos para fundamentar la toma de decisiones obtienen mejores resultados. Pero las tecnologías de gestión de datos actuales aún tienen un largo camino por recorrer para eliminar los silos de datos y hacer que estos sean accesibles para todos. Un ecosistema emergente de tecnologías basadas en la virtualización de datos puede mejorar el acceso y la usabilidad de los datos.

Desafíos de los enfoques actuales

Para que un analista pueda acceder a los datos que necesita, normalmente debe recurrir a un ingeniero de datos muy ocupado que tenga conocimientos de SQL, Python o Java para crear una consulta de base de datos y extraer un conjunto de datos. El ingeniero también debe estar familiarizado con los metadatos y el modelo de datos relevantes para saber qué datos consultar. Dado que los distintos departamentos utilizan sus propios modelos de datos únicos, es necesario gestionar una complejidad adicional. Si es necesario transformar los datos y fusionarlos con otra tabla de datos, se requieren más habilidades técnicas para crear una canalización. Una vez que se crean las canalizaciones ETL, su mantenimiento también es un desafío, ya que tienden a ser muy rígidas. Cuando se necesitan cambios, se deben rediseñar y probar, lo que no solo dificulta los cambios, sino que también significa que es difícil utilizar una única canalización para más de un propósito.

Con una demanda de datos que crece tan rápidamente, este modelo no resistirá la presión de la construcción. Las organizaciones no pueden seguir incorporando nuevos ingenieros a su equipo de ingeniería de datos, no solo porque es prohibitivo en términos de costos, sino también porque no hay suficientes en el mercado.

El resultado neto de estos desafíos es que las organizaciones tardan en tomar decisiones comerciales, lo que las coloca en desventaja competitiva.

Almacenes de datos

¿Qué es la virtualización de datos de inteligencia?

Los servicios de virtualización de datos proporcionan la base para un nuevo enfoque del acceso a los datos. Una herramienta de visualización de datos proporciona middleware que crea una representación virtual de los datos para que estén disponibles para su análisis. A diferencia de los enfoques que utilizan ETL, que trasladan los datos al lugar donde se analizan, los datos virtualizados permanecen en su lugar. No es necesario trasladar los datos desde su sistema de origen a un lago de datos y luego a otro sistema para su análisis, una práctica habitual. Mientras que los datos reales permanecen en su lugar, los metadatos se separan y se consolidan en un repositorio central.

Con una estrategia de virtualización de datos, separar la lógica y los datos subyacentes facilita enormemente los cambios en las consultas de datos. Cuando los metadatos están integrados en la fuente de datos y es necesario cambiar los procesos de ETL, los ingenieros deben comprender no solo el modelo de datos, sino también cómo se configuran las conexiones y si es necesario considerar las dependencias. Agregar fuentes de datos cuando los datos están virtualizados es mucho más sencillo. Con solo hacer referencia a los metadatos y ajustar la consulta se logrará el objetivo cuando los datos están virtualizados. Con una mayor flexibilidad, los productos o activos de datos pueden evolucionar de manera iterativa para generar mucho más valor para los consumidores de datos.

La virtualización de datos permite la federación de datos

Cuando separamos los metadatos de los datos que describen y los centralizamos, se habilitan numerosas capacidades nuevas. La federación de datos es una de ellas. Esto es cuando los metadatos de múltiples fuentes se organizan para que los datos sean accesibles a través de un modelo de datos uniforme. Al consolidar los metadatos, un modelo de datos universal hace que sea mucho más fácil comprender los datos subyacentes distribuidos en bases de datos dispares, lo que hace que el proceso de acceso a ellos sea mucho más simple.

Una capa de metadatos consolidada también permite a los analistas crear una única consulta para extraer datos de varias bases de datos simultáneamente, sin importar dónde estén almacenados, ya sea en la nube o en las instalaciones. La capacidad de acceder a varias bases de datos y agregar y transformar datos en tiempo real abre un mundo completamente nuevo de capacidades.

La federación de datos permite la capa de semántica universal

Con un modelo de datos unificado disponible a través de la federación de datos, se puede crear una capa de semántica universal para que los datos sean más autogestionados. Cuando se adopta un modelo de datos único que representa múltiples almacenes de datos y enumera los activos de datos en un único catálogo de datos, es mucho más fácil explorar los datos para identificar los hechos que se necesitan. Esto permite una mayor innovación porque, sin la visibilidad mejorada de la semántica universal, los analistas no podrían explorar, experimentar o descubrir nuevos datos fácilmente. Para una mayor facilidad de uso, una capa de virtualización universal podría incluir recursos adicionales, como glosarios comerciales que estandaricen la terminología y las métricas comerciales. Esto hace que los datos sean aún más accesibles para los usuarios comerciales que pueden encontrar activos de datos sin comprender demasiado cómo se organizan los datos o dónde se almacenan.

La virtualización, la federación y la semántica de datos favorecen una mejor gobernanza de los datos

La gobernanza de datos se define como todo lo que se hace para garantizar que los datos sean seguros, privados, precisos, disponibles y utilizables. Las tecnologías de datos modernas emergentes mejoran la gobernanza de datos en todos estos objetivos.

Seguridad
Seguridad

La capa virtualizada permite que una única puerta de enlace aplique una gobernanza y seguridad de datos centralizadas.

Privacidad
Privacidad

Al mantener los datos en un lugar donde se puedan controlar mejor, la virtualización de datos puede gestionar el acceso a través de múltiples fuentes de datos. Con metadatos consolidados, se pueden utilizar controles de acceso detallados para enmascarar datos a nivel de columna y ocultar identidades.

Exactitud
Exactitud

Al mantener los datos en un solo lugar, estos pueden ser más precisos. No es necesario sincronizar bases de datos ni mover datos, lo que reduce los posibles errores que ocurren durante el proceso. Cuando no hay copias duplicadas de datos dispersas por toda la organización, los datos del sistema de origen se convierten en la única fuente de información veraz, lo que reduce los datos conflictivos causados por conjuntos de datos obsoletos.

Disponibilidad
Disponibilidad

La virtualización de datos permite que los datos estén disponibles en tiempo real. También permite la gobernanza de datos federada, lo que brinda a los dominios empresariales más autonomía para autorizar el acceso a quienes lo necesitan.

Usabilidad
Usabilidad

La capa semántica habilitada por la virtualización de datos permite a los usuarios comerciales acceder a los datos a través de definiciones comunes en todos los dominios comerciales, lo que los hace más utilizables.

La moderna pila de gestión de datos permite estrategias modernas

Con la capa de virtualización de datos funcionando como una única puerta de enlace a los datos, es mucho más fácil controlar y supervisar quién tiene acceso a qué conjuntos de datos. Con esta supervisión, la autoridad se puede distribuir a los dominios de datos mientras que TI sigue conservando la gobernanza de alto nivel. La gobernanza de datos federada y la semántica universal permiten arquitecturas de malla de datos orientadas al dominio y centradas en productos de datos. Lea más sobre la malla de datos aquí

Las estructuras de datos también se basan en virtualización de datos, federación de datos y capas de semántica universal. Se diferencian de una malla de datos porque no incorporan la gobernanza de datos federados en el enfoque. En este modelo, TI conserva la responsabilidad de los datos de la organización y del descubrimiento de datos habilitado por los gráficos de conocimiento.

Enfoque de datos nativos de la nube

La virtualización de datos y el creciente ecosistema de tecnologías que la rodea constituyen una innovación transformadora porque se basan en las fortalezas de la plataforma en la que se ejecutan: la nube. Los lagos de datos y las tecnologías ETL se diseñaron para un ecosistema local, sin tener en cuenta las capacidades de la nube. A medida que los datos se han trasladado a la nube, se deben considerar nuevos enfoques que sean posibles gracias a este nuevo entorno. La interconectividad permanente y la escalabilidad instantánea de la nube son características que se deben tener en cuenta al diseñar una estrategia de gestión de datos moderna.

¿Por qué esperar a que se realicen procesos por lotes cuando puede obtener datos en tiempo real? ¿Por qué no crear una máquina virtual para almacenar sus datos mientras los analiza? ¿Por qué no interconectar todos sus datos y acceder a ellos desde un único lugar?

procesos por lotes

Adaptar la antigua forma de hacer las cosas a las nuevas plataformas es una tendencia común en la transformación tecnológica y la adopción de plataformas. Cuando surgió la plataforma de dispositivos móviles, las empresas modificaron sus aplicaciones empresariales y aplicaciones web para que se ejecutaran en el sistema operativo móvil. Si bien esto funcionó, no estaban diseñadas para un dispositivo que tenía potencia y ancho de banda limitados y era móvil. El estándar rápidamente se convirtió en aplicaciones creadas en el sistema operativo nativo que consideraba las limitaciones y oportunidades que permitía la plataforma. Lo mismo ocurre con el traslado de aplicaciones a la nube. La primera iteración fue trasladar aplicaciones monolíticas completas a un contenedor y llamarlo nativo de la nube. La realidad es que las aplicaciones solo son verdaderamente nativas de la nube si se diseñaron y crearon para ejecutarse en varios contenedores diferentes, aprovechando la interconectividad y la escalabilidad siempre activas de la nube. Ahora es el turno de la gestión de datos de ser nativa de la nube, y la virtualización de datos es la tecnología fundamental.

La virtualización de datos es una tecnología poderosa y es solo la base de una estrategia de datos moderna infinitamente más compleja.

Discover the Latest in Data and AI Innovation

  • Estrategias de integración y sincronización de datos en productos de datos

    Read More

  • Cómo generar confianza con productos de datos

    Read More

  • Ciclo de vida de la salud de los datos: estrategias de limpieza y transformación de datos

    Read More

Request a Demo TODAY!

Take the leap from data to AI