Reducir el coste de la analítica empresarial mediante un nuevo paradigma



Listen to this blog
Disclaimer

A medida que aumenta la demanda de datos, obtener acceso a los mejores datos para respaldar la toma de decisiones basada en datos se está convirtiendo en un gasto significativo. Los métodos para trasladar y acceder a los datos desarrollados antes de la proliferación de la computación y el almacenamiento en la nube ahora tienen dificultades para escalar de manera eficiente para mantenerse al día.

Las tecnologías de acceso a datos heredadas no fueron diseñadas para manejar la capacidad de estar siempre activo y conectado en tiempo real de la nube. Antes de la nube, los datos debían almacenarse cerca de la aplicación para poder analizarlos. Incluso con la naturaleza en tiempo real de la nube, la forma fundamental en que los datos se mueven, fusionan y preparan para el análisis no ha cambiado significativamente. Esta falta de adaptabilidad obstaculiza la velocidad del análisis y pasa por alto las oportunidades de reducir los costos de infraestructura e ingeniería de datos.

En el siguiente análisis, consideraremos los costos de acceder a los datos de la forma tradicional usando ETL (Extraer, Transformar, Cargar) y los compararemos con enfoques innovadores que utilizan datos federados que aprovechan las poderosas capacidades de la nube.

Costos de ETL

Calcular el costo exacto de crear pipelines ETL es difícil, pero podemos estimar estos costos evaluando datos disponibles públicamente y haciendo algunas suposiciones.

Construyendo un pipeline ETL desde cero

La creación de un pipeline ETL requiere una inversión significativa de tiempo y recursos. Si bien se necesitan múltiples recursos para crear un pipeline ETL desde cero, un ingeniero de datos realiza la mayor parte del trabajo. Este profesional altamente calificado programa manualmente los scripts para extraer datos, transformarlos para su análisis y cargarlos en la base de datos de destino. Según Glassdoor, el salario promedio de un ingeniero de datos en los EE. UU. supera los $150,000 por año; si se considera el costo total de los beneficios y gastos del FTE, esto cuesta $195,000 por año o $95 por hora.

Las estimaciones indican que la creación de una canalización ETL rudimentaria lleva de una a tres semanas. Supongamos que el esfuerzo medio es de 80 horas para construir una canalización ETL, lo que equivale a 7600 dólares por canalización. Además, estas canalizaciones requieren mantenimiento, que puede suponer el 20 % del esfuerzo original cada año o 1520 dólares adicionales al año. La construcción de canalizaciones ETL más complejas puede llevar meses o incluso años, con un coste de cientos de miles de dólares. Simplemente construir y probar un conector de datos puede llevar seis semanas y media.

Una encuesta realizada por Wakefield Research estimó que las organizaciones gastan $520.000 al año para construir y mantener canales de datos.

Plataforma ETL sin código

Codificar y gestionar pipelines ETL desde cero puede ser costoso, pero existen herramientas que pueden agilizar el proceso y automatizar algunos de los requisitos de codificación. Se pueden crear pipelines ETL menos complejos utilizando plataformas sin código.

Estas plataformas aprovechan la automatización y la inteligencia artificial para reducir el tiempo y las habilidades necesarias para crear pipelines ETL. Si se aprovechan algunas de las herramientas disponibles actualmente, los pipelines ETL se pueden crear en tan solo tres días.

Si bien estas plataformas pueden reducir los requisitos de recursos para crear pipelines de forma manual, tienen un costo. Por lo general, estas soluciones se basan en el volumen de datos y la cantidad de bases de datos conectadas a la plataforma. Para las corporaciones más grandes, estos costos aumentan rápidamente y es posible que muchos casos de uso de borde no sean compatibles con la solución sin código.

La cantidad de pipelines aumentará a medida que el costo de construir pipelines ETL con soluciones sin código se reduzca significativamente. Esta proliferación de pipelines ETL crea un nuevo problema: la duplicación de datos y el aumento de los costos de almacenamiento.

Costos de almacenamiento

Las estrategias de almacenamiento vienen en diversas configuraciones y arquitecturas, lo que hace que las estimaciones precisas de almacenamiento sean bastante complejas. Sin embargo, en función de los datos disponibles públicamente, podemos cuantificar los costos asociados con el almacenamiento y la gestión de datos duplicados creados por las estrategias ETL.

Cada vez que se extrae un conjunto de datos de un sistema y se carga en otro, se crea un conjunto de datos duplicado que debe almacenarse. Cuantos más canales y solicitudes de datos haya, más conjuntos de datos duplicados se crearán, lo que aumenta los costos de almacenamiento.

El crecimiento del big data y el prolífico movimiento de datos han llevado a un aumento de los datos redundantes, obsoletos y triviales (ROT) que se mantienen en los almacenes de datos. Statista informa que el 8% de todos los datos que tienen las empresas son originales y el 91% son replicados. Veritas Technologies llevó a cabo un proyecto de investigación similar y descubrió que el 16% de los datos son críticos para la empresa, el 30% son datos redundantes, obsoletos y triviales (ROT) y el 54% son datos oscuros, cuyo valor se desconoce. Ambos estudios llegan a una conclusión similar: las empresas mantienen una cantidad abrumadora de datos inútiles, lo que genera un desperdicio significativo de recursos en el almacenamiento de datos inútiles.

Si consideramos que Google Cloud cobra 0,02 dólares por GB al mes por el almacenamiento en la nube, esto equivale a 20 dólares por terabyte y 20.000 dólares por petabyte. Según Veritas Technologies, la organización promedio gasta 650.000 dólares al año para almacenar datos no críticos.

Hay múltiples factores que impulsan el crecimiento de ROT, y el mantenimiento de silos de datos es uno de ellos. Cada función empresarial mantiene su propia base de datos para respaldar cada operación, lo que lleva a que los conjuntos de datos comunes se repitan en muchas de estas bases de datos, lo que desperdicia recursos de almacenamiento.

Datos erróneos causados por ROT

Costo de la gobernanza

El almacenamiento de datos ROT no solo tiene implicancias en cuanto a costos de almacenamiento, sino que también aumenta el riesgo. Varias copias del mismo conjunto de datos dan lugar a fuentes de información contradictorias y los distintos formatos de datos generan confusión.

Para evitar una mala calidad de los datos, es necesario implementar políticas de gobernanza de datos eficaces. En 2021, Gartner estimó que la mala calidad de los datos cuesta a las organizaciones una media de 12,9 millones de dólares anuales.

Los procesos manuales tradicionales de gobernanza de datos ya no son suficientes y se requieren inversiones en herramientas y estrategias de gobernanza de datos automatizadas. La revisión manual de informes y la configuración de reglas personalizadas requieren mucho tiempo. Implementar estas políticas, reglas y supervisión de forma independiente para cada canalización de ETL requiere una atención cuidadosa e inversión de tiempo.

Invertir en la prevención de datos erróneos es dinero bien gastado. Si cuesta un dólar prevenir datos erróneos, costará 10 dólares repararlos y 100 dólares si fallan. ElData Warehousing Institute afirma que los datos erróneos cuestan a las empresas 600 mil millones de dólares al año.

Los datos redundantes también plantean riesgos para la privacidad. Gran parte de los datos que se replican en los silos de datos incluyen datos de identificación personal (PII). Este enfoque aumenta la probabilidad de una filtración de datos.

Los desafíos solo crecerán

El crecimiento exponencial continuo de la recopilación y el almacenamiento de datos no hará más que exacerbar los problemas relacionados con la duplicación de datos, creada por estrategias de gestión e integración de datos ineficientes. Statista estima que, para 2025, se crearán, consumirán, copiarán y capturarán 181 zettabytes.

Costos blandos

Con el tiempo que se requiere para desarrollar pipelines ETL desde cero o utilizando plataformas sin código, el acceso a los datos no es tan ágil como podría ser. Se pierden oportunidades cuando los analistas y los tomadores de decisiones no pueden acceder a datos de calidad rápidamente. Estos costos de oportunidad son difíciles de cuantificar, pero son muy reales. Con la cantidad de decisiones que se toman en una organización, aumentar el tiempo para obtener información, incluso marginalmente, es significativo. Al optimizar la toma de decisiones en toda la organización, los ahorros en costos de oportunidad se acumulan, ya que las buenas decisiones conducen a decisiones y opciones aún mejores.

Nuevo Paradigma

Está surgiendo un nuevo enfoque o paradigma de acceso a los datos que reducirá los costos de acceso y gestión de los datos. Este enfoque se aleja del ETL y se centra en la gobernanza central, la seguridad y el acceso a los productos de datos. (Para profundizar en el nuevo paradigma de los datos, asegúrese de leer esta publicación del blog)

Este nuevo enfoque permite acceder a los datos sin tener que moverlos ni replicarlos. Esta estrategia también aprovecha los productos de datos reutilizables que eliminan la necesidad de crear canales ETL para cada caso de uso. Este cambio puede generar un ahorro de tiempo del 40 al 50 % en el aprovisionamiento de datos para el autoservicio, lo que equivale a un ahorro de $4100 por canal individual o $225 000 para la organización típica que gasta recursos en canales ETL.

Dado que se elimina la necesidad de mover datos de una base de datos a otra mediante un proceso ETL, se reducen los costos de almacenamiento. Al no crearse datos redundantes a partir de los procesos ETL, los costos de almacenamiento y preparación se pueden reducir entre un 30 y un 40 %.

Reducción de costes

Este nuevo paradigma aprovecha los productos de datos para entregar datos a las plataformas de análisis, reduciendo así el esfuerzo y los costos necesarios para crear estos productos de datos en comparación con los canales de datos. Se necesitan menos tiempo para crearlos y requieren conjuntos de habilidades menos costosos. Se necesitan aproximadamente 24 horas para crear un producto de datos, lo que es un 70% menos que crear un canal de ETL rudimentario. Además, el trabajo puede ser realizado por un analista de datos en lugar de un ingeniero de datos. Los salarios de los analistas de datos en los EE. UU. promedian $ 77,000 o un costo total de FTE de $ 100,000. Este costo equivale a $ 50 por hora frente a $ 96 para un ingeniero de datos. Haciendo los cálculos en función de estas estimaciones, el costo de crear un producto de datos es de $ 1200 en comparación con los $ 7600 de un solo canal de datos simple.

El nuevo enfoque de los productos de datos reduce la demanda de almacenamiento de datos, pero el acceso en tiempo real a los datos en su lugar aumenta los costos de procesamiento de la red y de la base de datos. Si bien existe una contrapartida, los costos de red solo se generan cuando se entregan datos valiosos para su análisis, a diferencia de los costos de almacenamiento que se generan al almacenar datos inútiles y sin uso.

El avance en la automatización de la gobernanza de datos también genera importantes ahorros de costos en el panorama actual de la gestión de datos. La gobernanza automatizada incluye la automatización de la clasificación de datos, el control de acceso, la gestión de metadatos y el seguimiento del linaje de datos. Las soluciones de gobernanza de datos permiten a las organizaciones aprovechar algoritmos y flujos de trabajo para automatizar la aplicación de políticas de datos, supervisar el uso de los datos y abordar problemas de calidad de los datos antes de que se conviertan en un problema. Informatica estima que las organizaciones pueden ahorrar entre $475.000 y $712.000 utilizando soluciones de gobernanza automatizada.

Por lo general, estas soluciones son paquetes independientes que se incorporan a sus canales de datos y cuestan alrededor de 20 000 USD por año para 25 usuarios. El enfoque de la plataforma de productos de datos coloca la gobernanza en el centro del proceso y está incluido en el costo de la plataforma.

Economías impulsadas por productos de datos

Por lo general, los pipelines ETL se construyen para un caso de uso específico, y los beneficios que brindan deben superar los costos de su construcción, lo que hace que su valor sea relativamente bien comprendido y estático. La adaptabilidad de los productos de datos hace que su valor sea más escalable. Con productos de datos construidos en una plataforma estándar, se pueden combinar fácilmente varios productos de datos para crear nuevos productos de datos. Además, un producto de datos específico puede estar destinado a un caso de uso particular, pero se puede adaptar fácilmente a otra oportunidad para agregar valor en una aplicación separada.

Esta adaptabilidad permite que los productos de datos aumenten su valor, ya que pueden abordar nuevos casos de uso que el desarrollador original tal vez no haya previsto. A medida que aumenta el valor y el costo de crear ese producto de datos se mantiene estable, el retorno de esa inversión crece. Esta es otra forma en que los productos de datos ayudan a reducir los costos para brindar nuevos conocimientos y valor.

Existen numerosas formas en las que una estrategia de productos de datos reduce los costos, lo que permite una mejor toma de decisiones y el entrenamiento de la IA. Si bien la estrategia de productos de datos ayuda a reducir los costos, el beneficio real está vinculado con una mayor agilidad y competitividad. Este beneficio es acumulativo y no cuantificable, pero muy real.

Discover the Latest in Data and AI Innovation

  • Estrategias de integración y sincronización de datos en productos de datos

    Read More

  • Cómo generar confianza con productos de datos

    Read More

  • Ciclo de vida de la salud de los datos: estrategias de limpieza y transformación de datos

    Read More

Request a Demo TODAY!

Take the leap from data to AI