Ciclo de vida de la salud de los datos: estrategias de limpieza y transformación de datos



Listen to this blog
Disclaimer

Un sistema saludable con datos limpios es fundamental para las organizaciones que aspiran a tener un balance final saludable. Los datos no saludables conducen a una toma de decisiones deficiente, oportunidades desaprovechadas y costos más altos. Mantener datos de calidad requiere una limpieza diligente de los datos para mantenerlos saludables.

La investigación de G. Loabovitz e Y. Chang condujo a la regla 1-10-100 de la calidad de los datos. Esta regla destaca el aumento del costo de los errores de datos debido a la mala calidad de los mismos: si cuesta $1 verificar un registro, cuesta $10 por registro corregir los errores una vez creados y $100 por registro si los errores no se solucionan. Esta investigación afirma que cuanto más proactivo sea usted a la hora de garantizar la salud de sus datos, más costos de calidad de los datos se evitarán.

Una estrategia integral de salud de los datos que tenga en cuenta la salud de los mismos desde la estructura de la base de datos hasta las aplicaciones, conduce a una mayor calidad de los datos. Los datos y los sistemas deben limpiarse y evaluarse en tres niveles.

Nivel estructural de la base de datos

Las bases de datos y las tablas de datos deben organizarse de manera eficaz y funcionar correctamente para evitar errores. Los procesos de reparación de bases de datos eficaces solucionan los problemas de calidad de los datos en su origen.

Datos en reposo

Los datos dentro de su base de datos deben someterse a un proceso de limpieza de datos regular que busque errores, inconsistencias, duplicaciones y entradas faltantes.

Transformación de datos

Se crean nuevos errores de datos a medida que los datos se convierten y se mueven. Las organizaciones necesitan estrategias para garantizar la salud de los datos mediante diferentes transformaciones, incluidos los procesos ETL (Extracción, Transformación y Carga) y de manipulación de datos.

Reparación de base de datos

Asegurarse de que sus bases de datos y su estructura estén en buen estado puede tener un impacto significativo en su estrategia de salud de los datos. Al centrarse en la fuente de datos, se reducen los problemas repetitivos de calidad de los datos posteriores. Los primeros pasos para mantener sus datos en buen estado son actualizar la tecnología de bases de datos y reparar las bases de datos mal estructuradas.

Evaluar cómo se organizan y estructuran las bases de datos reduce la aparición de datos no saludables. Consolidar los formatos de datos en una estructura común puede reducir los datos conflictivos y duplicados. La creación de un formato de número de teléfono estándar es un ejemplo. En lugar de mantener múltiples formatos con guiones, puntos, códigos de área y códigos de país, las organizaciones pueden definir un formato de cadena de texto que solo incluya números para utilizar en todos los sistemas. Esta táctica reduce la cantidad de tipos de datos, lo que disminuye las posibilidades de confusión.

Cambiar el esquema para mejorar el rendimiento es otra forma de organizar las bases de datos para promover la salud de los datos. Algunos ejemplos incluyen la consolidación de claves principales para aumentar la coherencia. Reparar y estandarizar las tablas de origen puede reducir el esfuerzo necesario para estandarizar los datos cada vez que se extraen para su análisis. Si bien ajustar el esquema para que sea más uniforme puede limitar los errores en el futuro, puede causar problemas a corto plazo, ya que las aplicaciones posteriores deben ajustarse para incorporar los cambios de esquema. Una capa de federación que funcione como puerta de enlace a su base de datos puede ayudar a detectar cambios de esquema para garantizar que las aplicaciones posteriores se actualicen de manera adecuada.

Prácticas esenciales de limpieza de datos

A diferencia de la reparación de bases de datos, la limpieza de datos se centra en los datos en sí. La limpieza de bases de datos es un proceso que requiere una atención constante y regular. En un hospital, los contaminantes se introducen constantemente en las instalaciones, por lo que es necesaria una esterilización regular para evitar que los gérmenes enfermen a las personas. Tus bases de datos no son diferentes.

Los procesos de limpieza regulares deben centrarse en:

Eliminando duplicados
Eliminando duplicados

Los datos duplicados desperdician espacio en una base de datos y generan confusión, lo que dificulta la obtención de información precisa. Con la cantidad de datos recopilados y almacenados en silos de datos, a menudo se producen múltiples versiones del mismo registro. La desduplicación de datos es un ejercicio de limpieza de datos vital, ya que el recuento doble de los mismos puntos de datos distorsiona el análisis.

Reparación de datos incorrectos
Reparación de datos incorrectos

Los errores como faltas de ortografía, errores de mayúsculas y faltas de coherencia en los nombres pueden confundir a las aplicaciones y a los análisis que dependen de formatos estandarizados. Encontrar y corregir estos errores ayuda a mantener los datos limpios.

Manejo de datos faltantes
Manejo de datos faltantes

La falta de datos puede distorsionar el análisis. Para solucionar los problemas de falta de datos, es posible que sea necesario agregar datos con suposiciones razonables o eliminar una columna o un conjunto de datos completos si la cantidad de datos faltantes es excesiva.

Eliminar datos irrelevantes o antiguos
Eliminar datos irrelevantes o antiguos

Los datos antiguos o irrelevantes ocupan espacio de almacenamiento, lo que genera confusión. Los datos antiguos también pueden entrar en conflicto con los datos más recientes o confundirse con datos actualizados, lo que contamina el análisis.

Filtrado de datos atípicos

Los valores atípicos en su conjunto de datos pueden indicar un error, pero no siempre. Identificar los valores atípicos, determinar su causa y tomar las medidas adecuadas reduce la cantidad de puntos de datos erróneos en sus conjuntos de datos.

La validación de datos puede ayudar a evitar algunos de estos errores durante la entrada de datos. La creación de reglas de validación y su incorporación a la pila de datos puede facilitar las pruebas en tiempo real para identificar errores de forma temprana.

Preparación y transformación de datos

Los procesos se complican cuando los datos se transfieren de una base de datos a otra, se transforman o se fusionan con un nuevo conjunto de datos. Asegurarse de que los procesos de transformación no introduzcan ni perpetúen datos incorrectos es esencial para mantener los datos en buen estado. Cuando los datos se originan en bases de datos independientes, las probabilidades de que se dupliquen son altas. El etiquetado diferente entre bases de datos también puede provocar errores.

Los datos se transforman de muchas maneras, pero normalmente se transforman y preparan para el análisis o se estandarizan para cargarse en una base de datos para aplicaciones o análisis futuros.

Los procesos de extracción, transformación y carga (ETL) son el enfoque de transformación más común para trasladar datos de una base de datos a otra. El proceso ETL extrae datos de una base de datos, los transforma y luego los carga en la base de datos de destino. La estructura de la base de datos de destino suele dictar estas transformaciones, que están bien definidas y son sistemáticas. Son escalables y adecuadas para grandes conjuntos de datos.

Los procesos de manipulación de datos son diferentes y mucho más ágiles. Estos procesos son clave para preparar los conjuntos de datos para el análisis. Las tecnologías de manipulación de datos admiten datos estructurados y no estructurados.

Comprender estas diferencias es importante para respaldar datos más saludables.

ETL

Los procesos ETL suelen comenzar con datos bien organizados y estructurados. Esta estructura permite procesos de transformación más automatizados y sistemáticos. Estos programas de transformación son creados por desarrolladores con orientación técnica que utilizan tecnologías potentes como Python y Scala. Si bien una mayor automatización es excelente para la eficiencia, también puede perpetuar los datos incorrectos y los errores mucho más rápidamente. Estas automatizaciones también son difíciles de crear, por lo que son difíciles de cambiar, lo que hace que el proceso ETL sea mucho menos ágil. Hacerlo bien la primera vez es clave para mantener los datos en buen estado.

El primer paso del proceso ETL es extraer datos de la base de datos de origen. Pueden producirse errores cuando los datos de origen no están limpios, por lo que es importante realizar un perfil de datos para comprender la calidad de los mismos. Si la calidad de los datos no es muy buena al principio, y está plagada de valores faltantes, duplicados y valores que están fuera de rango, tendrá que volver atrás para realizar una limpieza de datos.

El proceso de transformación reformatea los datos para que puedan ser ingeridos en las bases de datos de destino. Esto incluye la normalización de los datos para que los formatos sean consistentes entre la base de datos de origen y la de destino. Pueden ocurrir errores si los datos están mal etiquetados o las estructuras de datos no están alineadas, lo que hace que la limpieza de datos sea una parte importante del proceso de transformación. Se pueden incorporar rutinas para identificar datos sucios y rectificar errores en el programa ETL. El filtrado de datos elimina los datos no deseados, lo que reduce la complejidad. Por último, se ejecutan comprobaciones de validación para verificar inconsistencias o para identificar valores atípicos.

El paso final del proceso es cargar los datos en la base de datos de destino. Si se producen errores en esta etapa, es fundamental contar con un proceso de control de versiones para poder recurrir a una versión anterior del código y solucionar los errores.

Manipulación de datos

Al igual que el ETL, la manipulación de datos es un proceso de transformación en el que pueden producirse errores de datos. La manipulación de datos es el proceso de creación de activos de datos que se utilizarán en un caso de uso analítico definido. Los requisitos del caso de uso analítico impulsan las transformaciones. Este requisito requiere más agilidad y la capacidad de incorporar datos no estructurados.

La manipulación de datos requiere un proceso más manual y dinámico. Para garantizar que el análisis se base en datos de la más alta calidad, los equipos deben descubrir, organizar, limpiar, enriquecer y validar los datos.

En el caso de la manipulación de datos, el primer paso para realizar un análisis de calidad es comprender el estado y la aplicabilidad de los conjuntos de datos subyacentes. Esto significa comprender qué hay disponible, qué se ajustará a los requisitos y evaluar la calidad de los conjuntos de datos. Las métricas de calidad de los datos, como las pruebas de distribución y las pruebas de rango de validez, brindan información sobre el estado de los datos. Comprender los problemas existentes, el tamaño del conjunto de datos y los formatos de datos son factores que se deben tener en cuenta antes de utilizar los datos para respaldar el análisis. A diferencia de los procesos ETL, la manipulación de datos no está limitada por las automatizaciones preconstruidas. Esta diferencia significa que los analistas tienen la flexibilidad de buscar los mejores conjuntos de datos, evitando los datos menos depurados. Los catálogos de datos sólidos que son accesibles y mantienen y rastrean estos datos son beneficiosos para medir el estado de los datos.

La organización de los conjuntos de datos que se utilizarán en el análisis es otro proceso fundamental. Cuando se trabaja con datos no estructurados, este proceso se vuelve mucho más difícil. Los datos no estructurados deben organizarse en filas y columnas para su análisis. Se pueden utilizar técnicas de etiquetado para crear más estructura en torno a estos datos y proporcionar más información sobre los documentos no estructurados para que se puedan organizar de forma más eficiente. Este proceso está surgiendo como un caso de uso viable para GenAI. Estas tecnologías pueden analizar documentos para comprender su significado y marcarlos en consecuencia. El etiquetado adecuado de los datos reduce las posibilidades de que GenAI cometa errores.

Al igual que en la enseñanza del inglés, los procesos de limpieza de datos son esenciales en la manipulación de datos. Las estrategias de limpieza pueden identificar valores atípicos y preparar los datos para el análisis eliminando el ruido en los datos y garantizando que los conjuntos de datos sean relevantes. Corregir la ortografía y estandarizar las abreviaturas es mucho más complejo cuando se trabaja con texto no estructurado. La IA se puede utilizar para corregir estos problemas.

El proceso de normalización de datos en la manipulación de datos difiere ligeramente del ETL porque los estándares se basan en el caso de uso comercial en lugar de en una estructura y un esquema de base de datos rígidos. Los motores de gestión de metadatos robustos pueden mejorar este proceso. Con GenAI integrado y glosarios comerciales, los usuarios comerciales pueden normalizar y combinar datos en función de las definiciones y los cálculos comerciales.

El enriquecimiento de datos es otra técnica que implica combinar conjuntos de datos o productos de datos predefinidos para brindar un contexto más amplio para un análisis más profundo y claro. Completar los datos faltantes con datos sintéticos es otra estrategia para reforzar la calidad de los conjuntos de datos.

Al igual que los procesos ETL, las pruebas de validación de datos son vitales para garantizar la limpieza de los datos después de ejecutar los procesos de manipulación de datos.

Herramientas de creación de datos

Disponer de las herramientas y los procesos adecuados para crear transformaciones de datos es la mejor manera de cumplir con las mejores prácticas y reducir la posibilidad de que se produzcan errores en las transformaciones de datos. Al igual que las herramientas DevOps en el ámbito del software, las herramientas de creación de datos respaldan los procesos de transformación de datos con bancos de trabajo de desarrollo y controles de calidad. Las funciones incluyen controles de versiones, pruebas y registros.

Las transformaciones de datos evolucionan constantemente. Para garantizar la calidad, es necesario probarlas cada vez que se actualiza el código. La creación o el ajuste de consultas puede generar una multitud de problemas, incluidas uniones de datos incorrectas que introducen errores en el flujo de trabajo. Disponer de un proceso para crear transformaciones es fundamental para evitar errores.

Herramientas como dbt (herramienta de creación de datos) permiten flujos de trabajo de transformación saludables. La herramienta permite a los analistas:

  • Cree consultas y transformaciones SQL complejas utilizando lógica empresarial.
  • Pruebe las transformaciones para predecir de forma proactiva cómo los cambios afectarán las dependencias posteriores.
  • Ejecutar el código.
  • Crear documentación.

Después de todo el trabajo que ha realizado limpiando datos, reducir la posibilidad de introducir datos erróneos con herramientas y flujos de trabajo efectivos simplemente tiene sentido.

La integración de estas herramientas con su conjunto de datos facilita su uso y agiliza el proceso de transformación de datos. Se puede acceder a plantillas y transformaciones previamente probadas e implementarlas fácilmente. Esta capacidad no solo reduce los posibles errores, sino que también reduce el esfuerzo necesario para crear productos y procesos de datos.

La combinación de herramientas, flujos de trabajo y datos crea un marco para respaldar la calidad de los datos. A través de un adaptador dpt, los usuarios de la plataforma de datos a IA, Avrio, pueden escribir y probar transformaciones SQL complejas que utilizan el motor de consultas federadas de Avrio, lo que respalda sus requisitos de calidad de datos.

Comprender cómo limpiar los datos y mantenerlos limpios durante todo el recorrido desde la recopilación hasta el análisis es extremadamente importante para generar confianza en los datos. Las crecientes capacidades de GenAI para preparar datos no estructurados para el análisis están creando nuevas oportunidades para obtener más información, pero las nuevas complejidades podrían generar datos sucios. Tener una estrategia de salud de datos compleja que abarque los datos estructurados y no estructurados desde el sistema de origen hasta el análisis ayudará a garantizar que los tomadores de decisiones reciban datos limpios y relevantes.

Discover the Latest in Data and AI Innovation

  • Blog

    Fomentar una cultura basada en datos

    Read More

  • E-book

    Datos no estructurados con la pila de datos moderna

    Read More

  • Blog

    Caso: Creación de una estrategia confiable de calidad de datos en la era de la IA

    Read More

Request a Demo TODAY!

Take the leap from data to AI