Cómo generar confianza con productos de datos



Listen to this blog
Disclaimer

Para que las organizaciones funcionen de manera eficiente, los tomadores de decisiones deben poder tomar buenas decisiones basadas en datos. Es justo decir que la confianza en los datos es primordial en las organizaciones basadas en datos de hoy. A medida que la aplicación de IA se generaliza, la calidad de los datos se vuelve más crítica. Si entrenamos por error los modelos de IA con datos incorrectos, inevitablemente se obtendrán malos resultados. Si los modelos de IA que interactúan con los clientes tienen un rendimiento deficiente, puede tener un impacto significativo en el negocio y el valor de la marca a largo plazo. Debe poder confiar en sus datos con la misma fuerza con la que confía en sus empleados.

Si bien la confianza en los datos es vital, sorprendentemente es baja. En 2020, KPMG descubrió que solo el 35 % de los tomadores de decisiones confiaban en los datos de su empresa. Otro estudio realizado en 2023 por Precisely y la LeBow School of Business reflejó cierta mejora; no obstante, solo el 46 % de los encuestados tenía una confianza alta o muy alta en sus datos.

Las organizaciones cometen varios errores que conducen a una mala calidad de los datos y a la pérdida de confianza:

  • Publicación de datos obsoletos
  • Publicación de datos inexactos
  • Publicación de datos incompletos
  • No proporcionar el contexto para garantizar que los datos se comprendan bien

Estos errores conducen a malas decisiones y a un bajo rendimiento empresarial. Por ejemplo, si un empleado asume un compromiso con un cliente basándose en datos erróneos y no es capaz de cumplir esa promesa, la empresa corre el riesgo de perder no solo al cliente, sino también su reputación.

Perder la confianza es fácil, pero una vez perdida, recuperarla es muy difícil. Una vez que los ejecutivos consumen datos erróneos o revisan informes con errores, su confianza en los datos futuros se ve afectada.

Por qué los productos de datos son más confiables que los canales de datos

Para mejorar la confianza en los datos es necesario un cambio fundamental en la forma en que accedemos a los datos y los utilizamos. El proceso tradicional de acceso a los datos se ha hecho posible mediante el lanzamiento de proyectos individuales y la creación de canales de extracción, transformación y carga (ETL). El éxito de estos proyectos se mide en función de la cantidad de código que se desarrolla y la cantidad de datos que se entregan. La calidad de los datos, si bien es importante, es solo una parte de la ecuación. En una mentalidad basada en proyectos, la cantidad de resultados es la medida del éxito.

Sin embargo, cuando cambiamos el objetivo a los resultados empresariales, la calidad de los datos se convierte en la medida central del éxito. La confianza se construye cuando los objetivos y las motivaciones de los profesionales de los datos se alinean con los de los usuarios de los datos. Un producto de datos exitoso no se mide por la cantidad de datos que proporciona, sino por lo bien que satisface las necesidades de sus usuarios. La génesis de cualquier producto de datos proviene de un resultado empresarial deseado. Incluso si los productos de datos brindan acceso a grandes cantidades de datos muy rápidamente, no se utilizarán si no satisfacen las necesidades de los usuarios, lo que limita su capacidad de ofrecer resultados empresariales positivos. Para que un producto de datos tenga éxito, los usuarios deben confiar en él lo suficiente como para basar sus decisiones en su resultado.

Una mayor visibilidad y colaboración reducen los errores y generan confianza

El éxito de los productos de datos depende de un equipo diverso con distintas funciones que trabajan juntas para ofrecer resultados comerciales superiores. Este proceso debe basarse en la confianza, la transparencia, la visibilidad y la colaboración entre colegas. La confianza entre los equipos de productos de datos se traduce en datos en los que los usuarios pueden confiar.

En los procesos ETL basados en proyectos, la colaboración, la visibilidad y la transparencia son un desafío. Por lo general, estos proyectos se originan con una solicitud de datos de un usuario; sin embargo, una vez que se crea el flujo de trabajo y se entregan los datos, es posible que el usuario no tenga visibilidad de cómo o cuándo se recopilaron los datos.

De manera similar, los ingenieros de datos no siempre saben cómo se utilizan posteriormente los datos que entregan. Es posible que no sean conscientes de cómo sus acciones influirán en el análisis posterior de los modelos de IA. Por ejemplo, si un ingeniero de datos cambia el esquema de un conjunto de datos, podría dañar algunos análisis o paneles que dependen de ese conjunto de datos.

Además, no existe un proceso para brindar retroalimentación. Como estos procesos están codificados, es difícil cambiarlos e incorporarlos, incluso si existe una mayor visibilidad sobre su uso.

Generando confianza con productos de datos

Las estrategias de productos de datos exitosas se basan en una pila o plataforma de datos estándar que permite una mayor colaboración, visibilidad y transparencia.

Colaboración

Una mejor comunicación y colaboración siempre generan más confianza y, por lo tanto, deberían ser un aspecto integral de una estrategia de producto de datos.

La colaboración en torno al acceso a los datos y el hecho de compartir la responsabilidad de protegerlos crea un entendimiento común entre los equipos de datos. Las estrategias de gobernanza federada, en las que los equipos de TI centrales y los administradores de dominio comparten la responsabilidad de la gobernanza de datos, son una característica fundamental de las estrategias de datos creadas sobre productos. El beneficio de este enfoque es que las personas más familiarizadas con los datos, los administradores de dominio, están más involucrados en la gobernanza de datos. Esto respalda un enfoque más matizado y práctico de la gobernanza de datos. Compartir la responsabilidad de la gobernanza de datos permite una mayor escalabilidad y agilidad, ya que no todas las políticas de gobernanza deben ejecutarse a través del departamento de TI.

Para que esta estrategia funcione, los dominios y las autoridades de TI deben colaborar y confiar entre sí. Los diferentes dominios y el departamento de TI deben colaborar para definir quién es responsable de la gobernanza de qué conjuntos de datos, dónde termina el control de TI y dónde comienzan los dominios. Una comprensión y una comunicación claras evitan la confusión. Esto da como resultado productos de datos flexibles y adaptables con una alta calidad de datos en los que los usuarios pueden confiar.

Los productores y consumidores de datos también pueden generar confianza mediante la colaboración. En lugar de un enfoque basado en proyectos en el que los datos se lanzan por encima de la proverbial "valla", los productos de datos evolucionan constantemente. Los creadores de productos de datos pueden incorporar periódicamente los comentarios de los usuarios. Este intercambio de comentarios genera confianza entre creadores y usuarios, lo que garantiza que los creadores tengan el resultado comercial de los usuarios en el centro del proceso de desarrollo.

Los usuarios también colaboran con otros usuarios para generar validez. Normalmente, los mercados de productos de datos permiten a los usuarios calificar los productos de datos para validar su calidad y utilidad.

Proporcionar una plataforma para alinear a los participantes y permitir la colaboración y la retroalimentación durante todo el proceso fomenta una mayor confianza entre el equipo y la confianza de los usuarios en sus resultados.

Visibilidad y Transparencia

La visibilidad y la transparencia son fundamentales para ofrecer productos de datos fiables. La falta de visibilidad conduce a errores, por lo general en los enfoques lineales de tipo cascada que se suelen utilizar para desarrollar procesos de ETL, lo que proporciona muy poca visibilidad entre los usuarios de los datos y el ingeniero que desarrolla el proceso. Si se produce un error en el proceso de transformación, es posible que el usuario de los datos no sepa que existe un problema y seguirá utilizando datos obsoletos o erróneos en sus análisis. Por otro lado, los ingenieros de datos normalmente no tienen visibilidad de cómo los cambios que incorporan en el backend afectan a los modelos de los analistas.

Los productos de datos, la federación de datos y la gestión centralizada de metadatos actúan como un puente entre los ingenieros de datos y los usuarios de datos. Los gerentes y productores de productos de datos facilitan una mejor comprensión de los requisitos, las necesidades y las inquietudes entre los ingenieros de datos y los consumidores de datos.

Una plataforma de producción de productos de datos actúa como un lugar central para la colaboración, obteniendo información sobre el estado de los productos de datos y su aplicación a casos de uso o diversos modelos. La clave de esta transparencia es una plataforma de gobernanza federada que realiza un seguimiento y gestiona las políticas de gobernanza en todos los dominios. Todos los participantes pueden proporcionar información y recopilar datos sobre los productos de datos y los datos que los constituyen, como:

  • Completitud: recuento del número de registros con valores de datos incompletos o nulos.
  • Validez: si los datos reflejan la realidad o lo que esperarías ver.
  • Oportunidad: qué tan actualizados están los datos.
  • Linaje: fuente de los datos y su confiabilidad.
  • Precisión: medidas de exactitud de los datos.
  • Unicidad: frecuencia de repetición de un valor.

El plano de control de metadatos es el núcleo de esta plataforma, ya que proporciona transparencia en los metadatos de toda la empresa. Una plataforma de datos federada consolida los datos de toda la organización para proporcionar una mayor visibilidad de la calidad y el linaje de los datos. Este repositorio central también realiza un seguimiento de los cambios en los metadatos en la fuente para garantizar que los analistas de datos puedan adaptar sus modelos y análisis en consecuencia. Se envían alertas automáticas a los usuarios suscritos para informarles de los cambios y el estado de los datos con este sistema de seguimiento centralizado.

Contexto

Los datos de alta calidad son fundamentales para generar confianza en los datos, como también lo es brindarles el contexto correcto. La terminología empresarial no siempre es uniforme en todos los dominios. Si los usuarios de los datos no saben qué significa un término o cómo se calculan los KPI, se producirán errores y los usuarios perderán la confianza. Los glosarios de datos son extremadamente útiles para garantizar que los usuarios comprendan el significado de los datos con los que trabajan para evitar confusiones y errores.

Descubrimiento

La capacidad de encontrar el conjunto de datos adecuado para un proyecto de análisis también ayuda a generar confianza en sus activos de datos. La evaluación de métricas de salud y calidad en todos los conjuntos de datos desde un único panel permite a los analistas considerar múltiples variables antes de agregar un conjunto de datos a su análisis. Además, un mercado de productos de datos que aprovecha la IA puede recomendar los mejores productos de datos para los usuarios. Esta capacidad genera confianza en que estas plataformas están diseñadas para brindar no solo mejores datos, sino también mejores resultados comerciales.

En la era de los datos y la inteligencia artificial, dependeremos cada vez más de los datos que recopilamos y en los que basamos nuestras decisiones. La capacidad de confiar en la calidad de estos datos tendrá efectos profundos en los resultados empresariales. Quienes triunfen harán de la calidad y la integridad de los datos una prioridad máxima.

Para obtener más información sobre cómo crear productos de datos confiables con la plataforma Avrio, programe una demostración.

Discover the Latest in Data and AI Innovation

  • Estrategias de integración y sincronización de datos en productos de datos

    Read More

  • Cómo generar confianza con productos de datos

    Read More

  • Ciclo de vida de la salud de los datos: estrategias de limpieza y transformación de datos

    Read More

Request a Demo TODAY!

Take the leap from data to AI