Comment instaurer la confiance grâce aux produits de données



Listen to this blog
Disclaimer

Pour que les organisations fonctionnent efficacement, les décideurs doivent être capables de prendre de bonnes décisions basées sur les données. Il est juste de dire que la confiance dans les données est primordiale dans les organisations d'aujourd'hui axées sur les données. À mesure que l'application de l'IA se généralise, la qualité des données devient plus critique. Si nous formons par erreur des modèles d'IA avec de mauvaises données, nous obtiendrons inévitablement de mauvais résultats. Si les modèles d'IA interagissant avec les clients fonctionnent mal, cela peut avoir un impact significatif sur l'entreprise et la valeur de la marque à long terme. Vous devez pouvoir faire confiance à vos données aussi fortement qu'à vos employés.

Si la confiance dans les données est essentielle, elle reste étonnamment faible. En 2020, KPMG a constaté que seulement 35 % des décideurs faisaient confiance aux données de leur entreprise. Une autre étude réalisée en 2023 par Precisely et la LeBow School of Business a révélé une certaine amélioration ; néanmoins, seuls 46 % des répondants avaient une confiance élevée ou très élevée dans leurs données.

Les organisations commettent plusieurs erreurs qui conduisent à une mauvaise qualité des données et à une rupture de confiance :

  • Publication de données obsolètes
  • Publication de données inexactes
  • Publication de données incomplètes
  • Ne pas fournir le contexte pour garantir que les données sont bien comprises

Ces erreurs conduisent à de mauvaises décisions et à de mauvaises performances commerciales. Par exemple, si un employé s’engage auprès d’un client sur la base de données erronées et n’est pas en mesure de tenir sa promesse, l’entreprise risque de perdre non seulement le client mais aussi sa réputation.

Il est facile de perdre la confiance des autres, mais une fois perdue, il est très difficile de la regagner. Une fois que les dirigeants ont accès à des données erronées ou examinent des rapports comportant des erreurs, leur confiance dans les données futures est ébranlée.

Pourquoi les produits de données sont plus fiables que les pipelines de données

Améliorer la confiance dans les données nécessite un changement fondamental dans la façon dont nous accédons aux données et les utilisons. Le processus traditionnel d’accès aux données a été rendu possible par le lancement de projets individuels et la création de pipelines ETL. Le succès de ces projets se mesure à la quantité de code développé et à la quantité de données livrées. La qualité des données, bien qu’importante, n’est qu’une partie de l’équation. Dans une mentalité basée sur les projets, la quantité de production est la mesure du succès.

Cependant, lorsque l'objectif est de se concentrer sur les résultats commerciaux, la qualité des données devient la principale mesure de la réussite. La confiance se construit lorsque les objectifs et les motivations des praticiens des données correspondent à ceux des utilisateurs des données. Le succès d'un produit de données ne se mesure pas à la quantité de données qu'il fournit, mais à la façon dont il répond aux besoins de ses utilisateurs. La genèse de tout produit de données provient d'un résultat commercial souhaité. Même si les produits de données donnent accès à de vastes quantités de données très rapidement, ils ne seront pas utilisés s'ils ne répondent pas aux besoins des utilisateurs, limitant ainsi leur capacité à produire des résultats commerciaux positifs. Pour qu'un produit de données soit efficace, les utilisateurs doivent lui faire suffisamment confiance pour fonder leurs décisions sur son résultat.

Une visibilité et une collaboration accrues réduisent les erreurs et renforcent la confiance

La réussite des produits de données repose sur une équipe diversifiée composée de différentes fonctions qui travaillent ensemble pour fournir des résultats commerciaux supérieurs. Ce processus doit être fondé sur la confiance, la transparence, la visibilité et la collaboration entre collègues. La confiance entre les équipes de produits de données se traduit par des données auxquelles les utilisateurs peuvent faire confiance.

Avec les processus ETL basés sur des projets, la collaboration, la visibilité et la transparence constituent un défi. En général, ces projets naissent d'une demande de données d'un utilisateur. Cependant, une fois le pipeline construit et les données livrées, l'utilisateur peut ne pas avoir de visibilité sur la manière dont les données ont été collectées ni sur le moment où elles ont été collectées.

De même, les ingénieurs de données ne savent pas toujours comment les données qu'ils fournissent sont utilisées en aval. Ils peuvent ne pas savoir comment leurs actions influenceront l'analyse en aval des modèles d'IA. Par exemple, si un ingénieur de données modifie le schéma d'un ensemble de données, cela peut perturber certaines analyses ou certains tableaux de bord qui reposent sur cet ensemble de données.

De plus, il manque un processus de retour d'information. Comme ces processus sont codés en dur, il est difficile de les modifier et d'intégrer les retours d'information, même s'il existe une meilleure visibilité sur leur utilisation.

Instaurer la confiance grâce aux produits de données

Les stratégies de produits de données réussies reposent sur une pile ou une plateforme de données standard qui permet une meilleure collaboration, une meilleure visibilité et une plus grande transparence.

Collaboration

Une communication et une collaboration améliorées renforcent toujours la confiance et doivent donc faire partie intégrante d’une stratégie de produit de données.

La collaboration autour de l’accès aux données et le partage des responsabilités en matière de protection des données créent une compréhension commune entre les équipes de données. Les stratégies de gouvernance fédérées, dans lesquelles les équipes informatiques centrales et les gestionnaires de domaine partagent la responsabilité de la gouvernance des données, sont une caractéristique essentielle des stratégies de données basées sur des produits. L’avantage de cette approche est que les personnes les plus familiarisées avec les données, les gestionnaires de domaine, sont plus impliquées dans la gouvernance des données. Cela favorise une approche plus nuancée et plus pratique de la gouvernance des données. Le partage des responsabilités en matière de gouvernance des données permet une plus grande évolutivité et une plus grande agilité, car toutes les politiques de gouvernance ne doivent pas nécessairement être exécutées par le service informatique.

Pour que cette stratégie fonctionne, les domaines et les autorités informatiques doivent collaborer et se faire mutuellement confiance. Les différents domaines et le service informatique doivent collaborer pour définir qui est responsable de la gouvernance de quels ensembles de données, où se termine le contrôle informatique et où commence les domaines. Une compréhension et une communication claires évitent toute confusion. Il en résulte des produits de données flexibles et adaptables avec une qualité de données élevée à laquelle les utilisateurs peuvent faire confiance.

Les producteurs et les consommateurs de données peuvent également instaurer la confiance grâce à la collaboration. Au lieu d'une approche basée sur des projets où les données sont jetées par-dessus la proverbiale « barrière », les produits de données évoluent constamment. Les créateurs de produits de données peuvent régulièrement intégrer les commentaires des utilisateurs. Cet échange de commentaires renforce la confiance entre les créateurs et les utilisateurs, garantissant que les créateurs placent les résultats commerciaux des utilisateurs au centre du processus de développement.

Les utilisateurs collaborent également avec d'autres utilisateurs pour renforcer la validité. En règle générale, les marchés de produits de données permettent aux utilisateurs d'évaluer les produits de données afin de valider la qualité et l'utilité de ces produits.

Fournir une plateforme pour aligner les participants et permettre la collaboration et la rétroaction tout au long du processus favorise une plus grande confiance au sein de l'équipe et la confiance des utilisateurs dans leur production.

Visibilité et transparence

La visibilité et la transparence sont essentielles pour fournir des produits de données fiables. Le manque de visibilité entraîne généralement des erreurs dans les approches linéaires de type cascade, souvent utilisées pour développer des pipelines ETL, offrant très peu de visibilité entre les utilisateurs de données et l'ingénieur qui développe le processus. Si une erreur se produit dans le processus de transformation, l'utilisateur des données peut ne pas savoir qu'il y a un problème et continuera à utiliser des données obsolètes ou erronées dans son analyse. D'un autre côté, les ingénieurs de données n'ont généralement pas de visibilité sur la manière dont les modifications qu'ils intègrent dans le backend affectent les modèles des analystes.

Les produits de données, la fédération de données et la gestion centralisée des métadonnées servent de passerelle entre les ingénieurs de données et les utilisateurs de données. Les gestionnaires et producteurs de produits de données facilitent une meilleure compréhension des exigences, des besoins et des préoccupations entre les ingénieurs de données et les consommateurs de données.

Une plateforme de production de produits de données sert de lieu central de collaboration, recueillant des informations sur la santé des produits de données et leur application à des cas d'utilisation ou à divers modèles. La clé de cette transparence est une plateforme de gouvernance fédérée qui suit et gère les politiques de gouvernance dans tous les domaines. Tous les participants peuvent fournir des informations et collecter des données sur les produits de données et les données qui les constituent, telles que :

  • Exhaustivité : nombre d'enregistrements avec des valeurs de données incomplètes ou nulles.
  • Validité : si les données reflètent la réalité ou ce que vous vous attendez à voir.
  • Actualité : degré d’actualité des données.
  • Lignée : source des données et sa fiabilité.
  • Précision : mesure de l'exactitude des données.
  • Unicité : fréquence de répétition d'une valeur.

Le plan de contrôle des métadonnées est au cœur de cette plateforme, qui offre une transparence sur les métadonnées à l'échelle de l'entreprise. Une plateforme de données fédérée consolide les données de toute une organisation pour offrir une meilleure visibilité sur la qualité et la lignée des données. Ce référentiel central suit également les modifications des métadonnées à la source pour garantir que les analystes de données peuvent adapter leurs modèles et leurs analyses en conséquence. Des alertes automatiques sont envoyées aux utilisateurs abonnés pour les informer des modifications et de l'état des données grâce à ce système de suivi centralisé.

Contexte

Des données de haute qualité sont fondamentales pour créer la confiance dans les données, tout comme l'apport d'un contexte approprié autour de ces données. La terminologie commerciale n'est pas toujours uniforme d'un domaine à l'autre. Si les utilisateurs de données ne comprennent pas la signification d'un terme ou la manière dont les KPI sont calculés, des erreurs se produiront et les utilisateurs perdront confiance. Les glossaires de données sont extrêmement utiles pour garantir que les utilisateurs comprennent la signification des données avec lesquelles ils travaillent afin d'éviter toute confusion et toute erreur.

Découvrabilité

La capacité à trouver le bon ensemble de données pour un projet d’analyse contribue également à renforcer la confiance dans vos actifs de données. L’évaluation des indicateurs de santé et de qualité de tous les ensembles de données à partir d’un seul panneau de contrôle permet aux analystes de prendre en compte plusieurs variables avant d’ajouter un ensemble de données à leur analyse. En outre, une place de marché de produits de données qui exploite l’IA peut recommander les meilleurs produits de données aux utilisateurs. Cette capacité renforce la confiance dans le fait que ces plateformes sont conçues pour fournir non seulement de meilleures données, mais également de meilleurs résultats commerciaux.

À l’ère des données et de l’IA, nous dépendrons de plus en plus des données que nous collectons et sur lesquelles nous basons nos décisions. La capacité à faire confiance à la qualité de ces données aura des effets profonds sur les résultats des entreprises. Ceux qui réussiront feront de la qualité et de l’intégrité des données une priorité absolue.

Pour en savoir plus sur la création de produits de données fiables avec la plateforme Avrio, planifiez une démonstration.

Discover the Latest in Data and AI Innovation

  • Blog

    Favoriser une culture axée sur les données

    Read More

  • E-book

    Données non structurées avec la pile de données moderne

    Read More

  • Blog

    Cas - Construire une stratégie fiable de qualité des données à l'ère de l'IA

    Read More

Request a Demo TODAY!

Take the leap from data to AI