Observabilité dans les produits de données


Vous ne pouvez pas gérer et optimiser ce que vous ne voyez pas. Vous avez besoin d'observabilité pour comprendre comment fonctionne un système et s'il fonctionne efficacement. Les produits de données offrent un nouveau modèle d'accès aux données, et ceux qui créent des produits de données doivent suivre leur qualité et leur utilité.

Pour produire des produits de qualité, il faut des matières premières de qualité. La qualité des données utilisées dans les produits de données est essentielle à la réussite d'une stratégie de produits de données. Pour obtenir des résultats supérieurs, il faut suivre la qualité des données de la source à la consommation et observer les systèmes de données qui gèrent le processus.

Observabilité des produits de données

De nombreuses organisations adoptent une stratégie de produits de données qui crée des produits de données réutilisables au lieu de créer un pipeline de données unique pour chaque cas d'utilisation. Les produits de données sont des ensembles de données facilement accessibles, créés une fois et adaptés à plusieurs cas d'utilisation.

Une approche axée sur les produits de données exige que les ingénieurs de données réfléchissent de manière plus proactive et considèrent les livrables de données comme des produits. Cette stratégie repose sur la prise en compte par les créateurs des besoins et des difficultés de leurs utilisateurs. Pour éclairer les décisions relatives aux fonctionnalités des produits, les producteurs ont besoin d'informations sur la manière dont leurs produits de données sont utilisés. Ces commentaires permettent aux créateurs d'améliorer leur portefeuille existant et de créer de meilleurs produits de données pour l'avenir.

L'observabilité des produits de données permet de savoir qui utilise les différents produits de données et comment ces derniers les utilisent. Comprendre les rôles des utilisateurs peut aider les producteurs à mieux comprendre quelles cohortes tirent le plus de valeur de leurs produits de données et lesquelles sont mal desservies. Comprendre comment les produits de données sont utilisés pour soutenir les modèles, les tableaux de bord et les analyses peut également aider à susciter des idées innovantes pour de nouveaux produits de données. En comprenant ces tendances, les créateurs de produits de données pourront être plus proactifs, afin que les données soient prêtes pour les utilisateurs lorsqu'ils en ont besoin.

Les producteurs de produits de données peuvent également améliorer leurs produits en recueillant des commentaires directs sur ces produits. Créer une culture de travail en équipe et mettre en œuvre des canaux de commentaires formels des utilisateurs est une excellente tactique pour augmenter la valeur. La mise en place de forums où les utilisateurs et les producteurs peuvent interagir, fournir des commentaires, identifier les problèmes et suggérer de nouveaux produits de données améliore la valeur de l'écosystème des produits de données.

Le suivi des coûts et des opérations financières est un autre élément essentiel de l'observabilité des produits de données. Les produits de données utilisent-ils efficacement les ressources du cloud ? Pourraient-ils être optimisés pour réduire les ressources ? Ce type de suivi des données est essentiel à une stratégie de produits de données rentable. L'identification des produits de données qui consomment le plus de mémoire est un exemple d'observabilité des coûts.

Les mécanismes qui offrent une visibilité sur les produits de données doivent également s’étendre à tous les domaines d’activité. En règle générale, les producteurs et les utilisateurs n’interagissent pas régulièrement avec les responsables et les analystes des différentes unités commerciales. Cette séparation limite la valeur et l’étendue qu’un produit de données peut offrir. Un forum central permettant à tous de se réunir virtuellement est primordial pour une plus grande implication et une meilleure visibilité des produits de données.

Les producteurs de données sont des éléments essentiels des stratégies de produits de données et leur productivité doit également être surveillée. Qui crée le plus de produits de données et dans quel domaine offre-t-il une meilleure visibilité sur l'efficacité de vos collaborateurs ?

Si le suivi de l'utilisation des produits de données est important pour la réussite, il est tout aussi important de s'assurer que les produits de données sont fiables. Pour que les produits de données soient fiables, les analystes et les utilisateurs doivent pouvoir observer leur qualité. Il peut s'agir de mesures de suivi sur la correspondance floue, la sensibilité des données et l'identité référentielle.

Correspondance floue

Ce test mesure les similitudes de différentes lignes dans des produits de données. Ce test suit la probabilité que des lignes en double existent dans un produit de données. Le test n'identifie pas les correspondances exactes, mais signale les similitudes qui nécessitent une enquête supplémentaire pour éviter les doublons. Ce test est utile lors de la jonction de plusieurs ensembles de données dans un produit de données qui peuvent contenir des données en double similaires.

Sensibilité des données

Ce test mesure l'exhaustivité des données du produit de données. Ce test compte le nombre de lignes d'une table du produit de données et le compare à une norme de référence. Un test d'exhaustivité déterminera si ce nombre se situe dans la plage spécifiée. Si le nombre est erroné, il se peut que des données soient manquantes ou que des données erronées aient été insérées ou dupliquées.

Identité référentielle

Ce test vérifie si la clé d'une table enfant correspond à la clé primaire de la table parent. Si les clés changent dans les tables parentes, ce test garantit également que le changement est reflété dans les tables enfants.

Les données de lignage fournissent également de meilleures informations sur la fiabilité des produits de données. Les utilisateurs peuvent visualiser la source des données dans un produit de données et évaluer leur qualité. Si les données proviennent de sources fiables, les décideurs peuvent être sûrs d'accéder à des données de qualité dans les produits de données.

En observant et en testant les produits de données de cette manière, vous vous assurez de proposer uniquement des produits de données de qualité supérieure à vos utilisateurs. Les scores de confiance qui résument les indicateurs de qualité et les commentaires des utilisateurs sont un excellent moyen pour les utilisateurs de produits de données d'avoir une certaine visibilité sur la qualité des produits de données.

Observabilité des données

Il est important d'observer le fonctionnement de vos produits de données, mais il est également impératif d'avoir une visibilité sur les systèmes qui produisent les données pour vos produits de données. Les organisations doivent mettre en place des stratégies pour surveiller, comprendre et dépanner les données et les systèmes qui produisent et stockent les données. Les organisations doivent être en mesure d'observer plusieurs facteurs importants qui favorisent l'intégrité des données. Ces facteurs incluent la fraîcheur, la qualité, le volume, le schéma et la lignée.

Fraîcheur

La fraîcheur indique depuis combien de temps vos données ont été mises à jour. Les données obsolètes sont de mauvaise qualité et ne sont pas fiables.

Qualité

La qualité suit la valeur et l'exactitude. Les tests de données de qualité peuvent vous aider à obtenir une meilleure observabilité de vos données. Des mesures telles que,

  • Exhaustivité – cette mesure suit le nombre de valeurs nulles ou de valeurs « 0 » présentes dans un ensemble de données
  • Unicité – cette mesure suit le pourcentage de valeurs uniques dans une colonne particulière. Si l'unicité est élevée, vous avez un nombre minimal de doublons.
  • Validité – ce test garantit la validité des données en comparant les modèles de données de l'ensemble de données avec les modèles de données attendus. Par exemple, si les nombres négatifs ne sont pas possibles, les tests de validité mesureront le nombre de nombres non négatifs.
Volume

Les tests de volume comptent le nombre de lignes dans votre ensemble de données. Un nombre trop faible ou trop élevé peut indiquer un problème. Les tests qui mesurent le volume incluent :

  • Sensibilité des données : cela compare le nombre de lignes d'une table à une référence et mesure si elle est dans la plage.
  • Longueur de colonne valide – ce test garantit que vous avez la longueur de colonne correcte ou qu'elle se situe dans une plage spécifiée.
Schéma

Le schéma définit l'organisation de vos données. Si cette organisation est modifiée, cela peut entraîner des erreurs. Il est essentiel de savoir qui a apporté des modifications au schéma de données et à quel moment pour suivre l'état des données.

Lignée

La lignée détaille la manière dont les ressources de données sont connectées et la manière dont les tables de données sont liées. Elle suit également le flux de la source de données à la consommation. En cas de problème, vous devez être en mesure d'observer la lignée des données pour en déterminer les causes profondes.

Pourquoi est-ce important ?

L'observation des données dans l'ensemble de votre pile de données est essentielle pour maintenir vos données propres. L'identification rapide des erreurs réduit le risque qu'elles puissent causer des dommages. Si des données erronées parviennent aux décideurs, les dirigeants perdent confiance dans l'intégrité des données de l'entreprise. Cette perte de confiance réduit la capacité des organisations à prendre des décisions. Une fois la confiance perdue, il est difficile de la regagner.

Les bonnes solutions d'observabilité des données permettent non seulement d'identifier les erreurs, mais également d'identifier leur source. Ces outils peuvent contribuer à réduire le temps moyen de résolution des erreurs et à identifier les goulots d'étranglement afin d'optimiser les fonctionnalités du système.

Défis

Obtenir une observabilité de bout en bout dans l'ensemble de votre pile de données peut s'avérer difficile. Les pipelines de données complexes et les silos de données distribués rendent difficile l'observation des données à mesure qu'elles se déplacent dans vos systèmes de données. Différents services et équipes de données peuvent utiliser différents outils pour observer les données dans leur domaine, ce qui rend l'observabilité cohérente dans tous ces silos beaucoup plus difficile. Cette fragmentation rend également difficile la recherche des causes profondes des erreurs dans différents systèmes et pipelines.

Fédération de données et gestion des métadonnées

L’émergence de la fédération des données et d’outils robustes de gestion des métadonnées consolidées contribue à relier la visibilité des données entre ces silos de données. La fédération des données relie chaque silo de données à une base de données de gestion des métadonnées centralisée. Les métadonnées suivent les informations sur les ensembles de données tels que le schéma, la fraîcheur et le volume, des éléments clés de l’observabilité des données. La centralisation de ces données permet l’observabilité entre les silos de données, ce qui est beaucoup plus difficile dans un pipeline ETL où les données peuvent faire plusieurs arrêts et où les métadonnées sources d’origine peuvent ne pas être chargées dans les bases de données cibles.

Les innovations en matière de gestion des métadonnées intègrent également l'automatisation pour enregistrer automatiquement les modifications apportées aux métadonnées lorsqu'elles sont modifiées dans les données sources. Ces données sont suivies sur une plateforme centrale, qui peut prendre en charge de meilleurs rapports et une meilleure résolution des erreurs.

L'observabilité est essentielle pour obtenir des produits de données de qualité et utiles. À une époque où les données déterminent de plus en plus nos prises de décision et alimentent l'IA, il est essentiel de suivre l'état de nos données et de nos systèmes pour tirer le meilleur parti de cet atout.

Discover the Latest in Data and AI Innovation

  • Blog

    Favoriser une culture axée sur les données

    Read More

  • E-book

    Données non structurées avec la pile de données moderne

    Read More

  • Blog

    Cas - Construire une stratégie fiable de qualité des données à l'ère de l'IA

    Read More

Request a Demo TODAY!

Take the leap from data to AI