Qu'est-ce que la lignée de données ?



Listen to this blog
Disclaimer

La lignée de données est le processus d'enregistrement et de suivi des données tout au long de leur cycle de vie et est essentielle à la qualité des données. Pour garantir la fiabilité des données utilisées pour prendre des décisions commerciales critiques, il est nécessaire de connaître leur origine. Les données changent, se mettent à jour, se fusionnent et se transforment en permanence. La lignée de données documente tous ces processus, notamment qui a modifié les données, d'où proviennent les données et pourquoi elles ont été modifiées. Au fur et à mesure que les données circulent dans les pipelines, des métadonnées sont créées pour alimenter les outils de lignée de données qui cartographient les connexions et créent des visualisations de la façon dont les données se déplacent tout au long de leur cycle de vie. La cartographie des connexions de données fournit des informations sur la manière dont les données en amont et en aval sont connectées. La lignée de données fournit une piste d'audit pour les données.

Suivi de la lignée tout au long du cycle de vie des données

Les données de lignage sont suivies à travers plusieurs étapes du cycle de vie des données, notamment la collecte, le traitement, l'accès, le stockage, l'interrogation des données et l'analyse des données. Comprendre comment et pourquoi les données de lignage sont collectées à chaque étape permettra une compréhension plus complète de la lignée des données.

Collection

La première étape de la traçabilité des données commence par la collecte des données. Une fois que les données entrent dans un système, leur source doit être documentée. Les systèmes doivent suivre la provenance des données et la fiabilité de la source. Ils doivent noter la validité et l'exactitude des données ainsi que toutes les transformations ou manipulations effectuées sur un ensemble de données avant d'entrer dans un nouveau système.

Traitement

Une fois les données collectées, la traçabilité des données doit permettre de suivre la manière dont elles sont agrégées, transformées et manipulées. La probabilité d'erreurs générant des données erronées est élevée lorsque les données sont traitées, fusionnées ou filtrées. Ces erreurs peuvent ne pas être identifiées tant que les utilisateurs en aval n'ont pas accédé aux données et ne les ont pas analysées. Une documentation appropriée est donc essentielle pour suivre toute source d'erreur. Une traçabilité efficace nécessite la création et le stockage de métadonnées pour chaque étape de traitement.

Accès et stockage

Une fois les données traitées et stockées, il faut encore capturer les données de traçabilité. Les données sur les personnes qui y accèdent sont nécessaires pour soutenir les audits de conformité. Les données peuvent être compromises si elles ne sont pas stockées correctement. Il est donc essentiel de suivre la manière dont elles sont stockées et leur emplacement pour une traçabilité des données de bout en bout.

Interrogation et analyse des données

La capture de données détaillant la manière dont les données sont interrogées et analysées est également une capacité importante dans la mise en œuvre d'une stratégie complète de traçabilité des données. La traçabilité des données ne consiste pas toujours à suivre l'état des données, mais également les performances du système. Les données sur la rapidité et l'efficacité avec lesquelles les requêtes sont effectuées peuvent être analysées pour comprendre où il peut y avoir des opportunités d'optimisation de l'ensemble du pipeline. Les administrateurs peuvent également utiliser ces métadonnées pour mieux comprendre comment les données sont utilisées et prédire les modèles d'utilisation futurs afin d'anticiper les besoins des utilisateurs.

Pourquoi la lignée des données est-elle importante ?

Le suivi de la lignée des données est un élément clé pour fournir des données fiables. Comprendre comment les données circulent dans différents systèmes et processus et comment les ensembles de données sont connectés aide les administrateurs à maintenir les données et les systèmes en bonne santé. La capacité de suivre chaque étape de l'évolution d'un ensemble de données est également essentielle pour identifier les causes profondes des erreurs de données.

En suivant les changements à chaque phase du cycle de vie et en cartographiant la relation entre chacun de ces changements, les dépanneurs peuvent remonter aux erreurs en amont pour identifier la cause de l’erreur. Dans de nombreux cas, les erreurs dans les données ne sont identifiées qu’une fois que l’ensemble de données a été déplacé plus en aval pour être analysé. Les anomalies dans les données peuvent signaler un changement de tendance ou simplement une erreur dans les données. Connaître la différence est primordial pour ne pas manquer une opportunité ou éviter de prendre des décisions basées sur des données erronées. Retracer un ensemble de données depuis le processus d’analyse jusqu’au moment où il a été collecté pour la première fois permet de renforcer considérablement la confiance dans la santé des pipelines de données. L’identification des causes profondes et la mise en œuvre de solutions contribueront également à éliminer la possibilité que les mêmes erreurs se reproduisent.

Comprendre comment les différents ensembles de données sont connectés permet également d’éviter les erreurs dès le départ. La capacité à tracer les dépendances en aval permet aux développeurs et aux ingénieurs de données de prédire l’impact des modifications sur les applications et les modèles dépendants. Par exemple, un ingénieur de données comprendra les implications d’une modification du schéma de table avant de procéder à un ajustement. Ces connaissances peuvent l’aider à trouver un chemin différent ou à modifier les applications en aval pour refléter le changement en amont et éviter les erreurs ou les échecs.

En surveillant vos processus de données sur l'ensemble de votre pile de données, vous disposez d'un mécanisme permettant de valider l'exactitude et l'intégrité de vos données. La possibilité de remonter à la source des données permet aux décideurs de juger de leur validité. Cette connaissance est particulièrement importante si les données proviennent de l'extérieur de l'organisation. Le groupe qui a créé un ensemble de données est-il aussi attentif à la qualité des données que les utilisateurs ? Il s'agit d'informations précieuses si vous prenez des décisions commerciales importantes sur la base de ces données.

Data Lineage permet de se conformer aux réglementations en suivant comment et où les données sont stockées et consultées. Il est par exemple possible de respecter les règles de souveraineté et de confidentialité des données, car la lignée des données peut indiquer si les données ont traversé les frontières nationales. Des programmes de lignée de données robustes sont également importants pour faciliter les audits de conformité rapides. Grâce à la lignée des données, les administrateurs peuvent vérifier que les données ont été gérées de manière appropriée tout au long du pipeline de données de bout en bout.

Différentes approches pour gérer la lignée des données

Bien que la valeur de la traçabilité des données de bout en bout soit évidente, l'accès à toutes les métadonnées pertinentes n'est pas toujours possible. Il existe plusieurs approches différentes pour analyser les données afin de créer une traçabilité. Basée sur des modèles, basée sur des balises, autonome et analyse.

Basé sur des modèles

Avec le suivi de la lignée de données basé sur des modèles, l'analyse des modèles dans les métadonnées révèle l'historique d'un ensemble de données. Cette approche analyse les métadonnées des tables, des colonnes et des rapports pour établir des connexions. Si deux tables ont des noms et des valeurs de données similaires, on peut supposer qu'il s'agit de versions différentes de la même table et un lien peut être noté dans une carte de lignée de données. Cette approche est indépendante de la technologie, car elle se concentre sur les modèles de données et peut fonctionner sur n'importe quel système. La lignée de données basée sur des modèles fonctionne bien avec un nombre réduit d'ensembles de données et peut ne pas être aussi efficace avec des relations de données complexes.

Basé sur les balises

Une approche basée sur des balises exploite un moteur de transformation pour baliser les données, ce qui permet de les suivre à mesure qu'elles se déplacent dans le pipeline. Cette approche est très efficace, mais elle ne fonctionne que si un outil uniforme est utilisé pour traiter et baliser les données.

Autonome

Cette approche utilise des outils de gestion des données de référence (MDM) pour gérer les métadonnées de manière centralisée. Les métadonnées créées par divers processus du système sont centralisées dans un outil MDM capable de capturer les données de lignage. Le problème est que les processus exécutés en dehors du système qui n'interagissent pas avec l'outil MDM ne peuvent pas être suivis.

Lignée par analyse

Ce processus fonctionne par rétro-ingénierie des transformations de données. En lisant la logique utilisée pour transformer les données, la lignée des données peut être devinée. Il s'agit d'un processus complexe, et tous les langages et processus utilisés pour gérer les données dans votre pile de données doivent être bien compris. Bien que complexe, ce processus est idéal pour suivre la lignée des données de bout en bout sur tous les systèmes.

Bonnes pratiques pour la gestion de la lignée des données

Il est important de se concentrer sur la technologie et les métadonnées autour de votre stratégie de lignage des données, mais vos efforts seront vains si les décideurs ne les comprennent pas. Les données de lignage doivent être compréhensibles à la fois pour les utilisateurs professionnels et techniques.

La lignée métier doit également être prise en compte dans le cadre de votre stratégie. Organisez votre lignée de données avec le contexte métier approprié afin que les utilisateurs professionnels puissent comprendre comment les données circulent dans les processus métier. Comprendre quelles données circulent dans vos pipelines est tout aussi important que la lignée technique qui suit le comment.

Lignée de données dans la création et l'utilisation de produits de données

La lignée des données est essentielle à la création et à l'utilisation de produits de données. Les producteurs de données peuvent auditer la lignée des données pour garantir la fiabilité des données qui alimentent leur produit de données. La lignée peut également aider les producteurs de produits de données à comprendre les dépendances et les relations entre les différents ensembles de données de leurs produits de données.

Les utilisateurs professionnels de produits de données peuvent également exploiter la lignée de données pour comprendre le flux de données et sa source. Ces informations les aident à évaluer la validité des données et leur applicabilité à certains cas d'utilisation. Au cœur des excellents produits de données se trouve un catalogue de données complet avec des fonctionnalités de lignée de données robustes intégrées. Les catalogues de données aident les producteurs de produits de données à trouver et à accéder aux données dont ils ont besoin, et les données de lignée de données fournissent des informations précieuses sur ces données.

Les stratégies de traçabilité des données sont des éléments essentiels de la pile de données moderne. Les pipelines de données devenant de plus en plus complexes, un programme de traçabilité des données solide sera essentiel pour garantir la qualité des données.

Discover the Latest in Data and AI Innovation

  • Stratégies d'intégration et de synchronisation des données dans les produits de données

    Read More

  • Comment instaurer la confiance grâce aux produits de données

    Read More

  • Cycle de vie de la santé des données : stratégies de nettoyage et de transformation des données

    Read More

Request a Demo TODAY!

Take the leap from data to AI