Cycle de vie de la santé des données : stratégies de nettoyage et de transformation des données



Listen to this blog
Disclaimer

Un système sain avec des données propres est essentiel pour les organisations qui souhaitent avoir un résultat net sain. Des données de mauvaise qualité conduisent à une prise de décision de moindre qualité, à des opportunités gaspillées et à des coûts plus élevés. Le maintien de données de qualité nécessite un nettoyage minutieux des données pour les maintenir en bonne santé.

Les recherches de G. Loabovitz et Y. Chang ont abouti à la règle 1-10-100 de la qualité des données. Cette règle met en évidence le coût croissant des erreurs de données dues à une mauvaise qualité des données : s'il coûte 1 $ pour vérifier un enregistrement, il en coûte 10 $ par enregistrement pour corriger les erreurs une fois créées et 100 $ par enregistrement si les erreurs ne sont pas corrigées. Cette recherche indique que plus vous êtes proactif pour garantir la santé de vos données, plus vous évitez les coûts liés à la qualité des données.

Une stratégie complète de gestion de la santé des données, qui prend en compte la santé des données depuis la structure de la base de données jusqu'aux applications, permet d'obtenir des données de meilleure qualité. Les données et les systèmes doivent être nettoyés et évalués à trois niveaux.

Niveau structurel de la base de données

Les bases de données et les tables de données doivent être organisées efficacement et fonctionner correctement pour éviter les erreurs. Les processus de réparation de base de données efficaces corrigent les problèmes de qualité des données à la source.

Données au repos

les données de votre base de données doivent subir un processus de nettoyage régulier qui recherche les erreurs, les incohérences, les doublons et les entrées manquantes.

Transformation des données

de nouvelles erreurs de données sont créées à mesure que les données sont converties et déplacées. Les organisations ont besoin de stratégies pour garantir la santé des données à travers différentes transformations, notamment les processus ETL (extraction, transformation, chargement) et de traitement des données.

Réparation de base de données

Veiller à ce que vos bases de données et leur structure soient en bon état peut avoir un impact significatif sur votre stratégie de santé des données. En se concentrant sur la source des données, les problèmes répétitifs de qualité des données en aval sont réduits. Les premières étapes pour maintenir la santé de vos données consistent à mettre à niveau la technologie des bases de données et à réparer les bases de données mal structurées.

L'évaluation de la manière dont les bases de données sont organisées et structurées réduit l'occurrence de données défectueuses. La consolidation des formats de données dans une structure commune peut réduire les données conflictuelles et en double. La création d'un format de numéro de téléphone standard en est un exemple. Au lieu de conserver plusieurs formats avec des tirets, des points, des indicatifs régionaux et des codes de pays, les organisations peuvent définir un format de chaîne de texte contenant uniquement des chiffres à utiliser dans tous les systèmes. Cette tactique réduit le nombre de types de données, diminuant ainsi les risques de confusion.

La modification du schéma pour améliorer les performances est une autre façon d'organiser les bases de données afin de promouvoir la santé des données. Par exemple, la consolidation des clés primaires pour augmenter la cohérence. La correction et la normalisation des tables sources peuvent réduire l'effort requis pour normaliser les données à chaque fois qu'elles sont extraites pour analyse. Bien que l'ajustement du schéma pour qu'il soit plus uniforme puisse limiter les erreurs à l'avenir, il peut entraîner des problèmes à court terme, car les applications en aval doivent être ajustées pour intégrer les modifications du schéma. Une couche de fédération qui fonctionne comme une passerelle vers votre base de données peut aider à détecter les modifications de schéma pour garantir que les applications en aval sont mises à jour de manière appropriée.

Pratiques essentielles de nettoyage des données

Contrairement à la réparation de bases de données, le nettoyage des données se concentre sur les données elles-mêmes. Le nettoyage des bases de données est un processus qui nécessite une attention constante et régulière. Dans un hôpital, des contaminants pénètrent constamment dans l'établissement, une stérilisation régulière est donc nécessaire pour empêcher les germes de rendre les gens malades. Vos bases de données ne font pas exception.

Les processus de nettoyage réguliers doivent se concentrer sur :

Éliminer les doublons
Éliminer les doublons

Les données dupliquées gaspillent de l'espace dans une base de données et créent de la confusion, ce qui empêche d'obtenir des informations précises. Compte tenu de la quantité de données collectées et stockées dans des silos de données, il arrive souvent que plusieurs versions du même enregistrement apparaissent. La déduplication des données est un exercice de nettoyage des données essentiel, car le double comptage des mêmes points de données fausse votre analyse.

Réparer les données incorrectes
Réparer les données incorrectes

Les erreurs telles que les fautes d'orthographe, les erreurs de majuscules et les incohérences de dénomination peuvent perturber les applications et les analyses reposant sur des formats standardisés. La recherche et la correction de ces erreurs permettent de conserver des données propres.

Gestion des données manquantes
Gestion des données manquantes

Les données manquantes peuvent fausser l'analyse. Pour résoudre le problème des données manquantes, il peut être nécessaire d'ajouter des données avec des hypothèses raisonnables ou d'éliminer une colonne ou un ensemble de données entier si les données manquantes sont trop nombreuses.

Suppression des données non pertinentes ou anciennes
Suppression des données non pertinentes ou anciennes

Les données anciennes ou non pertinentes occupent de l'espace de stockage, ce qui crée de la confusion. Les données anciennes peuvent également entrer en conflit avec des données plus récentes ou être confondues avec des données récentes, ce qui fausse l'analyse.

Filtrage des données périphériques

Les valeurs aberrantes dans votre ensemble de données peuvent signaler une erreur, mais pas toujours. L'identification des valeurs aberrantes, la détermination de leur cause et la prise des mesures appropriées réduisent le nombre de points de données erronés dans vos ensembles de données.

La validation des données peut aider à éviter certaines de ces erreurs lors de la saisie des données. La création de règles de validation et leur intégration dans votre pile de données peuvent prendre en charge les tests en temps réel pour identifier les erreurs de manière précoce.

Préparation et transformation des données

Les processus se compliquent lorsque les données sont transférées d'une base de données à une autre, transformées ou fusionnées avec un nouvel ensemble de données. Il est essentiel de veiller à ce que vos processus de transformation n'introduisent pas ou ne perpétuent pas de mauvaises données pour conserver des données saines. Lorsque les données proviennent de bases de données distinctes, les risques de duplication sont élevés. Un étiquetage différent entre les bases de données peut également entraîner des erreurs.

Les données sont transformées de nombreuses façons, mais généralement, elles sont soit transformées et préparées pour l’analyse, soit standardisées pour être chargées dans une base de données pour des applications ou des analyses futures.

Les processus d'extraction, de transformation et de chargement (ETL) constituent l'approche de transformation la plus courante pour déplacer des données d'une base de données vers une autre. Le processus ETL extrait les données d'une base de données, les transforme, puis les charge dans la base de données cible. La structure de la base de données cible dicte généralement ces transformations, qui sont bien définies et systématiques. Elles s'adaptent bien et conviennent aux grands ensembles de données.

Les processus de traitement des données sont différents et beaucoup plus agiles. Ces processus sont essentiels pour préparer les ensembles de données à l'analyse. Les technologies de traitement des données prennent en charge les données structurées et non structurées.

Il est important de comprendre ces différences pour garantir des données plus saines.

ETL

Les processus ETL démarrent généralement avec des données bien organisées et structurées. Cette structure permet des processus de transformation plus automatisés et systématiques. Ces programmes de transformation sont élaborés par des développeurs à l’esprit technique utilisant des technologies puissantes comme Python et Scala. Si une plus grande automatisation est excellente pour l’efficacité, elle peut également perpétuer beaucoup plus rapidement les données erronées et les erreurs. Ces automatisations sont également difficiles à créer, elles sont donc difficiles à modifier, ce qui rend le processus ETL beaucoup moins agile. Il est essentiel de bien faire les choses dès la première fois pour préserver la santé des données.

La première étape du processus ETL consiste à extraire les données de la base de données source. Des erreurs peuvent survenir lorsque les données sources ne sont pas propres. Il est donc important d'effectuer un profilage des données pour comprendre la qualité des données. Si la qualité des données n'est pas excellente au départ, en proie à des valeurs manquantes, des doublons et des valeurs hors limites, vous devrez revenir en arrière pour effectuer un nettoyage des données.

Le processus de transformation reformate les données afin qu'elles puissent être ingérées dans les bases de données cibles. Cela inclut la normalisation des données afin que les formats soient cohérents entre la base de données source et la base de données cible. Des erreurs peuvent se produire si les données sont mal étiquetées ou si les structures de données ne sont pas alignées, ce qui fait du nettoyage des données une partie importante du processus de transformation. Des routines permettant d'identifier les données sales et de corriger les erreurs peuvent être intégrées au programme ETL. Le filtrage des données supprime les données indésirables, réduisant ainsi la complexité. Enfin, des contrôles de validation sont exécutés pour vérifier les incohérences ou identifier les valeurs aberrantes.

La dernière étape du processus consiste à charger les données dans la base de données cible. Si des erreurs se produisent à ce stade, il est essentiel de mettre en place un processus de gestion des versions afin de pouvoir revenir à une version antérieure de votre code pour résoudre les erreurs.

Traitement des données

Comme l'ETL, le traitement des données est un processus de transformation dans lequel des erreurs de données peuvent survenir. Le traitement des données est le processus de création d'actifs de données à utiliser dans un cas d'utilisation analytique défini. Les exigences du cas d'utilisation analytique déterminent les transformations. Cette exigence nécessite davantage d'agilité et la capacité d'intégrer des données non structurées.

Le traitement des données nécessite un processus plus manuel et dynamique. Pour garantir que l'analyse repose sur des données de la plus haute qualité, les équipes doivent découvrir, organiser, nettoyer, enrichir et valider les données.

Avec le traitement des données, la première étape vers une analyse de qualité consiste à comprendre l’état et l’applicabilité des ensembles de données sous-jacents. Cela signifie comprendre ce qui est disponible, ce qui répondra aux exigences et évaluer la qualité des ensembles de données. Les mesures de qualité des données telles que les tests de distribution et les tests de plage de validité fournissent des informations sur l’état des données. La compréhension des problèmes existants, la taille de l’ensemble de données et les formats de données sont des facteurs qui doivent être pris en compte avant d’utiliser les données pour soutenir l’analyse. Contrairement aux processus ETL, le traitement des données n’est pas limité par les automatisations pré-créées. Cette différence signifie que les analystes ont la flexibilité de rechercher les meilleurs ensembles de données, en évitant les données moins épurées. Des catalogues de données robustes qui sont accessibles et qui conservent et suivent ces données sont bénéfiques pour mesurer l’état des données.

L’organisation des ensembles de données à utiliser dans l’analyse est un autre processus essentiel. Lorsque l’on travaille avec des données non structurées, ce processus devient beaucoup plus difficile. Les données non structurées doivent être organisées en lignes et en colonnes pour être analysées. Des techniques de balisage peuvent être utilisées pour créer davantage de structure autour de ces données et fournir plus d’informations sur les documents non structurés afin qu’ils puissent être organisés plus efficacement. Ce processus apparaît comme un cas d’utilisation viable pour GenAI. Ces technologies peuvent analyser les documents pour comprendre leur signification et les marquer en conséquence. Un étiquetage sain des données réduit les risques d’erreurs de GenAI.

Tout comme dans la formation en anglais, les processus de nettoyage des données sont essentiels dans le traitement des données. Les stratégies de nettoyage peuvent identifier les valeurs aberrantes et préparer les données pour l'analyse en éliminant le bruit dans les données et en garantissant la pertinence des ensembles de données. La correction de l'orthographe et la normalisation des abréviations sont beaucoup plus complexes lorsque l'on travaille avec du texte non structuré. L'IA peut être utilisée pour résoudre ces problèmes.

Le processus de normalisation des données dans le traitement des données diffère légèrement de l'ETL, car les normes sont déterminées par le cas d'utilisation métier plutôt que par la structure et le schéma de base de données. Des moteurs de gestion des métadonnées robustes peuvent améliorer ce processus. Grâce à GenAI intégré et aux glossaires métier, les utilisateurs métier peuvent normaliser et combiner les données en fonction des définitions et des calculs métier.

L'enrichissement des données est une autre technique qui consiste à combiner des ensembles de données ou des produits de données prédéfinis pour fournir un contexte plus large permettant une analyse plus approfondie et plus propre. Le remplissage des données manquantes avec des données synthétiques est une autre stratégie permettant d'améliorer la qualité des ensembles de données.

Tout comme les processus ETL, les tests de validation des données sont essentiels pour garantir la propreté des données après l’exécution des processus de traitement des données.

Outils de création de données

Disposer des outils et des processus adéquats pour créer des transformations de données est le meilleur moyen de respecter les meilleures pratiques et de réduire le risque d'erreurs dans vos transformations de données. Tout comme les outils DevOps dans le domaine logiciel, les outils de création de données prennent en charge les processus de transformation de données avec des ateliers de développement et des contrôles qualité. Les fonctionnalités incluent les contrôles de version, les tests et la journalisation.

Les transformations de données évoluent constamment. Pour garantir leur qualité, elles doivent être testées à chaque mise à jour du code. La création ou l'ajustement de requêtes peut entraîner une multitude de problèmes, notamment des jointures de données erronées qui introduisent des erreurs en aval dans le pipeline. Disposer d'un processus de création de transformations est essentiel pour éviter les erreurs.

Des outils comme dbt (Data Build Tool) permettent des workflows de transformation sains. L'outil permet aux analystes de :

  • Créez des requêtes et des transformations SQL complexes à l’aide de la logique métier.
  • Testez les transformations pour prédire de manière proactive comment les changements affecteront les dépendances en aval.
  • Exécutez le code.
  • Créer de la documentation.

Après tout le travail que vous avez effectué pour nettoyer les données, il est tout simplement logique de réduire le risque d’introduire de mauvaises données à l’aide d’outils et de flux de travail efficaces.

L'intégration de ces outils à votre pile de données les rend plus faciles à utiliser et rationalise votre processus de transformation des données. Les modèles et les transformations pré-testées sont facilement accessibles et implémentables. Cette fonctionnalité réduit non seulement les erreurs potentielles, mais diminue également les efforts nécessaires à la création de produits et de processus de données.

La combinaison d'outils, de flux de travail et de données crée un cadre pour prendre en charge des données saines. Grâce à un adaptateur dpt, les utilisateurs de la plateforme Data to AI, Avrio, peuvent écrire et tester des transformations SQL complexes qui utilisent le moteur de requête fédéré d'Avrio, prenant en charge vos exigences de qualité des données.

Il est essentiel de comprendre comment nettoyer les données et les maintenir propres tout au long de leur parcours, de la collecte à l’analyse, pour renforcer la confiance dans les données. Les capacités croissantes de GenAI à préparer les données non structurées pour l’analyse créent de nouvelles opportunités pour une meilleure compréhension, mais de nouvelles complexités pourraient conduire à des données sales. Une stratégie complexe de santé des données couvrant les données structurées et non structurées, du système source à l’analyse, contribuera à garantir que des données propres et pertinentes sont mises entre les mains des décideurs.

Discover the Latest in Data and AI Innovation

  • Blog

    Favoriser une culture axée sur les données

    Read More

  • E-book

    Données non structurées avec la pile de données moderne

    Read More

  • Blog

    Cas - Construire une stratégie fiable de qualité des données à l'ère de l'IA

    Read More

Request a Demo TODAY!

Take the leap from data to AI