Les données stockées dans une organisation ont une valeur immense et les connaissances qui en découlent peuvent différencier une entreprise de ses concurrents. Ne pas avoir de stratégie solide pour briser les silos de données est une erreur stratégique.
Si les méthodes traditionnelles telles que les pipelines ETL et les lacs de données sont courantes, des approches distribuées plus innovantes telles que les maillages de données et les data fabrics gagnent du terrain. L'objectif final de ces stratégies est de démocratiser l'accès aux données, de favoriser un modèle en libre-service et de promouvoir une culture plus collaborative et axée sur les données. Les organisations doivent rester agiles et s'adapter à ces concepts et technologies en constante évolution pour conserver un avantage concurrentiel.
Un maillage de données est une architecture de données conçue pour faciliter le partage de données au sein d'une organisation. Un maillage de données est indépendant de la technologie et est défini par quatre principes.
La fonction commerciale qui collecte les données détient l’autorité sur celles-ci.
Les données sont regroupées dans des produits de données, ce qui simplifie le partage au sein de l'organisation.
Les données et les produits de données doivent être accessibles aux personnes non techniques pour une analyse indépendante sans nécessiter l'assistance du service informatique ou du domaine qui les partage.
La responsabilité de gouverner et de sécuriser les données est partagée entre le domaine et les autorités informatiques centrales.
Pour en savoir plus sur le maillage de données, lisez notre blog expliquant ce qu'est un maillage de données et pourquoi vous en avez besoin.
Gartner définit le Data Fabric comme un concept de conception qui sert de couche d'intégration des données et de connexion des processus. Il utilise des analyses continues sur les ressources de métadonnées détectables et déduites existantes pour soutenir la conception, le déploiement et l'utilisation de données intégrées et réutilisables dans tous les environnements. En effet, le concept de Data Mesh et de Data Fabrics partagent un objectif commun : relever le défi des silos de données et améliorer l'accès aux données au sein des organisations.
Depuis la création du concept de maillage de données, la stratégie a évolué. Au début, on avait tendance à accorder aux domaines le pouvoir d'utiliser n'importe quel outil pour créer des produits de données à partager. Ce concept a mûri à mesure que les préoccupations concernant la normalisation et l'interopérabilité sont apparues. Renforcer le concept de silos de données et ne pas définir comment les produits de données interagissent n'est peut-être pas la meilleure approche, même si les responsables du domaine ont la meilleure compréhension des données. Les implémentations de maillage de données actuelles mettent l'accent sur les processus et les plateformes standardisés, garantissant une création, un partage et une intégration faciles des produits de données.
Parallèlement, des architectures de Data Fabric ont également émergé, mettant l'accent sur la technologie, l'automatisation et le contrôle de gouvernance centralisé. Bien que le maillage de données et la structure de données ne soient pas en concurrence, ils s'influencent mutuellement, ce qui incite à des adaptations pour répondre aux besoins du marché. Les praticiens des données modernes explorent comment l'architecture de Data Fabric peut prendre en charge des concepts de maillage de données tels que la gouvernance fédérée, les produits de données et la propriété de domaine. Cette intersection reflète une évolution continue des stratégies de gestion des données.
L'intégration des données est essentielle pour les deux approches, Data Mesh et Data Fabric, la démocratisation des données par la virtualisation s'imposant comme l'architecture de choix. La virtualisation permet aux données de rester dans leurs domaines sources et virtualise les ensembles de données pour permettre la démocratisation des données. Cependant, les concepts de Data Fabric et de Data Mesh divergent en termes de gouvernance, d'automatisation et de consommation/découverte.
Le Data Fabric s'appuie sur l'automatisation pour permettre le libre-service, tandis que le Data Mesh s'appuie sur des experts du domaine pour intégrer leur expertise dans les produits de données.
Le Data Fabric s'appuie sur un contrôle de gouvernance centralisé, tandis que le Data Mesh adopte une approche fédérée avec des domaines responsables de la gouvernance de leurs propres données.
La structure de données consolide les ressources de données dans des catalogues de données ou déploie des graphiques de connaissances pour cartographier les ressources de données dans l'ensemble de l'organisation. Une approche de maillage de données expose les données via des produits de données créés par domaine, généralement publiés via une place de marché de produits de données.
Au fur et à mesure que ces concepts de maillage de données et la technologie des data fabrics évoluent, ils ont commencé à converger. Les praticiens expérimentent différents niveaux de contrôle, de consolidation des données et d'automatisation. L'IA joue un rôle important dans cette convergence.
À mesure que le marché évolue, il s’agit moins d’automatisation, de fédération de personnes ou de gouvernance centralisée, ou d’actifs de données ou de produits de données, que de stratégies qui intègrent toutes les meilleures fonctionnalités et exploitent le bon outil pour la bonne tâche. Les plateformes de gestion des données et les passerelles d’analyse prennent en charge ces approches intégrées.
Dans les approches modernes de maillage de données et de fabric de données, les deux stratégies trouvent un équilibre entre les experts du domaine et l'automatisation, en intégrant ces ressources de différentes manières. Les fabrics de données utilisent l'automatisation pour intégrer les données en temps réel. Les humains jouent un rôle plus passif dans la résolution des problèmes identifiés par les alertes d'IA.
Le maillage de données se concentre sur les produits de données créés par les producteurs de données. L’IA aide les producteurs à automatiser les tâches répétitives, éliminant ainsi le besoin de compétences en codage. Cependant, l’humain qui comprend la nuance des données reste au cœur du processus. Les processus automatisés de traitement des données et la classification des données assistée par l’IA sont des exemples de cette relation symbiotique.
Les approches peuvent coexister dans une même stratégie avec différents intervenants dans le processus s'appuyant sur l'automatisation de différentes manières. La clé est de trouver le bon équilibre entre l'expertise humaine et l'automatisation pour optimiser efficacement les processus de données.
Dans la gestion des données, les architectures Data Fabric produisent des actifs de données, tandis qu'un maillage de données produit des produits de données. Les approches de découverte et de consommation peuvent coexister dans une stratégie combinée avec un maillage de données, ajoutant davantage de contrôles pour regrouper les actifs de données dans des produits de données.
L'approche de maillage de données se concentre sur le produit de données comme principal vecteur de partage des données. Les produits de données publiés sur une place de marché de produits de données sont plus riches et sans doute plus précieux. Ils sont généralement constitués d'actifs de données qui ont été fusionnés et normalisés sous la direction d'un expert du domaine. Les produits de données sont réutilisables, plus permanents et mieux adaptés à une utilisation externe au-delà de domaines de données spécifiques.
Les approches combinées peuvent exposer des catalogues de données consolidés à des consommateurs de données moins techniques, leur permettant de créer des produits de données à partager. L'exploitation de l'IA pour exposer ces actifs de données aux consommateurs de données, à l'instar d'une structure de données, réduit les compétences techniques requises pour accéder aux données. Le LLM permet aux consommateurs de données ayant une expertise SQL limitée d'explorer et d'interroger efficacement les actifs de données.
Qu'il s'agisse d'une structure de données ou d'un maillage, le catalogue de données devient un élément très important de la stratégie. Les plateformes de passerelle créent des catalogues de données unifiés qui couvrent l'ensemble de l'organisation et organisent efficacement les ressources de données. Ces plateformes exploitent également les outils GenAI pour réduire le travail manuel, contribuant ainsi à la classification et à la normalisation des données pour prendre en charge des modèles de données robustes et des glossaires métier.
Les progrès constants de l’IA continueront d’améliorer l’efficacité des producteurs de données pour créer des produits de données tirant parti de l’automatisation. En outre, les experts ont la possibilité de former l’IA pour aider les consommateurs de données à tirer le meilleur parti de leurs données. Cette synergie entre des humains qualifiés et des machines puissantes représente une approche qui combine le meilleur des deux mondes dans le paysage en constante évolution de la gestion des données.
Les plateformes et outils émergents permettent une plus grande fédération de gouvernance. Les outils de gouvernance permettent aux services informatiques centraux de renoncer plus facilement à un plus grand contrôle tout en maintenant une surveillance efficace.
L’intégration des contrôles de gouvernance des données dans les plateformes de gestion des données permet à tous les membres de l’équipe de données de participer activement et d’assumer la responsabilité de la gouvernance.
Contrôles du gestionnaire de domaine | Contrôles du responsable informatique | Contrôles des producteurs de données |
---|---|---|
Contrôle l'accès aux domaines | Contrôle l'accès aux plateformes de données | Contrôles d'accès précis au niveau de la table |
Contrôle l'accès granulaire aux données | Contrôle la manière dont les domaines sont organisés |
L’intégration de l’automatisation dans la gouvernance des données évolue avec l’émergence de la gouvernance active des données – une technologie qui surveille les actifs de données et envoie des alertes aux producteurs et aux consommateurs lorsque des problèmes surviennent.
Dans le contexte d'un maillage de données, la gouvernance s'étend au-delà des actifs de données pour couvrir le cycle de vie des données de bout en bout, de la source au produit de données. La gestion de la gouvernance et de la qualité des données ne s'arrête pas à l'actif de données dans un maillage de données. Les produits de données publics sont continuellement améliorés et surveillés grâce à des boucles de rétroaction humaines. Ce processus itératif garantit que les produits de données restent pertinents et utiles aux consommateurs.
Avec la convergence des capacités des data fabrics et des data mesh, l’accès aux données devient de plus en plus flexible. Les utilisateurs peuvent accéder aux données et les découvrir grâce à une approche adaptée à leurs compétences techniques et à leur compréhension des données. L’avenir verra probablement une combinaison d’éléments de data mesh et de data fabric, ce qui donnera lieu à des combinaisons uniques qui exploitent les atouts des personnes, des machines, de la gouvernance et des tactiques de consommation. La distinction entre data mesh et data fabric pourrait s’estomper, donnant naissance à des stratégies de gestion des données plus personnalisées et adaptables.