La définition du Data Mesh : qu’est-ce que c’est et pourquoi en ai-je besoin ?

Listen to this blog

Disclaimer

Les données sont essentielles à la prise de décision dans toute entreprise. Mais lorsque les décideurs doivent attendre que le service informatique crée un pipeline de données pour y accéder, des opportunités sont manquées et les décisions ne sont pas optimales. C'est le défi auquel sont confrontées la plupart des grandes entreprises qui tentent de s'appuyer davantage sur les données pour améliorer leurs performances.

L'un des plus grands défis en matière de gestion des données est que les technologies d'hier ne peuvent pas répondre à la demande croissante de données d'aujourd'hui. L'approche ETL est vieille de plusieurs décennies et les structures de gouvernance centralisées qui fonctionnaient à une époque plus simple ne peuvent tout simplement pas s'adapter à la complexité de l'ère de l'IA.

Des approches innovantes plus distribuées, plus agiles et plus flexibles commencent à arriver sur le marché. La stratégie de maillage de données en est un exemple.

Qu'est-ce qu'un Data Mesh ?

Un maillage de données est une stratégie moderne d'intégration de données. Il repose sur une architecture de données distribuée qui s'éloigne du stockage et de la gestion des données consolidés et centralisés pour adopter une approche plus partagée et fédérée. Il s'agit d'une alternative aux pipelines de données ETL et aux lacs de données qui reposent sur des architectures monolithiques et reposent sur de nombreuses dépendances.

L'architecture de maillage de données est plus qu'une technologie, c'est une stratégie globale qui intègre les changements dans les rôles des contributeurs dans la gestion et la consommation des données. Il existe 4 locataires d'une stratégie de maillage de données. Une véritable stratégie de maillage de données doit

Soyez axé sur le domaine

Tirer parti de la gouvernance fédérée des données

Traiter les données comme un produit

Soyez libre-service

Architecture pilotée par domaine

L'architecture de maillage de données redistribue davantage de commandes et de contrôle sur les données à des domaines indépendants. Les domaines sont des groupes engagés dans une fonction commerciale particulière. Il peut s'agir d'une opération régionale, d'un secteur d'activité ou d'une fonction commerciale telle que les ventes, le marketing, les ressources humaines ou les finances.

Ces domaines collectent une quantité importante de données dans le cadre de leurs activités quotidiennes. L'approche axée sur les domaines confère davantage de responsabilités en matière de contrôle et de gestion de ces données à ceux qui les ont collectées, et non à une autorité centralisée.

Gouvernance fédérée des données

Avec un maillage de données, les domaines bénéficient d'une plus grande autonomie, mais ils ne sont pas libres de faire ce qu'ils veulent. Dans une approche de gouvernance des données fédérée, la responsabilité de la gouvernance des données est partagée entre les autorités informatiques centrales et celles au niveau du domaine. L'informatique se charge de créer des cadres et des politiques qui s'appliquent uniformément à tous les domaines, tandis que chaque domaine individuel gère les règles qui s'appliquent uniquement à ses propres données et processus métier. Pour en savoir plus sur la gouvernance des données fédérées, cliquez ici .

Les données en tant que produit

Lorsque vous passez à une architecture de maillage de données, vous passez d'une mentalité de projet à une approche basée sur les produits. Au lieu de créer un pipeline ETL ad hoc chaque fois qu'un nouvel ensemble de données est nécessaire, les équipes de domaine travaillent à la création proactive de produits de données réutilisables qui fournissent les données requises par les décideurs.

Pour être efficaces, ces produits doivent être détectables, adressables, dignes de confiance et autodescriptifs. Cela signifie :

Les consommateurs de données doivent pouvoir trouver facilement des produits de données
Chaque produit doit avoir une adresse unique pour pouvoir être intégré dans des applications logicielles
Les données doivent être fiables
Les consommateurs de données doivent être capables de comprendre les données contenues dans le produit de données et ce qu'elles représentent

Analyse en libre-service

L'architecture de maillage de données doit être accessible aux consommateurs de données non techniques sans l'aide de professionnels techniques. Cela peut se faire via une place de marché de produits de données ou via une technologie permettant un accès direct aux produits de données à partir d'un outil d'analyse ou de modélisation. L'un des plus gros problèmes résolus par le maillage de données est de faire tomber les barrières techniques entre les données et ceux qui les consomment. Le libre-service améliore la qualité et la rapidité de la prise de décision. Il soulage également les exigences des ingénieurs de données qui sont débordés par la satisfaction des demandes de données.

Pourquoi en ai-je besoin ?

Dans le contexte actuel, la demande de données dépasse la capacité des services informatiques à les fournir. Les entreprises savent que des décisions davantage basées sur les données conduisent à de meilleurs résultats et à de meilleures performances, mais le défi de fournir un accès aux bonnes données, adaptées à l'objectif et dignes de confiance, constitue un défi technique et culturel.

Les approches actuelles ne peuvent pas s’adapter à la demande future

Dans une organisation classique, les données sont collectées et stockées dans des silos de données. Qu’il s’agisse d’une application de transaction héritée ou d’un CRM SaaS, le partage de données entre ces silos est difficile. Pour répondre à la demande de partage de données, des programmeurs compétents doivent créer des pipelines pour déplacer les données entre ces silos. Ces développeurs doivent maîtriser des technologies telles que Python, SQL, R et Java pour répondre aux demandes de données. Malheureusement, il n’y a tout simplement pas assez de développeurs qualifiés pour répondre à la demande. Dans de nombreux cas, au moment où les demandes de données sont satisfaites, le besoin n’est plus là, ce qui entraîne des opportunités manquées. Les décisions commerciales étant déjà prises à un rythme fulgurant et l’IA étant en mesure d’accélérer ce rythme à un rythme exponentiel, cette approche ne fonctionnera pas à l’avenir.

Le maillage de données permet à la communauté de fournir un accès plus facile à de meilleures données

Un maillage de données permet aux personnes et à une technologie sophistiquée de travailler ensemble afin que les décideurs de toute l'organisation puissent obtenir les données dont ils ont besoin quand ils en ont besoin.

D'un point de vue culturel, une stratégie de maillage de données donne plus de pouvoir aux individus en leur donnant plus de responsabilité et de responsabilité dans la gestion des données de leur domaine. Cela les incite à s'engager davantage pour garantir l'accessibilité et la fiabilité des données. Chaque partie prenante du processus a un rôle à jouer.

Les fonctionnalités en libre-service du maillage de données et les catalogues de données robustes permettent aux analystes de données d'explorer et de déployer les données dont ils ont besoin via des produits de données. Ces analystes ne sont plus obligés de se débattre avec des tâches manuelles ou d'attendre que le service informatique accède aux données. Ils peuvent fournir davantage d'informations et d'analyses aux décideurs grâce aux compétences dont ils disposent.

Les gestionnaires de domaine, qui comprennent mieux les données qu’ils collectent qu’une autorité de gouvernance centrale, sont habilités à les gérer. Cette meilleure compréhension du contexte entourant leurs données les place dans la meilleure position pour les gérer et en accroître la valeur.

En passant à un maillage de données, les professionnels de l'informatique et les ingénieurs de données sont en mesure d'améliorer la valeur qu'ils fournissent en proposant des services plus stratégiques. Les ingénieurs de données peuvent passer moins de temps à coder des processus ETL et travailler plus étroitement avec les producteurs de produits de données pour accéder plus efficacement à des données de qualité. Ils peuvent conseiller sur les règles de gouvernance au niveau du domaine et appliquer des mesures de qualité. Les ingénieurs de données peuvent également jouer un rôle plus important dans la gestion de l'infrastructure pour responsabiliser leurs collègues.

La technologie distribuée réduit les coûts et augmente l’agilité.

Un maillage de données fonctionne sur une architecture distribuée. Au lieu de déverser des données dans un lac de données, les données restent dans le système qui les a collectées. Lorsque des données sont nécessaires, elles sont extraites de la source au lieu d'être copiées dans une autre base de données où elles sont analysées. Cela signifie que les coûts de stockage sont réduits et que les écarts entre les différents magasins de données redondants sont minimisés.

Un système distribué est également plus évolutif, plus agile et plus accessible. Tandis que les données réelles restent en place, les métadonnées sont consolidées dans une base de données unique. En séparant les métadonnées des données qu'elles décrivent, les ressources de données peuvent être découvertes dans un catalogue unique et les requêtes de données peuvent être créées indépendamment des données. Cela permet :

Requêtes de données fédérées

Des requêtes de données uniques peuvent être créées et peuvent accéder aux données de plusieurs systèmes différents simultanément en utilisant le même modèle de données.

Des données qui restent en place

Les données n’ont pas non plus besoin d’être déplacées via un processus par lots, mais peuvent être fusionnées en temps réel et des modifications peuvent être apportées à la volée.

Une plus grande évolutivité

En séparant les données de la logique, les dépendances créées par des pipelines de données sans fin peuvent être réduites, permettant une plus grande évolutivité.

La gouvernance et la sécurité sont plus efficaces

Une autorité supérieure ne signifie pas toujours une meilleure sécurité. Les professionnels qui collectent des données sont bien mieux placés pour comprendre leur sensibilité. Cela leur permet de mettre en œuvre des politiques de gouvernance des données plus intelligentes qu'une autorité centrale.

Une hiérarchie de gouvernance flexible peut également s'avérer beaucoup plus efficace pour garantir l'exactitude, la sécurité et l'accessibilité des données. En donnant aux domaines l'autonomie nécessaire pour travailler dans un cadre plus large, ils peuvent créer des politiques qui leur conviennent le mieux tout en respectant les normes de gouvernance organisationnelle. Étant plus proches des données, ils sont également mieux placés pour apporter des modifications à mesure que les menaces et les demandes évoluent.

Une plus grande autonomie réduit également la tendance des analystes à recourir à des solutions non autorisées. Si les règles sont trop restrictives ou inapplicables à un cas d'utilisation donné, les opérateurs trouveront des moyens de les contourner. Cela crée des vulnérabilités opaques qui peuvent entraîner de graves menaces pour la sécurité.

À mesure que la technologie et les systèmes évoluent, ils deviennent généralement plus sophistiqués, plus complexes et plus distribués. Avec un contrôle moins centralisé, les systèmes de données peuvent évoluer rapidement et être plus agiles et résilients. En confiant les données aux personnes tout en créant des garde-fous appropriés pour assurer l'ordre, les données deviennent plus accessibles et utiles.