Améliorer la gestion des données : aller au-delà des contraintes grâce aux approches modernes de la virtualisation



Listen to this blog
Disclaimer

La course à l'utilisation des données est lancée pour toutes les organisations. Pourquoi ? Parce que les entreprises qui sont plus susceptibles d'utiliser les données pour éclairer la prise de décision sont plus performantes. Mais les technologies de gestion des données actuelles ont encore un long chemin à parcourir pour briser les silos de données et rendre les données accessibles à tous. Un écosystème émergent de technologies basées sur la virtualisation des données peut améliorer l'accès aux données et leur utilisation.

Défis posés par les approches actuelles

Pour qu’un analyste puisse accéder aux données dont il a besoin, il doit généralement faire appel à un ingénieur de données très occupé, possédant les compétences SQL, Python ou Java, pour créer une requête de base de données et extraire un ensemble de données. L’ingénieur doit également être familiarisé avec les métadonnées et le modèle de données pertinents pour savoir quelles données interroger. Les différents services utilisant leurs propres modèles de données uniques, il faut gérer une complexité supplémentaire. Si les données doivent être transformées et fusionnées avec une autre table de données, des compétences plus techniques sont nécessaires pour créer un pipeline. Une fois les pipelines ETL créés, leur maintenance est également un défi, car ils ont tendance à être très rigides. Lorsque des modifications sont nécessaires, elles doivent être repensées et testées, ce qui non seulement rend les modifications difficiles, mais signifie également qu’il est difficile d’utiliser un seul pipeline à plusieurs fins.

La demande de données augmentant si rapidement, ce modèle ne résistera pas à la pression croissante. Les entreprises ne peuvent pas continuer à ajouter sans cesse de nouveaux ingénieurs à leur équipe d'ingénierie des données. Non seulement parce que cela coûte trop cher, mais aussi parce qu'il n'y en a pas assez sur le marché.

Le résultat net de ces défis est que les organisations tardent à prendre des décisions commerciales, ce qui les place dans une situation de désavantage concurrentiel.

Entrepôts de données

Qu'est-ce que la virtualisation des données de renseignement

Les services de virtualisation des données constituent la base d'une nouvelle approche de l'accès aux données. Un outil de visualisation des données fournit un middleware qui crée une représentation virtuelle des données pour les rendre disponibles pour analyse. Contrairement aux approches utilisant ETL qui déplacent les données vers l'endroit où elles sont analysées, les données virtualisées restent en place. Les données n'ont pas besoin d'être déplacées de leur système source vers un lac de données, puis vers un autre système pour analyse, une pratique courante. Alors que les données réelles restent en place, les métadonnées sont séparées et consolidées dans un référentiel central.

Avec une stratégie de virtualisation des données, la séparation de la logique et des données sous-jacentes facilite grandement les modifications des requêtes de données. Lorsque les métadonnées sont intégrées à la source de données et que les pipelines ETL doivent être modifiés, les ingénieurs doivent comprendre non seulement le modèle de données, mais également la manière dont les connexions sont configurées et si des dépendances doivent être prises en compte. L'ajout de sources de données lorsque les données sont virtualisées est beaucoup plus simple. Il suffit de référencer les métadonnées et de peaufiner la requête pour effectuer le travail lorsque les données sont virtualisées. Avec une plus grande flexibilité, les produits ou les actifs de données peuvent évoluer de manière itérative pour générer beaucoup plus de valeur pour les consommateurs de données.

La virtualisation des données permet la fédération des données

Lorsque nous découplons les métadonnées des données qu'elles décrivent et les centralisons, de nombreuses nouvelles fonctionnalités sont activées. La fédération de données en fait partie. Il s'agit de l'organisation des métadonnées provenant de sources multiples pour rendre les données accessibles via un modèle de données uniforme. En consolidant les métadonnées, un modèle de données universel facilite grandement la compréhension des données sous-jacentes réparties dans des bases de données disparates, ce qui simplifie considérablement le processus d'accès à ces données.

Une couche de métadonnées consolidée permet également aux analystes de créer une requête unique pour extraire simultanément des données de plusieurs bases de données, quel que soit l'endroit où les données sont stockées, que ce soit dans le cloud ou sur site. La possibilité d'accéder à plusieurs bases de données et d'agréger et de transformer des données en temps réel ouvre un tout nouveau monde de fonctionnalités.

La fédération de données permet la couche sémantique universelle

Avec un modèle de données unifié disponible via la fédération de données, une couche sémantique universelle peut être construite par-dessus pour rendre les données plus accessibles en libre-service. Lorsque vous adoptez un modèle de données unique qui représente plusieurs magasins de données et répertorie vos ressources de données dans un seul catalogue de données, il est beaucoup plus facile d'explorer les données pour identifier les faits dont vous avez besoin. Cela permet une plus grande innovation car, sans la visibilité améliorée de la sémantique universelle, les analystes ne pourraient pas parcourir, expérimenter ou découvrir de nouvelles données facilement. Pour une plus grande facilité d'utilisation, une couche de virtualisation universelle peut inclure des ressources supplémentaires, telles que des glossaires d'entreprise qui normalisent la terminologie et les mesures d'entreprise. Cela rend les données encore plus accessibles aux utilisateurs professionnels qui peuvent trouver des ressources de données sans comprendre comment les données sont organisées ou où elles sont stockées.

La virtualisation, la fédération et la sémantique des données favorisent une meilleure gouvernance des données

La gouvernance des données se définit comme tout ce que vous faites pour garantir que les données sont sécurisées, privées, exactes, disponibles et utilisables. Les nouvelles technologies de données modernes améliorent la gouvernance des données en fonction de tous ces objectifs.

Sécurité
Sécurité

La couche virtualisée permet à une passerelle unique de mettre en œuvre une gouvernance et une sécurité centralisées des données

Confidentialité
Confidentialité

En conservant les données en place, là où elles peuvent être mieux contrôlées, la virtualisation des données peut gérer l'accès à plusieurs sources de données. Avec des métadonnées consolidées, des contrôles d'accès précis peuvent être utilisés pour masquer les données au niveau des colonnes afin de masquer les identités.

Précision
Précision

En conservant les données au même endroit, vos données peuvent être plus précises. Il n'est pas nécessaire de synchroniser les bases de données ou de déplacer les données, ce qui réduit les erreurs potentielles qui se produisent au cours du processus. Lorsque les copies en double des données ne sont pas dispersées dans l'organisation, les données du système source deviennent la seule source de vérité, ce qui réduit les conflits de données causés par le vieillissement des ensembles de données.

Disponibilité
Disponibilité

La virtualisation des données rend les données disponibles en temps réel. Elle permet également une gouvernance fédérée des données, qui offre aux domaines d'activité une plus grande autonomie pour autoriser l'accès à ceux qui en ont besoin.

Facilité d'utilisation
Facilité d'utilisation

La couche sémantique rendue possible par la virtualisation des données permet aux utilisateurs professionnels d’accéder aux données via des définitions communes à tous les domaines d’activité, les rendant ainsi plus utilisables.

La pile de gestion des données moderne permet des stratégies modernes

La couche de virtualisation des données fonctionnant comme une passerelle unique vers les données, il est beaucoup plus facile de contrôler et de surveiller qui a accès à quels ensembles de données. Grâce à cette surveillance, l'autorité peut être distribuée aux domaines de données tandis que le service informatique conserve une gouvernance de haut niveau. La gouvernance des données fédérées et la sémantique universelle permettent des architectures de maillage de données orientées domaine et centrées sur les produits de données. Pour en savoir plus sur Data Mesh, cliquez ici

Les Data Fabrics reposent également sur des couches de virtualisation des données, de fédération des données et de sémantique universelle. Elles diffèrent d'un maillage de données car elles n'intègrent pas la gouvernance des données fédérées dans l'approche. Dans ce modèle, le service informatique conserve la responsabilité des données de l'organisation et de la découverte des données activée par les graphes de connaissances.

Approche des données natives du cloud

La virtualisation des données et l’écosystème croissant de technologies qui l’entourent constituent une innovation transformatrice, car elles s’appuient sur les atouts de la plateforme sur laquelle elles s’exécutent : le cloud. Les lacs de données et les technologies ETL ont été conçus pour un écosystème sur site, sans tenir compte des capacités du cloud. À mesure que les données se déplacent vers le cloud, de nouvelles approches doivent être envisagées, rendues possibles par ce nouvel environnement. L’interconnectivité permanente et l’évolutivité instantanée du cloud sont des caractéristiques qui doivent être prises en compte lors de la conception d’une stratégie moderne de gestion des données.

Pourquoi attendre des traitements par lots alors que vous pouvez obtenir des données en temps réel ? Pourquoi ne pas lancer une machine virtuelle pour stocker vos données pendant que vous les analysez ? Pourquoi ne pas interconnecter toutes vos données et y accéder depuis un seul et même endroit ?

processus par lots

L’adaptation des anciennes méthodes de travail aux nouvelles plateformes est une tendance courante dans la transformation technologique et l’adoption des plateformes. Lorsque la plateforme pour appareils mobiles est apparue, les entreprises ont modifié leurs applications d’entreprise et leurs applications Web pour qu’elles fonctionnent sur le système d’exploitation mobile. Même si cette approche a fonctionné, elles n’étaient pas conçues pour un appareil mobile doté d’une puissance et d’une bande passante limitées. La norme est rapidement devenue des applications intégrées au système d’exploitation natif, qui tenaient compte des contraintes et des opportunités offertes par la plateforme. Il en va de même pour le déplacement des applications vers le cloud. La première itération consistait à déplacer des applications monolithiques entières vers un conteneur et à le qualifier de cloud-native. La réalité est que les applications ne sont véritablement cloud-native que si elles ont été conçues et créées pour fonctionner dans plusieurs conteneurs différents, en tirant parti de l’interconnectivité et de l’évolutivité permanentes du cloud. C’est désormais au tour de la gestion des données d’être cloud-native, et la virtualisation des données est la technologie fondamentale.

La virtualisation des données est une technologie puissante et n’est que la base d’une stratégie de données moderne infiniment plus complexe.

Discover the Latest in Data and AI Innovation

  • Stratégies d'intégration et de synchronisation des données dans les produits de données

    Read More

  • Comment instaurer la confiance grâce aux produits de données

    Read More

  • Cycle de vie de la santé des données : stratégies de nettoyage et de transformation des données

    Read More

Request a Demo TODAY!

Take the leap from data to AI