Migliorare la gestione dei dati: superare i vincoli con approcci moderni alla virtualizzazione



Listen to this blog
Disclaimer

La corsa è aperta per ogni organizzazione per essere più basata sui dati. Perché? Perché le aziende che hanno maggiori probabilità di usare i dati per informare il processo decisionale hanno prestazioni migliori. Ma le attuali tecnologie di gestione dei dati hanno ancora molta strada da fare per abbattere i silos di dati e rendere i dati accessibili a tutti. Un ecosistema emergente di tecnologie basate sulla virtualizzazione dei dati può migliorare l'accesso ai dati e la fruibilità.

Sfide con gli approcci attuali

Per un analista per accedere ai dati di cui ha bisogno, in genere deve rivolgersi a un data engineer impegnato che abbia le competenze di SQL, Python o Java per creare una query di database ed estrarre un set di dati. L'ingegnere deve anche avere familiarità con i metadati e il modello di dati pertinenti per sapere quali dati interrogare. Con diversi reparti che utilizzano i propri modelli di dati unici, è necessario gestire una complessità aggiuntiva. Se i dati devono essere trasformati e uniti a un'altra tabella di dati, sono necessarie competenze più tecniche per creare una pipeline. Una volta create le pipeline ETL, anche la loro manutenzione è una sfida, poiché tendono a essere molto rigide. Quando sono necessarie modifiche, devono essere riprogettate e testate, il che non solo rende difficili le modifiche, ma significa anche che è difficile utilizzare una singola pipeline per più di uno scopo.

Con la domanda di dati in rapida crescita, questo modello non resisterà alla pressione dell'edificio. Le organizzazioni non possono continuare ad aggiungere all'infinito nuovi ingegneri al loro team di data engineering. Non solo perché ciò è proibitivo in termini di costi, ma anche perché non ce ne sono abbastanza sul mercato.

Il risultato netto di queste sfide è che le organizzazioni sono lente nel prendere decisioni aziendali, il che le pone in una situazione di svantaggio competitivo.

Magazzini dati

Che cosa è la virtualizzazione dei dati di intelligence

I servizi di virtualizzazione dei dati forniscono le basi per un nuovo approccio all'accesso ai dati. Uno strumento di visualizzazione dei dati fornisce un middleware che crea una rappresentazione virtuale dei dati per renderli disponibili per l'analisi. A differenza degli approcci che utilizzano ETL che spostano i dati dove vengono analizzati, i dati virtualizzati rimangono al loro posto. I dati non devono essere spostati dal loro sistema di origine a un data lake e poi a un altro sistema per l'analisi, una pratica comune. Mentre i dati effettivi rimangono al loro posto, i metadati vengono separati e consolidati in un repository centrale.

Con una strategia di virtualizzazione dei dati, separare la logica e i dati sottostanti semplifica notevolmente le modifiche alle query dei dati. Quando i metadati sono incorporati nell'origine dati e le pipeline ETL devono cambiare, gli ingegneri devono comprendere non solo il modello di dati, ma anche come sono impostate le connessioni e se è necessario considerare le dipendenze. Aggiungere origini dati quando i dati sono virtualizzati è molto più semplice. Basta fare riferimento ai metadati e modificare la query per completare il lavoro quando i dati sono virtualizzati. Con una maggiore flessibilità, i prodotti o le risorse di dati possono evolversi in modo iterativo per generare molto più valore per i consumatori di dati.

La virtualizzazione dei dati consente la federazione dei dati

Quando separiamo i metadati dai dati che descrivono e li centralizziamo, vengono abilitate numerose nuove capacità. La federazione dei dati è una di queste. Questo avviene quando i metadati provenienti da più fonti vengono organizzati per rendere i dati accessibili tramite un modello di dati uniforme. Consolidando i metadati, un modello di dati universale semplifica notevolmente la comprensione dei dati sottostanti distribuiti su database disparati, semplificando notevolmente il processo di accesso.

Un livello di metadati consolidato consente inoltre agli analisti di creare una singola query per estrarre dati da più database contemporaneamente, indipendentemente da dove siano archiviati, nel cloud o in locale. La capacità di accedere a più database e di aggregare e trasformare i dati in tempo reale apre un mondo completamente nuovo di capacità.

La federazione dei dati abilita il livello semantico universale

Con un modello di dati unificato disponibile tramite federazione di dati, è possibile costruire un livello di semantica universale in cima per rendere i dati più self-service. Quando si adotta un singolo modello di dati che rappresenta più archivi di dati ed elenca le risorse di dati in un singolo catalogo di dati, è molto più facile esplorare i dati per individuare i fatti di cui si ha bisogno. Ciò consente una maggiore innovazione perché, senza la visibilità migliorata della semantica universale, gli analisti non sarebbero in grado di esplorare, sperimentare o scoprire nuovi dati facilmente. Per una maggiore usabilità, un livello di virtualizzazione universale potrebbe includere risorse aggiuntive, come glossari aziendali che standardizzano la terminologia e le metriche aziendali. Ciò rende i dati ancora più accessibili agli utenti aziendali che possono trovare risorse di dati con una scarsa comprensione di come i dati sono organizzati o dove sono archiviati.

La virtualizzazione, la federazione e la semantica dei dati supportano una migliore governance dei dati

La governance dei dati è definita come tutto ciò che fai per garantire che i dati siano sicuri, privati, accurati, disponibili e utilizzabili. Le tecnologie di dati moderne emergenti migliorano la governance dei dati lungo tutti questi obiettivi.

Sicurezza
Sicurezza

Il livello virtualizzato consente a un singolo gateway di applicare la governance e la sicurezza dei dati centralizzate

Riservatezza
Riservatezza

Mantenendo i dati in posizione, dove possono essere meglio controllati, la virtualizzazione dei dati può gestire l'accesso su più fonti di dati. Con metadati consolidati, i controlli di accesso a grana fine possono essere utilizzati per mascherare i dati a livello di colonna per oscurare le identità.

Precisione
Precisione

Mantenendo i dati in un unico posto, i tuoi dati possono essere più precisi. Non c'è bisogno di sincronizzare i database o spostare i dati, riducendo i potenziali errori che si verificano durante il processo. Quando copie duplicate dei dati non sono sparse nell'organizzazione, i dati nel sistema di origine diventano l'unica fonte di verità, riducendo i dati in conflitto causati da set di dati obsoleti.

Disponibilità
Disponibilità

La virtualizzazione dei dati rende i dati disponibili in tempo reale. Abilita inoltre la governance dei dati federata, che fornisce ai domini aziendali maggiore autonomia per autorizzare l'accesso a chi ne ha bisogno.

Usabilità
Usabilità

Il livello semantico abilitato dalla virtualizzazione dei dati consente agli utenti aziendali di accedere ai dati tramite definizioni comuni tra i domini aziendali, rendendoli più fruibili.

Il moderno stack di gestione dei dati consente strategie moderne

Con il livello di virtualizzazione dei dati che funziona come un singolo gateway per i dati, è molto più facile controllare e monitorare chi ha accesso a quali set di dati. Con questa supervisione, l'autorità può essere distribuita ai domini di dati mentre l'IT mantiene comunque una governance di alto livello. La governance dei dati federata e la semantica universale abilitano architetture di data mesh orientate al dominio e incentrate sui prodotti di dati. Leggi di più su Data Mesh qui

I data fabric sono anche costruiti su virtualizzazione dei dati, federazione dei dati e livelli di semantica universale. Sono diversi da un data mesh perché non incorporano la governance dei dati federata nell'approccio. In questo modello, l'IT mantiene la responsabilità dei dati dell'organizzazione e della scoperta dei dati abilitata dai knowledge graph.

Approccio ai dati cloud-native

La virtualizzazione dei dati e il crescente ecosistema di tecnologie che la circondano costituiscono un'innovazione trasformativa perché si basano sui punti di forza della piattaforma su cui vengono eseguiti: il cloud. I data lake e le tecnologie ETL sono stati progettati per un ecosistema on-prem, senza tenere conto delle capacità del cloud. Poiché i dati si sono spostati sul cloud, dovrebbero essere presi in considerazione nuovi approcci abilitati da questo nuovo ambiente. L'interconnettività always-on e la scalabilità istantanea del cloud sono caratteristiche che devono essere considerate quando si progetta una moderna strategia di gestione dei dati.

Perché aspettare i processi batch quando puoi ottenere dati in tempo reale? Perché non avviare una VM per archiviare i tuoi dati mentre li analizzi? Perché non interconnettere tutti i tuoi dati e accedervi da un unico posto?

processi batch

Adattare il vecchio modo di fare le cose alle nuove piattaforme è una tendenza comune nella trasformazione tecnologica e nell'adozione della piattaforma. Quando è emersa la piattaforma per dispositivi mobili, le aziende hanno modificato le loro applicazioni aziendali e le applicazioni Web per eseguirle sul sistema operativo mobile. Sebbene ciò abbia funzionato, non erano progettate per un dispositivo con potenza e larghezza di banda limitate ed era mobile. Lo standard è diventato rapidamente applicazioni create nel sistema operativo nativo che considerava i vincoli e le opportunità abilitate dalla piattaforma. Lo stesso vale per lo spostamento delle applicazioni sul cloud. La prima iterazione è stata lo spostamento di intere applicazioni monolitiche in un contenitore e la definizione di cloud-native. La realtà è che le applicazioni sono veramente cloud-native solo se sono state progettate e create per essere eseguite in più contenitori diversi, sfruttando l'interconnettività sempre attiva e la scalabilità del cloud. Ora è il turno della gestione dei dati di essere cloud-native e la virtualizzazione dei dati è la tecnologia fondamentale.

La virtualizzazione dei dati è una tecnologia potente e costituisce solo il fondamento di una strategia dati moderna infinitamente più complessa.

Discover the Latest in Data and AI Innovation

  • Strategie di integrazione e sincronizzazione dei dati nei prodotti dati

    Read More

  • Come creare fiducia con i prodotti dati

    Read More

  • Ciclo di vita della salute dei dati: strategie di pulizia e trasformazione dei dati

    Read More

Request a Demo TODAY!

Take the leap from data to AI