Definizione di Data Mesh: cos'è e perché ne ho bisogno?

Listen to this blog

Disclaimer

I dati sono di vitale importanza per il processo decisionale in qualsiasi azienda. Ma quando i decisori devono aspettare che l'IT crei una pipeline di dati per accedervi, le opportunità vengono perse e le decisioni sono subottimali. Questa è la sfida che devono affrontare la maggior parte delle grandi aziende che cercano di diventare più basate sui dati per migliorare le proprie prestazioni.

Una delle sfide più grandi nella gestione dei dati è che la tecnologia di ieri non è in grado di supportare la crescente domanda di dati di oggi. L'approccio ETL è vecchio di decenni e le strutture di governance centralizzate che funzionavano in tempi più semplici non sono in grado di adattarsi alla complessità dell'era dell'intelligenza artificiale.

Approcci innovativi più distribuiti, agili e flessibili stanno iniziando ad arrivare sul mercato. Una strategia di data mesh è un esempio.

Cos'è un Data Mesh?

Un data mesh è una moderna strategia di integrazione dei dati. Si basa su un'architettura di dati distribuita che si allontana dall'archiviazione e gestione dei dati consolidata e centralizzata verso un approccio più condiviso e federato. È un'alternativa alle pipeline di dati ETL e ai data lake che sono costruiti su architetture monolitiche e si basano su numerose dipendenze.

L'architettura del data mesh è più di una tecnologia, è una strategia completa che incorpora cambiamenti nei ruoli dei collaboratori all'interno della gestione dei dati e del consumo dei dati. Ci sono 4 tenant di una strategia del data mesh. Una vera strategia del data mesh deve

Essere guidato dal dominio

Sfrutta la governance dei dati federati

Tratta i dati come un prodotto

Sii egoista

Architettura guidata dal dominio

L'architettura data mesh ridistribuisce più comando e controllo sui dati a domini indipendenti. I domini sono gruppi impegnati in una particolare funzione aziendale. Potrebbe trattarsi di un'operazione regionale, di una linea di business o di una funzione aziendale come vendite, marketing, risorse umane o finanza.

Questi domini raccolgono una quantità significativa di dati mentre svolgono le loro operazioni commerciali quotidiane. L'approccio basato sul dominio affida una maggiore responsabilità nel controllo e nella gestione di questi dati a coloro che li hanno raccolti, non a un'autorità centralizzata.

Governance dei dati federata

Con un data mesh, i domini hanno maggiore autonomia, ma non sono liberi di fare ciò che vogliono. In un approccio di governance dei dati federata, la responsabilità della governance dei dati è condivisa tra le autorità IT centrali e quelle a livello di dominio. L'IT gestisce la creazione di framework e policy che si applicano uniformemente a tutti i domini, mentre ogni singolo dominio gestisce regole che si applicano solo ai propri dati e processi aziendali. Scopri di più sulla governance dei dati federata qui

I dati come prodotto

Quando si passa a un'architettura data mesh, si passa da una mentalità di progetto a un approccio basato sul prodotto. Invece di creare una pipeline ETL ad hoc ogni volta che è necessario un nuovo set di dati, i team di dominio lavorano per creare in modo proattivo prodotti di dati riutilizzabili che forniscono i dati richiesti dai decisori.

Per essere efficaci, questi prodotti devono essere individuabili, indirizzabili, affidabili e autodescrittivi. Ciò significa;

I consumatori di dati devono essere in grado di trovare facilmente i prodotti dati
Ogni prodotto deve avere un indirizzo univoco in modo che possa essere integrato nelle applicazioni software
I dati devono essere affidabili
I consumatori di dati devono essere in grado di comprendere i dati all'interno del prodotto dati e cosa rappresentano

Analisi self-service

L'architettura del data mesh deve essere accessibile ai consumatori di dati non tecnici senza l'assistenza di professionisti tecnici. Ciò potrebbe avvenire tramite un marketplace di prodotti dati o tramite una tecnologia che consente l'accesso diretto ai prodotti dati da uno strumento di analisi o modellazione. Uno dei maggiori punti dolenti che il data mesh risolve è l'abbattimento delle barriere tecniche tra i dati e coloro che li consumano. Il self-service migliora la qualità e la velocità del processo decisionale. Inoltre, allevia le richieste sui data engineer che sono sopraffatti dall'evasione delle richieste di dati.

Perché ne ho bisogno?

Nell'ambiente odierno la domanda di dati sta superando la capacità delle operazioni IT di fornirli. Le organizzazioni sanno che più decisioni basate sui dati portano a risultati e prestazioni migliori, ma la sfida di fornire l'accesso ai dati giusti, adatti allo scopo e affidabili, è tecnicamente e culturalmente impegnativa.

Gli approcci attuali non possono essere adattati alla domanda futura

In un'organizzazione tipica, i dati vengono raccolti e archiviati in silos di dati. Che si tratti di un'applicazione di transazione legacy o di un CRM SaaS. La condivisione dei dati tra questi silos è difficile. Per soddisfare la domanda di condivisione dei dati, i programmatori esperti devono creare pipeline per spostare i dati tra questi silos. Questi sviluppatori devono essere esperti in tecnologie come Python, SQL, R e Java per soddisfare le richieste di dati. Sfortunatamente, non ci sono abbastanza sviluppatori qualificati per tenere il passo con la domanda. In molti casi, quando le richieste di dati vengono soddisfatte, la necessità non c'è più, con conseguenti opportunità perse. Con decisioni aziendali già prese a un ritmo fulmineo e l'intelligenza artificiale posizionata per aumentare quel ritmo a un ritmo esponenziale, questo approccio non funzionerà in futuro.

Il data mesh consente alla comunità di fornire un accesso più facile a dati migliori

Un data mesh consente alle persone e alle tecnologie più sofisticate di lavorare insieme, in modo che i decisori di tutta l'organizzazione possano ottenere i dati di cui hanno bisogno quando ne hanno bisogno.

Da una prospettiva culturale, una strategia di data mesh rafforza gli individui fornendo maggiore proprietà e responsabilità per amministrare i dati nel loro dominio. Ciò li rende più impegnati nel garantire che i dati siano accessibili e affidabili. Ogni stakeholder nel processo ha un ruolo.

Le capacità self-service del data mesh e i cataloghi dati robusti consentono agli analisti di dati di esplorare e distribuire i dati di cui hanno bisogno tramite prodotti dati. Questi analisti non sono più costretti a lottare con attività manuali o ad aspettare che l'IT acceda ai dati. Possono fornire più approfondimenti e analisi ai decisori con le competenze di cui dispongono.

I domain manager, che comprendono i dati che raccolgono più di un'autorità di governance centrale, sono autorizzati a gestirli. Questa maggiore comprensione del contesto attorno ai loro dati li mette nella posizione migliore per gestirli e aumentarne il valore.

Passando a un data mesh, i professionisti IT e gli ingegneri dei dati diventano in grado di aumentare il valore che forniscono offrendo servizi più strategici. Gli ingegneri dei dati possono dedicare meno tempo alla codifica dei processi ETL e lavorare più a stretto contatto con i produttori di prodotti dati per accedere in modo più efficiente ai dati di qualità. Possono fornire consulenza sulle regole di governance a livello di dominio e applicare metriche di qualità. Gli ingegneri dei dati possono anche svolgere un ruolo più importante nella gestione dell'infrastruttura per potenziare i propri colleghi.

La tecnologia distribuita riduce i costi e aumenta l'agilità.

Un data mesh funziona su un'architettura distribuita. Invece di scaricare i dati in un data lake, i dati rimangono nel sistema che li ha raccolti. Quando i dati sono necessari, vengono estratti dalla fonte anziché essere copiati in un altro database in cui vengono analizzati. Ciò significa che i costi di archiviazione sono ridotti e le discrepanze tra vari archivi di dati ridondanti sono ridotte al minimo.

Un sistema distribuito è anche più scalabile, agile e accessibile. Mentre i dati effettivi rimangono al loro posto, i metadati vengono consolidati in un singolo database. Separando i metadati dai dati che descrivono, le risorse di dati possono essere scoperte in un singolo catalogo e le query di dati possono essere create indipendentemente dai dati. Ciò consente;

Query di dati federati

È possibile creare singole query di dati in grado di accedere contemporaneamente ai dati di più sistemi diversi utilizzando lo stesso modello di dati.

Dati da mantenere in posizione

Inoltre, i dati non devono essere necessariamente trasferiti tramite un processo batch, ma possono essere uniti in tempo reale e le modifiche possono essere apportate al volo.

Maggiore scalabilità

Separando i dati dalla logica, è possibile ridurre le dipendenze create da infinite pipeline di dati, consentendo una maggiore scalabilità.

Governance e sicurezza sono più efficienti

Un'autorità superiore non significa sempre una migliore sicurezza. I professionisti che raccolgono i dati sono in una posizione molto migliore per comprenderne la sensibilità. Ciò li mette in grado di implementare policy di governance dei dati più intelligenti rispetto a un'autorità centrale.

Una gerarchia di governance del framework flessibile può anche essere molto più efficace nel garantire che i dati siano accurati, sicuri e accessibili. Dando ai domini l'autonomia di lavorare all'interno di un framework più ampio, possono creare policy che funzionano meglio per loro ma che soddisfano comunque gli standard di governance organizzativa. Essendo più vicini ai dati, sono anche in una posizione migliore per apportare modifiche man mano che le minacce e le richieste cambiano.

Una maggiore autonomia riduce anche la tendenza degli analisti a ricorrere a soluzioni non autorizzate. Se le regole sono troppo restrittive e/o non applicabili a un determinato caso d'uso, gli operatori troveranno dei modi per aggirarle. Ciò crea vulnerabilità opache che possono portare a gravi minacce alla sicurezza.

Man mano che la tecnologia e i sistemi maturano, in genere diventano più sofisticati, complessi e distribuiti. Con un controllo meno centralizzato, i sistemi di dati possono evolversi rapidamente ed essere più agili e resilienti. Affidando i dati alle persone ma creando delle protezioni appropriate per garantire l'ordine, i dati diventano più accessibili e utili.