Il lignaggio dei dati è il processo di registrazione e tracciamento dei dati durante il loro ciclo di vita ed è fondamentale per la qualità dei dati. Per garantire che i dati utilizzati per supportare decisioni aziendali critiche siano affidabili, è necessario conoscerne l'origine. I dati cambiano, si aggiornano, si uniscono e si trasformano costantemente. Il lignaggio dei dati documenta tutti questi processi, tra cui chi ha modificato i dati, dove hanno avuto origine i dati e perché sono stati modificati. Mentre i dati scorrono attraverso le pipeline, vengono creati metadati per alimentare strumenti di lignaggio dei dati che mappano le connessioni e creano visualizzazioni di come i dati si muovono durante il loro ciclo di vita. La mappatura delle connessioni dati fornisce informazioni su come i dati upstream e downstream sono collegati. Il lignaggio dei dati fornisce una traccia di controllo per i dati.
I dati di lignaggio vengono tracciati attraverso più fasi del ciclo di vita dei dati, tra cui raccolta, elaborazione, accesso, archiviazione, query dei dati e analisi dei dati. Comprendere come e perché i dati di lignaggio vengono raccolti in ogni fase supporterà una comprensione più completa del lignaggio dei dati.
La prima fase del lignaggio dei dati inizia con la raccolta dei dati. Una volta che i dati entrano in un sistema, la fonte dei dati deve essere documentata. I sistemi devono tracciare la provenienza dei dati e l'affidabilità della fonte. Dovrebbero annotare quanto sono validi e accurati i dati e qualsiasi trasformazione o manipolazione eseguita su un set di dati prima di entrare in un nuovo sistema.
Una volta raccolti i dati, il lignaggio dei dati deve tracciare come vengono aggregati, trasformati e manipolati. La probabilità di errori che creano dati errati è alta quando i dati vengono elaborati, uniti o filtrati. Questi errori potrebbero non essere identificati finché gli utenti downstream non accedono e analizzano i dati, quindi è essenziale una documentazione adeguata per tracciare qualsiasi fonte di errori. Un lignaggio efficace richiede che i metadati per ogni fase di elaborazione vengano creati e archiviati.
Una volta elaborati e archiviati i dati, è ancora necessario acquisire i dati di lignaggio. I dati su chi accede ai dati sono necessari per supportare gli audit di conformità. I dati possono essere compromessi se non archiviati correttamente, quindi tracciare come e dove vengono archiviati è essenziale anche per il lignaggio dei dati end-to-end.
Anche l'acquisizione di dati che descrivono in dettaglio come i dati vengono interrogati e analizzati è una capacità significativa quando si persegue una strategia completa di lignaggio dei dati. Il lignaggio dei dati non riguarda sempre il monitoraggio dello stato di salute dei dati, ma anche delle prestazioni del sistema. I dati su quanto velocemente ed efficientemente vengono eseguite le query possono essere analizzati per capire dove potrebbero esserci opportunità per ottimizzare l'intera pipeline. Gli amministratori possono anche utilizzare questi metadati per comprendere meglio come vengono utilizzati i dati e prevedere modelli di utilizzo futuri per anticipare le esigenze degli utenti.
Il monitoraggio della discendenza dei dati è un componente chiave per fornire dati affidabili. Comprendere come i dati si muovono attraverso diversi sistemi e processi e come i set di dati sono collegati aiuta gli amministratori a mantenere dati e sistemi sani. La capacità di seguire ogni fase dell'evoluzione di un set di dati è inoltre fondamentale per identificare le cause profonde degli errori nei dati.
Tracciando i cambiamenti in ogni fase del ciclo di vita e mappando il modo in cui ciascuno di questi cambiamenti è correlato, i risolutori di problemi possono tracciare gli errori a monte per identificare la radice dell'errore. In molti casi, gli errori nei dati non vengono identificati finché il set di dati non si è spostato più a valle per l'analisi. Le anomalie nei dati possono segnalare un trend in evoluzione o potrebbe trattarsi semplicemente di un errore nei dati. Conoscere la differenza è fondamentale per non perdere un'opportunità o evitare di prendere decisioni basate su dati errati. Tracciare un set di dati dal processo di analisi fino a quando è stato raccolto per la prima volta fornisce una fiducia molto maggiore nello stato di salute delle pipeline di dati. L'identificazione delle cause profonde e l'implementazione di soluzioni contribuiranno anche a eliminare la possibilità che gli stessi errori si ripetano.
Comprendere come sono collegati diversi set di dati aiuta anche a evitare errori in primo luogo. La capacità di tracciare le dipendenze downstream consente agli sviluppatori e ai data engineer di prevedere l'impatto delle modifiche su applicazioni e modelli dipendenti. Ad esempio, un data engineer comprenderà le implicazioni della modifica dello schema della tabella prima di apportare una modifica. Questa conoscenza può aiutarli a trovare un percorso diverso o modificare le app downstream per riflettere la modifica upstream ed evitare errori o guasti.
Con un modo per monitorare i tuoi processi di dati nell'intero stack di dati, hai un meccanismo per convalidare l'accuratezza e l'integrità dei tuoi dati. La capacità di tracciare i dati fino alla loro origine consente ai decisori di giudicarne la validità. Questa conoscenza è particolarmente importante se i dati provengono dall'esterno dell'organizzazione. Il gruppo che ha creato un set di dati è concentrato sulla qualità dei dati tanto quanto gli utenti? Questa è un'informazione preziosa se prendi decisioni aziendali importanti basate su questi dati.
Data Lineage aiuta a rispettare le normative monitorando come e dove i dati vengono archiviati e consultati. Ad esempio, rispettando le regole sulla sovranità dei dati e sulla privacy, poiché il data lignaggio può stabilire se i dati sono stati spostati oltre i confini nazionali. Anche i programmi di data lignaggio robusti sono importanti per facilitare rapidi audit di conformità. Con il data lignaggio, gli amministratori possono verificare che i dati siano stati gestiti in modo appropriato in tutta la pipeline di dati end-to-end.
Sebbene il valore del lignaggio dei dati end-to-end possa essere evidente, l'accesso a tutti i metadati rilevanti non è sempre possibile. Esistono diversi approcci per analizzare i dati per creare il lignaggio. Basato su pattern, basato su tag, autonomo e parsing.
Con il tracciamento del lignaggio dei dati basato su pattern, l'analisi dei pattern nei metadati rivela la cronologia di un set di dati. Questo approccio analizza i metadati in tabelle, colonne e report per creare connessioni. Se due tabelle hanno nomi e valori di dati simili, si può supporre che siano versioni diverse della stessa tabella e si può notare un collegamento in una mappa del lignaggio dei dati. Questo approccio è indipendente dalla tecnologia perché si concentra sui pattern di dati e può funzionare su qualsiasi sistema. Mentre il lignaggio dei dati basato su pattern funziona bene con un numero inferiore di set di dati e potrebbe non essere efficace con relazioni di dati complesse.
Un approccio basato su tag sfrutta un motore di trasformazione per taggare i dati, consentendone il tracciamento durante il loro spostamento nella pipeline. Questo approccio è molto efficiente, ma funziona solo se si utilizza uno strumento uniforme per elaborare e taggare i dati.
Questo approccio utilizza strumenti di gestione dei dati master (MDM) per gestire i metadati in modo centralizzato. I metadati creati da vari processi nel sistema sono centralizzati in uno strumento MDM in grado di acquisire dati di lignaggio. La sfida è che i processi eseguiti all'esterno del sistema che non interagiscono con lo strumento MDM non possono essere tracciati.
Questo processo funziona tramite il reverse engineering delle trasformazioni dei dati. Leggendo la logica utilizzata per trasformare i dati, è possibile dedurre la discendenza dei dati. Questo è un processo complesso e tutti i linguaggi e i processi utilizzati per gestire i dati nel tuo stack di dati devono essere ben compresi. Sebbene complesso, questo processo è il migliore per tracciare la discendenza dei dati end-to-end nei sistemi.
Concentrarsi sulla tecnologia e sui metadati attorno alla strategia di lignaggio dei dati è importante, ma i tuoi sforzi saranno sprecati se i decisori non li comprendono. I dati di lignaggio dovrebbero essere comprensibili sia per gli utenti aziendali che per quelli tecnici.
Anche il lignaggio aziendale dovrebbe essere considerato come parte della tua strategia. Organizza il tuo lignaggio dati con il giusto contesto aziendale in modo che gli utenti aziendali possano comprendere come i dati fluiscono attraverso i processi aziendali. Comprendere quali dati fluiscono attraverso le tue pipeline è importante tanto quanto il lignaggio tecnico che traccia il come.
Il lignaggio dei dati è fondamentale per la creazione e l'utilizzo di prodotti dati. I produttori di dati possono verificare il lignaggio dei dati per garantire l'affidabilità dei dati che confluiscono nel loro prodotto dati. Il lignaggio può anche aiutare i produttori di prodotti dati a comprendere le dipendenze e le relazioni tra diversi set di dati nei loro prodotti dati.
Gli utenti aziendali di prodotti dati possono anche sfruttare il lignaggio dei dati per comprendere il flusso dei dati e la sua origine. Queste informazioni li aiutano a giudicare la validità dei dati e la loro applicabilità a determinati casi d'uso. Al centro di ottimi prodotti dati c'è un ampio catalogo dati con solide capacità di lignaggio dei dati integrate. I cataloghi dati aiutano i produttori di prodotti dati a trovare e ad accedere ai dati di cui hanno bisogno, e i dati del lignaggio dei dati forniscono informazioni preziose su tali dati.
Le strategie di data lignaggio sono caratteristiche essenziali del moderno data stack. Man mano che le pipeline di dati diventano sempre più complesse, un solido programma di data lignaggio sarà essenziale per garantire la qualità dei dati.