Un sistema sano con dati puliti è fondamentale per le organizzazioni che mirano ad avere un utile netto sano. I dati non sani portano a un processo decisionale inferiore, opportunità sprecate e costi più elevati. Mantenere dati di qualità richiede una pulizia diligente dei dati per mantenerli sani.
La ricerca di G. Loabovitz e Y. Chang ha portato alla regola 1-10-100 della qualità dei dati. Questa regola evidenzia il crescente costo degli errori nei dati dovuto alla scarsa qualità dei dati: se costa 1 $ verificare un record, costa 10 $ per record correggere gli errori una volta creati e 100 $ per record se gli errori non vengono affrontati. Questa ricerca afferma che più si è proattivi nel garantire la salute dei dati, più si evitano costi per la qualità dei dati.
Una strategia completa di data health che consideri la data health dalla struttura del database alle applicazioni, porta a dati di qualità superiore. I dati e i sistemi devono essere puliti e valutati a tre livelli.
database e tabelle dati devono essere organizzati in modo efficace e funzionare correttamente per evitare errori. Processi efficaci di riparazione del database risolvono i problemi di qualità dei dati alla fonte.
i dati all'interno del database devono essere sottoposti a un regolare processo di pulizia dei dati che ricerca errori, incongruenze, duplicazioni e voci mancanti.
nuovi errori di dati vengono creati quando i dati vengono convertiti e spostati. Le organizzazioni hanno bisogno di strategie per garantire la salute dei dati attraverso diverse trasformazioni, tra cui ETL (Extract, Transform, Load) e processi di data wrangling.
Assicurare che i tuoi database e la loro struttura siano in buona salute può avere un impatto significativo sulla tua strategia di salute dei dati. Concentrandoti sulla fonte dei dati, i problemi ripetitivi di qualità dei dati a valle vengono ridotti. I primi passi per mantenere sani i tuoi dati sono l'aggiornamento della tecnologia del database e la riparazione dei database mal strutturati.
Valutare come i database sono organizzati e strutturati riduce il verificarsi di dati non sani. Consolidare i formati dei dati in una struttura comune può ridurre i dati in conflitto e duplicati. Creare un formato standard per i numeri di telefono è un esempio. Invece di mantenere più formati con trattini, punti, prefissi e codici paese, le organizzazioni possono definire un formato di stringa di testo solo numerico da utilizzare in tutti i sistemi. Questa tattica riduce il numero di tipi di dati, riducendo le possibilità di confusione.
Cambiare lo schema per migliorare le prestazioni è un altro modo per organizzare i database per promuovere la salute dei dati. Esempi includono il consolidamento delle chiavi primarie per aumentare la coerenza. Correggere e standardizzare le tabelle di origine può ridurre lo sforzo richiesto per standardizzare i dati ogni volta che vengono estratti per l'analisi. Mentre adattare lo schema per renderlo più uniforme può limitare gli errori in futuro, può causare problemi a breve termine poiché le app downstream devono essere adattate per incorporare le modifiche allo schema. Un livello di federazione che funziona come gateway per il database può aiutare a rilevare le modifiche allo schema per garantire che le app downstream vengano aggiornate in modo appropriato.
A differenza della riparazione del database, la pulizia dei dati si concentra sui dati stessi. La pulizia del database è un processo che richiede attenzione costante e regolare. In un ospedale, i contaminanti trovano costantemente la loro strada nella struttura, quindi è necessaria una sterilizzazione regolare per impedire ai germi di far ammalare le persone. I tuoi database non sono diversi.
I processi di pulizia regolari dovrebbero concentrarsi su:
I dati duplicati sprecano spazio in un database e creano confusione, ostacolando l'accuratezza delle informazioni. Con la quantità di dati raccolti e archiviati nei silos di dati, spesso si verificano più versioni dello stesso record. La deduplicazione dei dati è un esercizio di pulizia dei dati fondamentale, poiché il doppio conteggio degli stessi punti dati distorce l'analisi.
Errori come errori di ortografia, errori di capitalizzazione e incongruenze nei nomi possono confondere applicazioni e analisi che si basano su formati standardizzati. Individuare e correggere questi errori aiuta a mantenere puliti i dati.
I dati mancanti possono distorcere l'analisi. Per risolvere i problemi di dati mancanti potrebbe essere necessario aggiungere dati con ipotesi ragionevoli o eliminare un'intera colonna o un set di dati se i dati mancanti sono eccessivi.
dati vecchi o irrilevanti occupano spazio di archiviazione, creando confusione. I vecchi dati possono anche entrare in conflitto con i dati più recenti o essere scambiati per dati nuovi, contaminando l'analisi.
I valori anomali nel tuo set di dati possono segnalare un errore, ma non sempre. Identificare i valori anomali, determinarne la causa e adottare le misure appropriate riduce il numero di punti dati errati nei tuoi set di dati.
La convalida dei dati può aiutare a evitare alcuni di questi errori durante l'immissione dei dati. Creare regole di convalida e incorporarle nel tuo stack di dati può supportare test in tempo reale per identificare gli errori in anticipo.
I processi si complicano quando i dati vengono trasferiti da un database a un altro, trasformati o uniti a un nuovo set di dati. Assicurarsi che i processi di trasformazione non introducano o perpetuino dati errati è essenziale per mantenere dati sani. Quando i dati provengono da database separati, le probabilità che vengano duplicati sono elevate. Anche le diverse etichette tra database possono causare errori.
I dati vengono trasformati in molti modi, ma in genere vengono trasformati e preparati per l'analisi oppure standardizzati per essere caricati in un database per applicazioni o analisi future.
I processi di estrazione, trasformazione e caricamento (ETL) sono l'approccio di trasformazione più comune per spostare dati da un database a un altro. Il processo ETL estrae i dati da un database, li trasforma e quindi li carica nel database di destinazione. La struttura del database di destinazione in genere detta queste trasformazioni, che sono ben definite e sistematiche. Sono ben scalabili e adatte a grandi set di dati.
I processi di data wrangling sono diversi e molto più agili. Questi processi sono fondamentali per preparare set di dati per l'analisi. Le tecnologie di data wrangling si adattano sia ai dati strutturati che a quelli non strutturati.
Per ottenere dati più affidabili è importante comprendere queste differenze.
I processi ETL solitamente iniziano con dati ben organizzati e strutturati. Questa struttura consente processi di trasformazione più automatizzati e sistematici. Questi programmi di trasformazione sono creati da sviluppatori orientati tecnicamente che utilizzano tecnologie potenti come Python e Scala. Mentre una maggiore automazione è ottima per l'efficienza, può anche perpetuare dati errati ed errori molto più rapidamente. Queste automazioni sono anche difficili da creare, quindi sono difficili da modificare, rendendo il processo ETL molto meno agile. Farlo bene la prima volta è la chiave per mantenere i dati sani.
Il primo passaggio del processo ETL è estrarre i dati dal database di origine. Possono verificarsi errori quando i dati di origine non sono puliti, quindi è importante effettuare una profilazione dei dati per comprenderne la qualità. Se la qualità dei dati non è ottimale all'inizio, afflitta da valori mancanti, duplicati e valori fuori intervallo, sarà necessario tornare indietro per effettuare una pulizia dei dati.
Il processo di trasformazione riformatta i dati in modo che possano essere ingeriti nei database di destinazione. Ciò include la normalizzazione dei dati in modo che i formati siano coerenti tra il database di origine e quello di destinazione. Possono verificarsi errori se i dati sono etichettati in modo errato o le strutture dati non sono allineate, rendendo la pulizia dei dati una parte importante del processo di trasformazione. Le routine per identificare i dati sporchi e correggere gli errori possono essere integrate nel programma ETL. Il filtraggio dei dati rimuove i dati indesiderati, riducendo la complessità. Infine, vengono eseguiti controlli di convalida per verificare incongruenze o per identificare valori anomali.
L'ultimo passaggio del processo è il caricamento dei dati nel database di destinazione. Se si verificano errori in questa fase, è essenziale disporre di un processo di versioning in atto, in modo da poter ricorrere a una versione precedente del codice per risolvere gli errori.
Come ETL, il data wrangling è un processo di trasformazione in cui possono verificarsi errori nei dati. Il data wrangling è il processo di creazione di asset di dati da utilizzare in un caso d'uso analitico definito. I requisiti del caso d'uso analitico guidano le trasformazioni. Questo requisito richiede maggiore agilità e la capacità di incorporare dati non strutturati.
Con il data wrangling, è richiesto un processo più manuale e dinamico. Per garantire che l'analisi si basi sui dati di massima qualità, i team devono scoprire, organizzare, pulire, arricchire e convalidare i dati.
Con il data wrangling, il primo passo per l'analisi della qualità è comprendere lo stato di salute e l'applicabilità dei set di dati sottostanti. Ciò significa comprendere cosa è disponibile, cosa si adatta ai requisiti e valutare la qualità dei set di dati. Le metriche della qualità dei dati come i test di distribuzione e i test di intervallo di validità forniscono informazioni sullo stato di salute dei dati. Comprendere i problemi esistenti, le dimensioni del set di dati e i formati dei dati sono fattori che devono essere considerati prima di utilizzare i dati per supportare l'analisi. A differenza dei processi ETL, il data wrangling non è vincolato da automazioni pre-costruite. Questa differenza significa che gli analisti hanno la flessibilità di cercare i migliori set di dati, evitando dati meno sanificati. Cataloghi di dati robusti che sono accessibili e mantengono e tracciano questi dati sono utili per misurare lo stato di salute dei dati.
L'organizzazione dei set di dati da utilizzare nell'analisi è un altro processo critico. Quando si lavora con dati non strutturati, questo processo diventa molto più difficile. I dati non strutturati devono essere organizzati in righe e colonne per essere analizzati. Le tecniche di tagging possono essere utilizzate per creare più struttura attorno a questi dati e fornire più informazioni sui documenti non strutturati in modo che possano essere organizzati in modo più efficiente. Questo processo sta emergendo come un caso d'uso praticabile per GenAI. Queste tecnologie possono analizzare i documenti per comprenderne il significato e contrassegnarli di conseguenza. Un'etichettatura dei dati sana riduce le possibilità che GenAI commetta errori.
Proprio come in ELT, i processi di data cleansing sono essenziali nel data wrangling. Le strategie di cleansing possono identificare valori anomali e preparare i dati per l'analisi eliminando il rumore nei dati e assicurando che i set di dati siano pertinenti. Correggere l'ortografia e standardizzare le abbreviazioni è molto più complesso quando si lavora con testo non strutturato. L'intelligenza artificiale può essere sfruttata per correggerli.
Il processo di normalizzazione dei dati nel data wrangling differisce leggermente dall'ETL perché gli standard sono guidati dal caso d'uso aziendale anziché dalla struttura e dallo schema del database rigido. Motori di gestione dei metadati robusti possono migliorare questo processo. Con GenAI integrato e glossari aziendali, gli utenti aziendali possono normalizzare e combinare i dati in base a definizioni e calcoli aziendali.
L'arricchimento dei dati è un'altra tecnica che prevede la combinazione di set di dati o prodotti di dati predefiniti per fornire un contesto più ampio per un'analisi più approfondita e pulita. Riempire i dati mancanti con dati sintetici è un'altra strategia per rafforzare la qualità dei set di dati.
Analogamente ai processi ETL, i test di convalida dei dati sono essenziali per garantire la pulizia dei dati dopo l'esecuzione dei processi di data wrangling.
Avere gli strumenti e i processi giusti per creare trasformazioni di dati è il modo migliore per aderire alle best practice e ridurre il potenziale di errori nelle trasformazioni di dati. Come gli strumenti DevOps nello spazio software, Data Build Tools supporta i processi di trasformazione dei dati con workbench di sviluppo e controlli di qualità. Le funzionalità includono controlli di versione, test e registrazione.
Le trasformazioni dei dati sono in continua evoluzione. Per garantirne la qualità, devono essere testate ogni volta che il codice viene aggiornato. Creare o modificare query può portare a una moltitudine di problemi, tra cui join di dati errati che introducono errori a valle nella pipeline. Avere un processo per creare trasformazioni è fondamentale per evitare errori.
Strumenti come dbt (data build tool) abilitano flussi di lavoro di trasformazione sani. Lo strumento consente agli analisti di:
Dopo tutto il lavoro svolto per ripulire i dati, ridurre la possibilità di introdurre dati errati con strumenti e flussi di lavoro efficaci ha semplicemente senso.
L'integrazione di questi strumenti con il tuo stack di dati li rende più facili da usare e semplifica il tuo processo di trasformazione dei dati. I modelli e le trasformazioni pre-testate sono facilmente accessibili e implementabili. Questa capacità non solo riduce i potenziali errori, ma riduce anche lo sforzo per creare prodotti e processi di dati.
Combinando strumenti, flussi di lavoro e dati si crea un framework per supportare dati sani. Tramite un adattatore dpt, gli utenti della piattaforma Data to AI, Avrio, possono scrivere e testare complesse trasformazioni SQL che utilizzano il motore di query federato di Avrio, supportando i requisiti di qualità dei dati.
Capire come pulire i dati e mantenerli puliti durante il loro percorso dalla raccolta all'analisi è estremamente importante per creare fiducia nei dati. Le crescenti capacità di GenAI di preparare dati non strutturati per l'analisi stanno creando nuove opportunità per approfondimenti più ampi, ma nuove complessità potrebbero portare a dati sporchi. Avere una strategia di integrità dei dati complessa tra dati strutturati e non strutturati dal sistema di origine all'analisi aiuterà a garantire che dati puliti e pertinenti vengano messi nelle mani dei decisori.