Strategie di integrazione e sincronizzazione dei dati nei prodotti dati


Nel corso degli anni sono stati creati una miriade di approcci diversi per spostare e unire i dati che supportano i processi aziendali e il processo decisionale. Ognuno con le sue capacità e i suoi vantaggi unici. Comprendere queste capacità e il modo in cui si relazionano al risultato desiderato della tua strategia dati è essenziale per progettare un sistema ottimale.

Quando si crea una strategia per mantenere tutti i dati ottimizzati, accessibili e integrati, è necessario considerare molteplici variabili e requisiti, tra cui:

  • Quanto velocemente hai bisogno di dati aggiornati?
  • Quali sono i limiti di larghezza di banda e di spazio di archiviazione?
  • Che tipo di risorse tecniche sono disponibili?
  • Quante copie degli stessi dati devi conservare?
  • Quanto sono grandi i tuoi set di dati?

Elaborazione in batch

L'elaborazione batch trasferisce i dati a intervalli regolari o in batch. Questi modelli includono Extract Transform Load (ETL), Extract Load Transform (ELT), Reverse ETL, Mirroring o Replication e strumenti Write-back.

ETL e ELT

ETL è l'approccio tradizionale allo spostamento dei dati. I dati vengono estratti da una fonte dati, trasformati in base a regole aziendali e caricati in un database di destinazione. Questo approccio può essere molto sicuro ma anche poco flessibile. Questa rigidità richiede che i set di dati siano molto strutturati e documentati, il che semplifica le trasformazioni complesse. Con i database dei sistemi legacy in genere molto strutturati e rigidi, ETL è una buona soluzione per questi sistemi. Per creare questi processi, gli sviluppatori devono avere una conoscenza approfondita della struttura dei dati e dei linguaggi di programmazione.

ELT è simile a ETL, ma la trasformazione avviene dopo il caricamento nel database di destinazione. Questo approccio più contemporaneo consente una maggiore flessibilità perché i dati grezzi rimangono nel database di destinazione dopo essere stati trasformati. Di conseguenza, le trasformazioni possono essere eseguite in modo iterativo o retroattivo senza estrarre i dati dalla fonte dati originale, riducendo le risorse necessarie per estrarre un nuovo set di dati. ELT è più adatto per set di dati più estesi e meno strutturati in cui il data wrangling e le trasformazioni possono essere eseguiti più vicino all'utente finale.

ETL inverso

Reverse ETL è un altro processo batch, ma i dati fluiscono nella direzione opposta di una pipeline ETL. I dati vengono estratti da un'applicazione di terze parti operativa e caricati in un database centrale. Questo approccio consente a un'organizzazione di consolidare una versione di un set di dati in un magazzino centrale e consente alle applicazioni operative di utilizzare gli stessi dati che altre applicazioni o analisi potrebbero utilizzare. Reverse ETL supporta una "singola fonte di verità" per l'organizzazione.

La sfida è che Reverse ETL opera in batch. Nelle organizzazioni dinamiche in cui i dati cambiano costantemente, gruppi distinti possono utilizzare versioni diverse degli stessi dati a causa di diverse pianificazioni di aggiornamento. Le strategie di sincronizzazione Reverse ETL possono anche sopraffare i sistemi operativi, poiché grandi quantità di dati vengono caricate nei sistemi operativi da più fonti. Ciò può portare a conflitti e versioni di dati degli stessi dati.

Mirroring e replicazione

Mirroring e replica salvano i dati in un database separato senza alcuna trasformazione e sono spesso implementati per eseguire il backup di set di dati in caso di perdita di dati. Possono anche essere utili per ottimizzare la gestione dei dati e creare un set di dati persistente quando i dati sono in movimento. Mirroring replica non solo i dati, ma anche l'intera struttura del database e il sistema di gestione.

La replica è leggermente diversa dal mirroring perché non copia il sistema di gestione del database, solo i dati. L'accesso ai dati da vari sistemi è molto più semplice con la replica, poiché un sistema di gestione del database non lo definisce.

Il mirroring è un'opzione migliore per il bilanciamento del carico. I database sorgente e copiato sono identici, quindi è possibile accedere ai dati da entrambe le origini facilmente. Il disaster recovery e l'ottimizzazione dell'utilizzo delle risorse sono casi d'uso comuni per il mirroring. È anche adatto per catturare uno snapshot dei dati in movimento. Ad esempio, i dati virtualizzati utilizzati regolarmente possono essere sottoposti a mirroring su un archivio dati persistente.

In tempo reale

L'integrazione e la gestione dei dati in tempo reale creano molte complessità, in particolare quando si uniscono diversi set di dati. Con diversi set di dati in continuo cambiamento, ci saranno sempre discrepanze tra i dati di origine e quelli uniti. I dati in tempo reale sono più applicabili nei sistemi operativi che tracciano sensori o dati finanziari.

Acquisizione dei dati di modifica (CDC)

CDC è un pattern basato su eventi in cui le modifiche in un database vengono automaticamente riflesse in un altro quando si verificano eventi definiti. Questo pattern supporta flussi di dati bidirezionali in modo che i database di origine e di destinazione possano scambiarsi dati per garantire la sincronizzazione. CDC è un modo molto più efficiente per spostare i dati rispetto a ETL, poiché solo i dati che cambiano vengono trasferiti al database di destinazione, non l'intero set di dati.

CDC funziona bene con database o applicazioni che non possono essere integrati. I processi CDC possono organizzare i dati in un database separato e le modifiche possono quindi essere condivise dai dati organizzati ai database di destinazione. Questo metodo richiede il mantenimento di una sorgente dati dinamica separata, creando una complessità eccessiva e portando a un potenziale maggiore di errori.

Dati in streaming

Lo streaming di dati implica l'ingestione, l'elaborazione e lo spostamento costanti di dati verso la destinazione. In genere, ciò significa dati di sensori di dati di servizi finanziari. In molti casi, lo streaming viene trasformato durante il percorso verso il database di destinazione.

Sebbene lo streaming di dati sia veloce, presenta alcuni svantaggi. Lo streaming di dati è in continuo movimento e segue percorsi diversi su Internet, quindi non è garantito che i dati vengano elaborati nell'ordine corretto. Alcuni dati potrebbero arrivare per essere elaborati dopo dati più recenti, creando confusione sui dati più accurati. È necessario implementare un'orchestrazione appropriata per garantire che i dati vengano elaborati nell'ordine appropriato.

I dati in streaming espongono anche il modello di dati della fonte dati agli utenti downstream. Quando le applicazioni downstream sono collegate direttamente al modello di dati di origine, le modifiche a questo modello causano scompiglio a valle.

Se i dati in streaming sono impacchettati all'interno di un prodotto dati, i modelli di dati sorgente interni possono essere mappati al modello di dati di un prodotto dati. Questa struttura semplifica la condivisione dei dati con gruppi esterni.

Capacità di riscrittura

Le capacità di write-back degli strumenti BI front-end sono un altro metodo per apportare modifiche a un database sorgente. Questo modello emergente consente agli analisti che lavorano con strumenti BI di includere modifiche al database sorgente direttamente dallo strumento BI. Queste modifiche si riflettono immediatamente nella fonte dati e nel lavoro degli analisti. Ciò consente all'analista che ha la migliore comprensione dei dati di adattare o correggere la fonte dati originale.

Le funzionalità di write-back riducono inoltre la dipendenza degli analisti di dati dai fogli di calcolo Excel, poiché ora hanno la possibilità di aggiornare un database il più rapidamente possibile con Excel.

Integrazione delle applicazioni

Le applicazioni SaaS solitamente condividono i dati tramite API REST. Si tratta di processi semplici per estrarre dati da un database applicativo. Da sole, le API non possono trasformare i dati, ma se eseguite tramite una piattaforma iPaaS, è possibile eseguire processi di trasformazione automatizzati sui dati prima di inviarli all'applicazione di destinazione.

Le API REST funzionano bene per semplici scambi di dati tra una o due applicazioni, ma questo tipo di approccio non è ben scalabile. Se un'app cambia la sua API, le applicazioni downstream possono interrompersi.

Virtualizzazione dei dati

La virtualizzazione dei dati è la pratica di eseguire codice che crea un nuovo set di dati virtualizzato di dati estratti da database connessi. Questo nuovo set di dati viene creato ogni volta che il codice viene eseguito, ma i dati vengono conservati solo per il tempo necessario. Questo è il modello che la piattaforma Avrio utilizza per generare set di dati per l'analisi. Ci sono diversi vantaggi nell'utilizzare questa tecnologia per l'integrazione dei dati:

Innanzitutto, la virtualizzazione dei dati separa il database sottostante e la struttura dai dati stessi. Ciò rende la virtualizzazione dei dati molto più scalabile e flessibile.

In secondo luogo, la virtualizzazione dei dati non crea una copia persistente del database. Poiché ogni volta viene creato un nuovo set di dati, il codice viene eseguito e i dati più recenti vengono estratti dal database di origine. Questo approccio evita conflitti tra più versioni degli stessi dati. Anche i costi di archiviazione possono essere ridotti al minimo.

In terzo luogo, connettori sofisticati, motori di query federati e virtualizzazione possono interrogare, trasformare e unire dati da più database contemporaneamente. Con un archivio di metadati consolidato e un modello di dati unificato sovrapposto, questo approccio consente agli analisti di dati di estrarre dati da vari archivi di dati come se fossero un singolo database.

Infine, la virtualizzazione dei dati consente un maggiore controllo dei dati. Poiché i dati si muovono attraverso questo livello di virtualizzazione, è possibile eseguire controlli di qualità dei dati e implementare controlli di accesso granulari.

Avrio e modelli di integrazione dei dati

Ogni approccio di integrazione e sincronizzazione ha i suoi vantaggi e svantaggi. Indipendentemente dal tuo approccio, l'attenzione alla governance dei dati, alla sicurezza e alla qualità è fondamentale per un'architettura dati sana. Utilizzare approcci adatti insieme in una piattaforma consolidata può dare origine a una soluzione potente e flessibile.

Il fulcro della capacità di Avrio è la virtualizzazione dei dati, che viene utilizzata per integrare i dati per l'analisi per creare un nuovo set di dati ogni volta che il codice viene eseguito. Quando sono richiesti dati persistenti, ma ci sono modifiche regolari, Avrio presenta anche capacità CDC che rispecchieranno solo le modifiche nel database di origine nell'ambiente specchiato.

Avrio offre anche funzionalità di mirroring per creare set di dati persistenti da set di dati virtualizzati. Quando i dati non cambiano spesso ma vengono utilizzati regolarmente, il mirroring può ridurre l'utilizzo delle risorse di larghezza di banda.

La piattaforma Avrio consente l'accesso di terze parti ai prodotti dati tramite un'API. Questo livello front-end di Avrio presenta anche capacità di write-back per incorporare le modifiche apportate in uno strumento BI con il database back-end connesso alla piattaforma Avrio.

Combinare più modelli di integrazione e sincronizzazione per ottenere un risultato aziendale ha senso strategico. Ogni situazione è diversa e richiede capacità uniche. La piattaforma Avrio combina le tecnologie e i modelli giusti per rendere i dati accessibili attraverso più silos di dati con prodotti di dati self-service dotati di governance e sicurezza integrate, progettati per l'era dell'intelligenza artificiale, analisi rapide e migliori processi decisionali.

Avrio si adatta bene anche ai tuoi strumenti di integrazione e all'infrastruttura esistenti. Se stai trasmettendo dati in streaming a un data lake, Avrio può creare un prodotto dati per catturare uno snapshot dei dati in streaming per l'analisi. Se hai creato pipeline ETL ben consolidate e che non cambiano molto, Avrio può incorporare questi dati in un prodotto dati che può renderli più accessibili e integrare set di dati da altri sistemi.

Discover the Latest in Data and AI Innovation

  • Strategie di integrazione e sincronizzazione dei dati nei prodotti dati

    Read More

  • Come creare fiducia con i prodotti dati

    Read More

  • Ciclo di vita della salute dei dati: strategie di pulizia e trasformazione dei dati

    Read More

Request a Demo TODAY!

Take the leap from data to AI