Garis keturunan data ialah proses merekod dan menjejak data melalui kitaran hayatnya dan penting untuk kualiti data. Untuk memastikan data yang digunakan untuk menyokong keputusan perniagaan kritikal adalah boleh dipercayai, seseorang perlu mengetahui asal usulnya. Data sentiasa berubah, mengemas kini, bergabung dan berubah. Garis keturunan data mendokumenkan semua proses ini, termasuk siapa yang menukar data, dari mana data berasal dan sebab data itu diubah suai. Apabila data mengalir melalui saluran paip, metadata dicipta untuk menyuap alat keturunan data yang memetakan sambungan dan mencipta visualisasi cara data bergerak melalui kitaran hayatnya. Pemetaan sambungan data memberikan cerapan tentang cara data huluan dan hiliran disambungkan. Garis keturunan data menyediakan jejak audit untuk data.
Data keturunan dijejaki melalui pelbagai peringkat kitaran hayat data, termasuk pengumpulan, pemprosesan, akses, penyimpanan, pertanyaan data dan analisis data. Memahami cara dan sebab data keturunan dikumpulkan pada setiap peringkat akan menyokong pemahaman yang lebih lengkap tentang keturunan data.
Peringkat pertama garis keturunan data bermula dengan pengumpulan data. Sebaik sahaja data memasuki sistem, sumber data perlu didokumenkan. Sistem mesti menjejaki dari mana data itu datang dan kebolehpercayaan sumber. Ia harus mengambil perhatian betapa sah dan tepat data itu dan sebarang transformasi atau manipulasi yang dilakukan pada set data sebelum memasuki sistem baharu.
Setelah data telah dikumpulkan, garis keturunan data perlu menjejaki cara ia diagregatkan, diubah dan dimanipulasi. Kebarangkalian ralat yang mencipta data buruk adalah tinggi apabila data diproses, digabungkan atau ditapis. Ralat ini mungkin tidak dapat dikenal pasti sehingga pengguna hiliran mengakses dan menganalisis data, jadi dokumentasi yang betul adalah penting untuk menjejak sebarang sumber ralat. Keturunan yang berkesan memerlukan metadata untuk setiap langkah pemprosesan untuk dibuat dan disimpan.
Setelah data diproses dan disimpan, data keturunan masih perlu ditangkap. Data tentang siapa yang mengakses data diperlukan untuk menyokong audit pematuhan. Data boleh terjejas apabila tidak disimpan dengan betul, jadi menjejaki cara dan tempat ia disimpan juga penting untuk garis keturunan data hujung ke hujung.
Menangkap data yang memperincikan cara data disoal dan dianalisis juga merupakan keupayaan penting apabila mengikuti strategi keturunan data yang lengkap. Garis keturunan data tidak selalunya tentang menjejak kesihatan data, tetapi juga prestasi sistem. Data tentang seberapa cepat dan cekap pertanyaan dilakukan boleh dianalisis untuk memahami di mana terdapat peluang untuk mengoptimumkan keseluruhan saluran paip. Pentadbir juga boleh menggunakan metadata ini untuk lebih memahami cara data digunakan dan meramalkan corak penggunaan masa hadapan untuk menjangka keperluan pengguna.
Penjejakan keturunan data ialah komponen utama dalam menyampaikan data yang boleh dipercayai. Memahami cara data bergerak melalui sistem dan proses yang berbeza serta cara set data disambungkan membantu pentadbir memastikan data dan sistem sentiasa sihat. Keupayaan untuk mengikuti setiap peringkat evolusi set data juga penting dalam mengenal pasti punca ralat data.
Dengan menjejaki perubahan dalam setiap fasa kitaran hayat dan memetakan cara setiap perubahan ini berkaitan, penyelesai masalah boleh mengesan ralat di hulu untuk mengenal pasti punca ralat. Dalam kebanyakan kes, ralat dalam data tidak dikenal pasti sehingga set data telah bergerak lebih jauh ke hiliran untuk analisis. Anomali dalam data boleh menandakan arah aliran yang berubah, atau ia mungkin hanya ralat dalam data. Mengetahui perbezaan adalah penting untuk tidak melepaskan peluang atau mengelakkan membuat keputusan berdasarkan data yang salah. Mengesan set data daripada proses analisis kembali ke masa ia mula-mula dikumpulkan memberikan keyakinan yang lebih besar dalam kesihatan saluran paip data. Mengenal pasti punca dan melaksanakan penyelesaian juga akan membantu menghapuskan kemungkinan ralat yang sama berulang.
Memahami cara set data yang berbeza disambungkan juga membantu mengelakkan ralat pada mulanya. Keupayaan untuk mengesan kebergantungan hiliran membolehkan pembangun dan jurutera data meramalkan kesan perubahan pada aplikasi dan model yang bergantung. Sebagai contoh, seorang jurutera data akan memahami implikasi perubahan skema jadual sebelum membuat pelarasan. Pengetahuan ini boleh membantu mereka mencari laluan berbeza atau mengedit apl hiliran untuk mencerminkan perubahan huluan dan mengelakkan ralat atau kegagalan.
Dengan cara untuk memantau proses data anda merentas keseluruhan tindanan data anda, anda mempunyai mekanisme untuk mengesahkan ketepatan dan integriti data anda. Keupayaan untuk menjejak data kembali ke sumbernya membolehkan pembuat keputusan menilai kesahihannya. Pengetahuan ini amat penting jika data berasal dari luar organisasi. Adakah kumpulan yang mencipta set data memberi tumpuan kepada kualiti data seperti pengguna? Ini adalah maklumat yang berharga jika anda membuat keputusan perniagaan yang penting berdasarkan data ini.
Keturunan Data membantu dalam mematuhi peraturan dengan menjejaki cara dan tempat data disimpan dan diakses. Mematuhi kedaulatan data dan peraturan privasi, sebagai contoh, kerana garis keturunan data boleh mengetahui sama ada data telah berpindah merentasi sempadan negara. Program keturunan data yang mantap juga penting untuk memudahkan audit pematuhan yang cepat. Dengan garis keturunan data, pentadbir boleh mengesahkan bahawa data telah diuruskan dengan sewajarnya sepanjang saluran paip data hujung ke hujung.
Walaupun nilai garis keturunan data hujung ke hujung mungkin jelas, akses kepada semua metadata yang berkaitan tidak selalu dapat dilakukan. Terdapat beberapa pendekatan berbeza untuk menganalisis data untuk mencipta keturunan. Berasaskan corak, Berasaskan Tag, Berdikari dan Menghuraikan.
Dengan penjejakan garis keturunan data berasaskan corak, analisis corak dalam metadata mendedahkan sejarah set data. Pendekatan ini menganalisis metadata merentas jadual, lajur dan laporan untuk membuat sambungan. Jika dua jadual mempunyai nama dan nilai data yang serupa, ia boleh diandaikan bahawa ia adalah versi berbeza bagi jadual yang sama, dan pautan boleh dicatatkan dalam peta keturunan data. Pendekatan ini adalah teknologi-agnostik kerana ia memfokuskan pada corak data dan boleh berfungsi pada mana-mana sistem. Walaupun garis keturunan data berasaskan corak berfungsi dengan baik dengan bilangan set data yang lebih kecil dan mungkin tidak berkesan dengan perhubungan data yang kompleks.
Pendekatan berasaskan teg memanfaatkan enjin transformasi untuk menandai data, membolehkan ia dijejaki semasa ia bergerak melalui saluran paip. Pendekatan ini sangat cekap, tetapi ia hanya berfungsi jika alat seragam digunakan untuk memproses dan menandai data.
Pendekatan ini menggunakan alatan pengurusan data induk (MDM) untuk mengurus metadata secara berpusat. Metadata yang dicipta oleh pelbagai proses dalam sistem dipusatkan dalam alat MDM yang boleh menangkap data keturunan. Cabarannya ialah proses yang dilakukan di luar sistem yang tidak berinteraksi dengan alat MDM tidak dapat dikesan.
Proses ini berfungsi dengan transformasi data kejuruteraan terbalik. Dengan membaca logik yang digunakan untuk mengubah data, garis keturunan data boleh diduga. Ini adalah proses yang kompleks dan semua bahasa serta proses yang digunakan untuk mengurus data merentas timbunan data anda mesti difahami dengan baik. Walaupun rumit, proses ini adalah yang terbaik untuk menjejak garis keturunan data hujung ke hujung merentas sistem.
Memfokuskan pada teknologi dan metadata di sekitar strategi keturunan data anda adalah penting, tetapi usaha anda akan sia-sia jika pembuat keputusan tidak memahaminya. Data keturunan harus difahami oleh pengguna perniagaan dan teknikal.
Keturunan perniagaan juga harus dipertimbangkan sebagai sebahagian daripada strategi anda. Susun keturunan data anda dengan konteks perniagaan yang betul supaya pengguna perniagaan dapat memahami cara data mengalir melalui proses perniagaan. Memahami data yang mengalir melalui saluran paip anda adalah sama pentingnya dengan garis keturunan teknikal yang menjejaki caranya.
Garis keturunan data adalah penting dalam membina dan menggunakan produk data. Pengeluar data boleh mengaudit keturunan data untuk memastikan kebolehpercayaan data yang mengalir ke dalam produk data mereka. Lineage juga boleh membantu pengeluar produk data memahami kebergantungan dan perhubungan antara set data yang berbeza dalam produk data mereka.
Pengguna perniagaan produk data juga boleh memanfaatkan keturunan data untuk memahami aliran data dan sumbernya. Maklumat ini membantu mereka menilai kesahihan data dan kebolehgunaannya untuk kes penggunaan tertentu. Teras kepada produk data yang hebat ialah katalog data yang luas dengan keupayaan keturunan data teguh terbina dalam. Katalog data membantu pengeluar produk data mencari dan mengakses data yang mereka perlukan, dan data keturunan data menyediakan maklumat berharga tentang data tersebut.
Strategi keturunan data ialah ciri penting tindanan data moden. Apabila saluran paip data menjadi semakin kompleks, program garis keturunan data yang kukuh akan menjadi penting untuk memastikan kualiti data.