Kos sebenar data kotor dan cara mengelakkannya

Sistem yang sihat dengan data yang bersih adalah penting untuk organisasi yang ingin memastikan keuntungan yang stabil. Data yang tidak berkualiti akan membawa kepada pengambilan keputusan yang lemah, peluang yang terlepas, dan kos yang lebih tinggi. Untuk memastikan data kekal berkualiti, pembersihan data yang teliti perlu dilakukan bagi mengekalkan kesihatannya.

Penyelidikan daripada G. Loabovitz dan Y. Chang membawa kepada peraturan kualiti data 1-10-100. Peraturan ini menekankan peningkatan kos akibat ralat data disebabkan oleh kualiti yang lemah: jika kos untuk mengesahkan rekod adalah $1, kos untuk membetulkan ralat selepas ianya berlaku adalah $10 setiap rekod, dan $100 setiap rekod jika ralat tersebut tidak ditangani. Penyelidikan ini juga menunjukkan bahawa semakin proaktif kita dalam memastikan kesihatan data, semakin banyak kos kualiti data dapat dielakkan.

Strategi kesihatan data yang menyeluruh, yang mengambil kira kesihatan data dari struktur pangkalan data hingga ke aplikasi, akan menghasilkan data yang lebih berkualiti. Data dan sistem perlu dibersihkan dan dinilai pada tiga peringkat.

Tahap Struktur Pangkalan Data

Pangkalan data dan jadual data perlu disusun dengan berkesan dan beroperasi dengan betul untuk mengelakkan ralat. Proses pembaikan pangkalan data yang berkesan menyelesaikan masalah kualiti data di sumber.

Data di Rehat

Data dalam pangkalan data anda mesti menjalani proses pembersihan data biasa yang mencari ralat, ketidakkonsistenan, pertindihan dan entri yang hilang.

Transformasi Data

Ralat data baharu dibuat semasa data ditukar dan dipindahkan. Organisasi memerlukan strategi untuk memastikan kesihatan data melalui transformasi yang berbeza, termasuk ETL (Extract, Transform, Load) dan proses perbalahan data.

Pembaikan Pangkalan Data

Memastikan pangkalan data dan strukturnya berada dalam keadaan sihat boleh memberi impak yang besar terhadap strategi kesihatan data anda. Dengan memberi tumpuan kepada sumber data, isu kualiti data hiliran yang berulang dapat dikurangkan. Langkah pertama untuk memastikan data anda sihat adalah dengan menaik taraf teknologi pangkalan data dan membaiki pangkalan data yang tidak terstruktur.

Menilai cara pangkalan data disusun dan distrukturkan, mengurangkan kejadian data tidak sihat. Menggabungkan format data ke dalam struktur biasa boleh mengurangkan data bercanggah dan pendua. Mencipta format nombor telefon standard ialah satu contoh. Daripada mengekalkan berbilang format dengan sengkang, titik, kod kawasan dan kod negara, organisasi boleh menentukan format rentetan teks nombor sahaja untuk digunakan dalam semua sistem. Taktik ini mengurangkan bilangan jenis data, mengurangkan kemungkinan kekeliruan.

Menukar skema untuk meningkatkan prestasi ialah cara lain untuk mengatur pangkalan data untuk mempromosikan kesihatan data. Contohnya termasuk menyatukan kunci utama untuk meningkatkan konsistensi. Membetulkan dan menyeragamkan jadual sumber boleh mengurangkan usaha yang diperlukan untuk menyeragamkan data setiap kali ia ditarik untuk analisis. Walaupun melaraskan skema menjadi lebih seragam boleh mengehadkan ralat pada masa hadapan, ia boleh menyebabkan masalah jangka pendek kerana apl hiliran perlu dilaraskan untuk memasukkan perubahan skema. Lapisan persekutuan yang berfungsi sebagai pintu masuk ke pangkalan data anda boleh membantu mengesan perubahan skema untuk memastikan apl hiliran dikemas kini dengan sewajarnya.

Amalan Pembersihan Data Penting

Tidak seperti pembaikan pangkalan data, pembersihan data memfokuskan pada data itu sendiri. Pembersihan pangkalan data adalah proses yang memerlukan perhatian yang konsisten dan tetap. Di hospital, bahan cemar sentiasa masuk ke dalam kemudahan, jadi pensterilan tetap diperlukan untuk mengelakkan kuman daripada membuat orang sakit. Pangkalan data anda tidak berbeza.

Proses pembersihan tetap harus memberi tumpuan kepada:

Menghapuskan Pendua

Data pendua membazirkan ruang dalam pangkalan data dan mewujudkan kekeliruan, menghalang maklumat yang tepat. Dengan jumlah data yang dikumpul dan disimpan merentas silo data, berbilang versi rekod yang sama sering berlaku. Penyahduaan data ialah latihan pembersihan data yang penting, kerana pengiraan dua kali mata data yang sama memesongkan analisis anda.

Membaiki Data Tidak Betul

Ralat seperti salah ejaan, ralat huruf besar dan ketidakkonsistenan penamaan boleh mengelirukan aplikasi dan analitis bergantung pada format piawai. Mencari dan membetulkan ralat ini membantu memastikan data bersih.

Mengendalikan Data yang Hilang

Data yang hilang boleh memesongkan analisis. Menangani isu data yang hilang mungkin memerlukan penambahan data dengan andaian yang munasabah atau menghapuskan keseluruhan lajur atau set data jika kehilangan data terlalu berlebihan.

Mengalih keluar Data Tidak Relevan atau Lama

data lama atau tidak berkaitan mengambil ruang storan, mewujudkan kekeliruan. Data lama juga boleh bercanggah dengan data yang lebih baharu atau disalah anggap sebagai data baharu, yang mencemarkan analisis.

Menapis Data Terpencil

Outlier dalam set data anda boleh menandakan ralat, tetapi tidak selalu. Mengenal pasti pencilan, menentukan puncanya dan mengambil tindakan yang sewajarnya mengurangkan bilangan titik data yang salah dalam set data anda.

Pengesahan data boleh membantu mengelakkan beberapa ralat ini semasa input data. Membina peraturan pengesahan dan memasukkannya ke dalam tindanan data anda boleh menyokong ujian masa nyata untuk mengenal pasti ralat lebih awal.

Persediaan dan Transformasi Data

Proses menjadi rumit apabila data dipindahkan dari satu pangkalan data ke pangkalan data yang lain, diubah atau digabungkan dengan set data baharu. Memastikan proses transformasi anda tidak memperkenalkan atau mengekalkan data buruk adalah penting untuk mengekalkan data yang sihat. Apabila data berasal daripada pangkalan data yang berasingan, kemungkinan data diduakan adalah tinggi. Pelabelan yang berbeza antara pangkalan data juga boleh menyebabkan ralat.

Data diubah dalam pelbagai cara, tetapi lazimnya, ia sama ada diubah dan disediakan untuk analisis atau diseragamkan untuk dimuatkan ke dalam pangkalan data untuk aplikasi atau analisis masa hadapan.

Proses Ekstrak, Transformasi dan Beban (ETL) ialah pendekatan transformasi yang paling biasa untuk memindahkan data dari satu pangkalan data ke pangkalan data yang lain. Proses ETL mengekstrak data daripada satu pangkalan data, mengubahnya, dan kemudian memuatkannya ke dalam pangkalan data sasaran. Struktur pangkalan data sasaran biasanya menentukan transformasi ini, yang jelas dan sistematik. Mereka berskala dengan baik dan sesuai untuk set data yang besar.

Proses perbalahan data adalah berbeza dan lebih tangkas. Proses ini adalah kunci untuk menyediakan set data untuk analisis. Teknologi perbalahan data menampung kedua-dua data berstruktur dan tidak berstruktur.

Memahami perbezaan ini adalah penting untuk menyokong data yang lebih sihat.

ETL

Proses ETL biasanya bermula dengan data yang tersusun dan berstruktur. Struktur ini membolehkan proses transformasi yang lebih automatik dan sistematik. Program transformasi ini dibina oleh pembangun berorientasikan teknikal menggunakan teknologi berkuasa seperti Python dan Scala. Walaupun automasi yang lebih besar bagus untuk kecekapan, ia juga boleh mengekalkan data buruk dan ralat dengan lebih cepat. Automasi ini juga mencabar untuk dibuat, jadi ia sukar untuk diubah, menjadikan proses ETL kurang tangkas. Memperbetulkannya pada kali pertama adalah kunci untuk memastikan data sihat.

Langkah pertama dalam proses ETL ialah mengekstrak data daripada pangkalan data sumber. Ralat boleh berlaku apabila data sumber tidak bersih, jadi adalah penting untuk melakukan beberapa pemprofilan data untuk memahami kualiti data. Jika kualiti data tidak bagus untuk dimulakan, dibelenggu oleh nilai yang hilang, pendua dan nilai yang berada di luar julat, anda perlu kembali untuk melakukan beberapa pembersihan data.

Proses transformasi memformat semula data supaya ia boleh diserap ke dalam pangkalan data sasaran. Ini termasuk menormalkan data supaya format konsisten antara pangkalan data sumber dan sasaran. Ralat boleh berlaku jika data disalah label atau struktur data tidak diselaraskan, menjadikan pembersihan data sebagai bahagian penting dalam proses transformasi. Rutin untuk mengenal pasti data kotor dan membetulkan ralat boleh dibina ke dalam program ETL. Menapis data mengalih keluar data yang tidak diingini, mengurangkan kerumitan. Akhir sekali, semakan pengesahan dijalankan untuk menyemak ketidakkonsistenan atau untuk mengenal pasti outliers.

Langkah terakhir dalam proses adalah memuatkan data ke dalam pangkalan data sasaran. Jika ralat berlaku pada peringkat ini, adalah penting untuk menyediakan proses versi supaya anda boleh kembali kepada versi awal kod anda untuk menyelesaikan masalah.

Perbalahan Data

Seperti ETL, perbalahan data ialah proses transformasi di mana ralat data boleh berlaku. Perbalahan data ialah proses mencipta aset data untuk digunakan dalam kes penggunaan analisis yang ditentukan. Keperluan transformasi pemacu kes penggunaan analisis. Keperluan ini memerlukan lebih ketangkasan dan keupayaan untuk memasukkan data tidak berstruktur.

Dengan perbalahan data, proses yang lebih manual dan dinamik diperlukan. Untuk memastikan analisis berdasarkan data kualiti tertinggi, pasukan mesti menemui, menyusun, membersihkan, memperkaya dan mengesahkan data.

Dengan perbalahan data, langkah pertama untuk analisis kualiti ialah memahami kesihatan dan kebolehgunaan set data asas. Ini bermakna memahami perkara yang tersedia, perkara yang sesuai dengan keperluan dan menilai kualiti set data. Metrik kualiti data seperti ujian pengedaran dan ujian julat kesahan memberikan cerapan tentang kesihatan data. Memahami isu sedia ada, saiz set data dan format data adalah faktor yang perlu dipertimbangkan sebelum menggunakan data untuk menyokong analisis. Tidak seperti proses ETL, perbalahan data tidak dikekang oleh automasi prabina. Perbezaan ini bermakna penganalisis mempunyai fleksibiliti untuk mencari set data terbaik, mengelakkan data yang kurang dibersihkan. Katalog data teguh yang boleh diakses dan menyelenggara serta menjejaki data ini bermanfaat dalam mengukur kesihatan data.

Menyusun set data untuk digunakan dalam analisis adalah satu lagi proses kritikal. Apabila bekerja dengan data tidak berstruktur, proses ini menjadi lebih sukar. Data tidak berstruktur perlu disusun ke dalam baris dan lajur untuk dianalisis. Teknik penandaan boleh digunakan untuk mencipta lebih banyak struktur di sekitar data ini dan menyediakan lebih banyak maklumat tentang dokumen tidak berstruktur supaya dokumen itu boleh disusun dengan lebih cekap. Proses ini muncul sebagai kes penggunaan yang berdaya maju untuk GenAI. Teknologi ini boleh menganalisis dokumen untuk memahami maksudnya dan menandakannya dengan sewajarnya. Pelabelan data yang sihat mengurangkan kemungkinan GenAI akan melakukan kesilapan.

Sama seperti dalam ELT, proses pembersihan data adalah penting dalam perbalahan data. Strategi pembersihan boleh mengenal pasti outlier dan data persediaan untuk analisis dengan menghapuskan hingar dalam data dan memastikan set data adalah relevan. Membetulkan ejaan dan menyeragamkan singkatan adalah lebih kompleks apabila bekerja dengan teks tidak berstruktur. AI boleh dimanfaatkan untuk membetulkannya.

Proses penormalan data dalam perbalahan data berbeza sedikit daripada ETL kerana piawaian didorong oleh kes penggunaan perniagaan dan bukannya struktur dan skema pangkalan data berbukit. Enjin pengurusan metadata yang mantap boleh meningkatkan proses ini. Dengan GenAI bersepadu dan glosari perniagaan, pengguna perniagaan boleh menormalkan dan menggabungkan data berdasarkan definisi dan pengiraan perniagaan.

Pengayaan data ialah satu lagi teknik yang melibatkan penggabungan set data atau produk data prabina untuk menyediakan konteks yang lebih besar untuk analisis yang lebih mendalam dan bersih. Mengisi data yang hilang dengan data sintetik ialah satu lagi strategi untuk meningkatkan kualiti set data.

Seperti proses ETL, ujian pengesahan data adalah penting untuk memastikan kebersihan data selepas proses perbalahan data dilaksanakan.

Alat Binaan Data

Mempunyai alat dan proses yang betul untuk membina transformasi data ialah cara terbaik untuk mematuhi amalan terbaik dan mengurangkan potensi ralat dalam transformasi data anda. Seperti alat DevOps dalam ruang perisian, Alat Binaan Data menyokong proses transformasi data dengan meja kerja pembangunan dan kawalan kualiti. Ciri termasuk kawalan versi, ujian dan pengelogan.

Transformasi data sentiasa berkembang. Untuk memastikan kualiti, mereka perlu diuji setiap kali kod dikemas kini. Mencipta atau melaraskan pertanyaan boleh membawa kepada pelbagai isu termasuk, gabungan data yang buruk yang memperkenalkan ralat hiliran dalam saluran paip. Mempunyai proses untuk mencipta transformasi adalah kunci untuk mengelakkan ralat.

Alat seperti dbt (alat pembinaan data) memacu aliran kerja transformasi yang dinamik. Alat ini membolehkan penganalisis untuk:

Membina pertanyaan dan transformasi SQL yang kompleks menggunakan logik perniagaan.
Menguji transformasi untuk meramalkan dengan lebih proaktif bagaimana perubahan akan memberi kesan kepada kebergantungan hiliran.
Menjalankan kod.
Membuat dokumentasi.

Selepas semua kerja yang telah anda lakukan membersihkan data, mengurangkan kemungkinan anda akan memperkenalkan data buruk dengan alatan dan aliran kerja yang berkesan adalah masuk akal.

Mengintegrasikan alatan ini dengan tindanan data anda menjadikannya lebih mudah untuk digunakan dan menyelaraskan proses transformasi data anda. Templat dan transformasi pra-ujian boleh diakses dan dilaksanakan dengan mudah. Keupayaan ini bukan sahaja mengurangkan kemungkinan ralat tetapi juga mengurangkan usaha untuk mencipta produk dan proses data.

Menggabungkan alatan, aliran kerja dan data mewujudkan rangka kerja untuk menyokong data yang sihat. Melalui penyesuai dpt, pengguna platform Data ke AI, Avrio, boleh menulis dan menguji transformasi SQL kompleks yang menggunakan enjin pertanyaan gabungan Avrio, menyokong keperluan kualiti data anda.

Memahami cara membersihkan data dan memastikannya bersih sepanjang perjalanannya daripada pengumpulan kepada analisis adalah sangat penting untuk membina kepercayaan terhadap data. Peningkatan keupayaan GenAI untuk menyediakan data tidak berstruktur untuk analisis mewujudkan peluang baharu untuk mendapatkan cerapan yang lebih besar, tetapi kerumitan baharu boleh membawa kepada data yang kotor. Mempunyai strategi kesihatan data yang kompleks merentas data berstruktur dan tidak berstruktur daripada sistem sumber kepada analisis akan membantu memastikan data yang bersih dan relevan dimasukkan ke dalam tangan pembuat keputusan.