Mengurangkan kos analisis perusahaan melalui paradigma baharu


Apabila permintaan untuk data semakin meningkat, mendapatkan akses kepada data terbaik untuk menyokong pembuatan keputusan berasaskan data menjadi perbelanjaan yang besar. Kaedah untuk mengalih dan mengakses data yang dibangunkan sebelum percambahan pengkomputeran dan storan dalam awan, kini bergelut untuk meningkatkan skala dengan cekap untuk bersaing.

Teknologi capaian data warisan tidak direka bentuk untuk mengendalikan keupayaan masa nyata awan yang sentiasa dihidupkan dan disambungkan. Sebelum awan, data perlu disimpan berdekatan dengan aplikasi untuk dianalisis. Walaupun dengan sifat masa nyata awan, cara asas data dipindahkan, digabungkan dan disediakan untuk analisis tidak berubah dengan ketara. Kekurangan kebolehsuaian ini menghalang kelajuan analisis dan mengabaikan peluang untuk mengurangkan kos infrastruktur dan kejuruteraan data.

Dalam analisis berikut, kami akan mempertimbangkan kos mengakses data dengan cara tradisional menggunakan ETL (Ekstrak, Transformasi, Beban) dan membandingkannya dengan pendekatan inovatif menggunakan data bersekutu yang memanfaatkan keupayaan berkuasa awan.

Kos ETL

Mengira kos tepat untuk mencipta saluran paip ETL adalah sukar, tetapi kami boleh menganggarkan kos ini dengan menilai data yang tersedia secara umum dan membuat beberapa andaian.

Membina Saluran Paip ETL dari Scratch

Membina saluran paip ETL memerlukan pelaburan masa dan sumber yang besar. Walaupun pelbagai sumber diperlukan untuk mencipta saluran paip ETL dari awal, jurutera data melaksanakan kebanyakan kerja. Profesional berkemahiran tinggi ini secara manual memprogramkan skrip untuk mengekstrak data, mengubahnya untuk analisis dan memuatkannya ke dalam pangkalan data sasaran. Menurut Glassdoor, purata gaji jurutera data di AS melebihi $150,000 setahun; jika anda mempertimbangkan jumlah kos faedah dan perbelanjaan FTE, ini berharga $195,000 setahun atau $95 sejam.

Anggaran menunjukkan bahawa membuat saluran paip ETL asas mengambil masa satu hingga tiga minggu. Katakan kita menganggap bahawa usaha min ialah 80 jam untuk membina saluran paip ETL, yang bersamaan dengan $7,600 setiap saluran paip. Selain itu, saluran paip ini memerlukan penyelenggaraan, yang mungkin memerlukan 20% daripada usaha asal setiap tahun atau tambahan $1520 setiap tahun. Saluran paip ETL yang lebih kompleks boleh mengambil masa berbulan-bulan atau bahkan bertahun-tahun untuk dibina, menelan kos ratusan ribu dolar. Hanya membina dan menguji satu penyambung data boleh mengambil masa enam setengah minggu.

Satu tinjauan yang dijalankan oleh Wakefield Research menganggarkan bahawa organisasi membelanjakan $520,000 setiap tahun untuk membina dan menyelenggara saluran paip data.

Platform ETL Tanpa Kod

Pengekodan dan pengurusan saluran paip ETL dari awal boleh menjadi mahal, tetapi terdapat alat yang boleh menyelaraskan proses dan mengautomasikan beberapa keperluan pengekodan. Saluran paip ETL yang kurang kompleks boleh dibina menggunakan platform tanpa kod.

Platform ini memanfaatkan automasi dan AI untuk mengurangkan masa dan set kemahiran yang diperlukan untuk membina saluran paip ETL. Memanfaatkan beberapa alat yang tersedia pada masa ini, saluran paip ETL boleh dibuat dalam masa tiga hari.

Walaupun platform ini mungkin mengurangkan keperluan sumber untuk membina saluran paip secara manual, platform ini memerlukan kos. Biasanya, penyelesaian ini adalah berdasarkan volum data dan bilangan pangkalan data yang disambungkan ke platform. Untuk syarikat yang lebih besar, kos ini meningkat dengan cepat, dan banyak kes penggunaan kelebihan mungkin tidak disokong oleh penyelesaian tanpa kod.

Bilangan saluran paip akan meningkat apabila kos membina saluran paip ETL dengan penyelesaian tanpa kod berkurangan dengan ketara. Percambahan saluran paip ETL ini menimbulkan masalah baharu: pertindihan data dan peningkatan kos penyimpanan.

Kos penyimpanan

Strategi storan datang dalam pelbagai konfigurasi dan seni bina, menjadikan anggaran storan yang tepat agak rumit. Tetapi, berdasarkan data yang tersedia secara umum, kami boleh mengukur kos yang berkaitan dengan menyimpan dan mengurus data pendua yang dibuat oleh strategi ETL.

Setiap kali set data diekstrak daripada satu sistem dan dimuatkan ke dalam sistem yang lain; set data pendua dicipta, yang perlu disimpan. Lebih banyak saluran paip dan permintaan data, lebih banyak set data pendua dicipta, meningkatkan kos penyimpanan.

Pertumbuhan data besar dan pergerakan data yang prolifik telah membawa kepada peningkatan dalam data berlebihan, lapuk dan remeh (ROT) yang disimpan dalam stor data. Statista melaporkan bahawa 8% daripada semua data yang dipegang oleh perusahaan adalah asli dan 91% direplikasi. Veritas Technologies melaksanakan projek penyelidikan yang serupa dan mendapati bahawa 16% data adalah kritikal perniagaan, 30% ialah Redundant Obsolete Trivial (ROT) dan 54% ialah data gelap, di mana nilai data tidak diketahui. Kedua-dua kajian membuat kesimpulan yang sama: sejumlah besar data tidak berguna dikekalkan oleh perusahaan, yang membawa kepada jumlah pembaziran sumber yang besar dalam menyimpan data yang tidak berguna.

Jika anda menganggap Google Cloud mengenakan caj $.02 setiap GB sebulan untuk storan awan, iaitu $20 setiap terabait dan $20,000 setiap petabait. Menurut Veritas Technologies, purata organisasi membelanjakan $650,000 setiap tahun untuk menyimpan data tidak kritikal.

Pelbagai faktor mendorong pertumbuhan ROT, dengan penyelenggaraan silo data menjadi pemacu penting. Dengan setiap fungsi perniagaan mengekalkan pangkalan datanya sendiri untuk menyokong setiap operasi, yang membawa kepada set data biasa diulang merentasi kebanyakan pangkalan data ini, dengan itu membazirkan sumber storan.

Data Buruk Disebabkan oleh ROT

Kos Tadbir Urus

Menyimpan ROT bukan sahaja mempunyai implikasi kos penyimpanan tetapi juga meningkatkan risiko. Berbilang salinan set data yang sama membawa kepada sumber kebenaran yang bercanggah, dan pelbagai format data membawa kepada kekeliruan.

Untuk mengelakkan kualiti data yang lemah, dasar tadbir urus data yang berkesan mesti dilaksanakan. Pada tahun 2021, Gartner menganggarkan bahawa kualiti data yang lemah membebankan organisasi secara purata $12.9 juta setiap tahun.

Proses tadbir urus data manual tradisional tidak lagi mencukupi, dan pelaburan dalam alatan serta strategi tadbir urus data automatik, diperlukan. Memeriksa laporan secara manual dan menyediakan peraturan tersuai memakan masa. Melaksanakan dasar, peraturan dan pengawasan ini secara bebas untuk setiap saluran paip ETL memerlukan perhatian yang teliti dan pelaburan masa.

Melabur dalam mencegah data buruk adalah wang yang dibelanjakan dengan baik. Jika kos satu dolar untuk mengelakkan data yang buruk, ia akan menelan kos $10 untuk membaikinya dan $100 untuk kegagalan. InstitutPergudangan Data mengatakan bahawa data buruk menelan kos syarikat $600 bilion setiap tahun.

Data berlebihan juga menimbulkan risiko privasi. Kebanyakan data yang direplikasi merentas silo data termasuk data PII (maklumat yang boleh dikenal pasti secara peribadi). Pendekatan ini meningkatkan kebarangkalian pelanggaran data.

Cabaran Hanya Akan Berkembang

Pertumbuhan eksponen pengumpulan dan penyimpanan data yang berterusan hanya akan memburukkan lagi masalah di sekitar data pendua yang dicipta oleh penyepaduan data dan strategi pengurusan yang tidak cekap. Statista menganggarkan bahawa menjelang 2025, 181 zettabait akan dibuat, digunakan, disalin dan ditangkap.

Kos Mudah

Dengan masa yang diperlukan untuk membangunkan saluran paip ETL dari awal atau menggunakan platform tanpa kod, akses data tidak secepat mungkin. Peluang hilang apabila penganalisis dan pembuat keputusan tidak dapat mengakses data berkualiti dengan cepat. Kos peluang ini sukar untuk diukur tetapi sangat nyata. Dengan bilangan keputusan yang dibuat merentas organisasi, meningkatkan masa untuk mendapatkan cerapan walaupun sedikit adalah penting. Dengan mengoptimumkan pembuatan keputusan merentas organisasi, kompaun penjimatan kos peluang sebagai keputusan yang baik membawa kepada keputusan dan pilihan yang lebih baik.

Paradigma Baru

Pendekatan baharu atau paradigma capaian data sedang muncul yang akan mengurangkan kos capaian dan pengurusan data. Pendekatan ini beralih daripada ETL dan menumpukan pada tadbir urus pusat, keselamatan dan akses di sekitar produk data. (Untuk mendalami Paradigma Data Baharu, pastikan anda membaca catatan blog ini)

Pendekatan baharu ini menyediakan akses kepada data tanpa perlu memindahkan data atau menirunya. Strategi ini juga memanfaatkan produk data boleh guna semula yang menghapuskan keperluan untuk mencipta saluran paip ETL untuk setiap kes penggunaan. Peralihan ini boleh menghasilkan 40-50% penjimatan masa untuk menyediakan data untuk layan diri, berjumlah $4,100 penjimatan bagi setiap saluran paip individu, atau $225,000 untuk sumber perbelanjaan organisasi biasa pada saluran paip ETL.

Memandangkan keperluan untuk memindahkan data dari satu pangkalan data ke pangkalan data yang lain melalui proses ETL dihapuskan, kos penyimpanan dikurangkan. Dengan tiada data berlebihan yang dibuat daripada saluran paip ETL, kos penyimpanan dan persediaan boleh dikurangkan sebanyak 30-40%.

Mengurangkan Kos

Paradigma baharu ini memanfaatkan produk data untuk menyampaikan data ke platform analitik, dengan itu mengurangkan usaha dan kos yang diperlukan untuk mencipta produk data ini berbanding saluran paip data. Mereka mengambil sedikit masa untuk mencipta dan memerlukan set kemahiran yang lebih murah. Ia mengambil masa kira-kira 24 jam untuk mencipta produk data, iaitu 70% kurang daripada membuat saluran paip ETL asas. Selain itu, kerja boleh dijalankan oleh penganalisis data dan bukannya jurutera data. Gaji untuk penganalisis data di AS purata $77,000 atau jumlah kos FTE sebanyak $100,000. Kos ini bersamaan dengan $50 sejam berbanding $96 untuk jurutera data. Melakukan pengiraan berdasarkan anggaran ini, kos untuk mencipta satu produk data ialah $1200 berbanding $7600 untuk satu saluran paip data ringkas.

Pendekatan produk data baharu mengurangkan permintaan untuk penyimpanan data, tetapi akses masa nyata kepada data sebagai gantinya meningkatkan kos pemprosesan rangkaian dan pangkalan data. Walaupun terdapat pertukaran, kos rangkaian hanya ditanggung apabila data berharga dihantar untuk analisis, tidak seperti kos penyimpanan yang ditanggung dengan menyimpan data yang tidak berguna dan tidak digunakan.

Kemajuan dalam automasi tadbir urus data juga memacu penjimatan kos yang ketara dalam landskap pengurusan data hari ini. Tadbir urus automatik termasuk mengautomasikan klasifikasi data, kawalan akses, pengurusan metadata dan penjejakan keturunan data. Penyelesaian tadbir urus data membolehkan organisasi memanfaatkan algoritma dan aliran kerja untuk mengautomasikan penggunaan dasar data, memantau penggunaan data dan menangani isu kualiti data sebelum ia menjadi isu. Informatica menganggarkan bahawa organisasi boleh menjimatkan $475,000 hingga $712,000 menggunakan penyelesaian tadbir urus automatik.

Biasanya, penyelesaian ini adalah pakej bersendirian yang dipasang pada saluran paip data anda, berharga kira-kira $20,000 setahun untuk 25 pengguna. Pendekatan platform produk data meletakkan tadbir urus di tengah-tengah proses dan termasuk dalam kos platform.

Ekonomi Dikuasakan Didayakan oleh Produk Data

Lazimnya, saluran paip ETL dibina untuk satu kes penggunaan tertentu, dengan faedah yang diberikannya diperlukan untuk mengatasi kos untuk membinanya, menjadikan nilainya agak difahami dan statik. Kebolehsuaian produk data menjadikan nilainya lebih berskala. Dengan produk data yang dibina pada platform standard, berbilang produk data boleh digabungkan dengan mudah untuk mencipta produk data baharu. Selain itu, produk data tertentu mungkin bertujuan untuk kes penggunaan tertentu tetapi boleh disesuaikan dengan mudah kepada peluang lain untuk menambah nilai dalam aplikasi berasingan.

Kebolehsuaian ini membolehkan produk data meningkatkan nilai kerana ia boleh menangani kes penggunaan baharu yang mungkin tidak dibayangkan oleh pembangun asal. Apabila nilai meningkat dan kos untuk mencipta produk data itu kekal tidak berubah, pulangan pelaburan itu meningkat. Ini merupakan satu lagi cara produk data membantu mengurangkan kos untuk menyampaikan cerapan dan nilai baharu.

Terdapat banyak cara strategi produk data mengurangkan kos, membolehkan membuat keputusan dan latihan AI yang lebih baik. Walaupun strategi produk data membantu mengurangkan kos, faedah sebenar terikat dengan peningkatan ketangkasan dan daya saing. Manfaat ini adalah gabungan dan tidak boleh diukur tetapi sangat nyata.

Discover the Latest in Data and AI Innovation

  • Blog

    AWS re:Invent rekap

    Read More

  • Blog

    AI Generatif dalam analisis data - bagaimana AI memudahkan untuk mengakses data

    Read More

  • E-book

    Data tidak berstruktur dengan tindanan data moden

    Read More

Request a Demo TODAY!

Take the leap from data to AI