مع تزايد الطلب على البيانات، أصبح الحصول على أفضل البيانات لدعم اتخاذ القرارات المستندة إلى البيانات يشكل تكلفة كبيرة. إن الأساليب المستخدمة لنقل البيانات والوصول إليها والتي تم تطويرها قبل انتشار الحوسبة والتخزين في السحابة، تكافح الآن للتوسع بكفاءة لمواكبة هذا التطور.
لم تكن تقنيات الوصول إلى البيانات القديمة مصممة للتعامل مع قدرة السحابة على الاتصال الدائم في الوقت الفعلي. قبل السحابة، كان لابد من تخزين البيانات بالقرب من التطبيق لتحليلها. وحتى مع طبيعة السحابة في الوقت الفعلي، فإن الطريقة الأساسية لنقل البيانات ودمجها وإعدادها للتحليل لم تتغير بشكل كبير. هذا الافتقار إلى القدرة على التكيف يعيق سرعة التحليل ويتجاهل الفرص لخفض تكاليف البنية الأساسية وهندسة البيانات.
في التحليل التالي، سننظر في تكاليف الوصول إلى البيانات بالطريقة التقليدية باستخدام ETL (استخراج وتحويل وتحميل) ومقارنتها بالطرق المبتكرة باستخدام البيانات الفيدرالية التي تستغل القدرات القوية للسحابة.
يعد حساب التكلفة الدقيقة لإنشاء خطوط أنابيب ETL أمرًا صعبًا، ولكن يمكننا تقدير هذه التكاليف من خلال تقييم البيانات المتاحة للجمهور وإجراء بعض الافتراضات.
يتطلب إنشاء خط أنابيب ETL استثمارًا كبيرًا للوقت والموارد. وبينما يلزم وجود موارد متعددة لإنشاء خط أنابيب ETL من الصفر، فإن مهندس البيانات يؤدي معظم العمل. يقوم هذا المحترف ذو المهارات العالية ببرمجة البرامج النصية يدويًا لاستخراج البيانات وتحويلها للتحليل وتحميلها إلى قاعدة البيانات المستهدفة. وفقًا لـ Glassdoor، يتجاوز متوسط راتب مهندس البيانات في الولايات المتحدة 150.000 دولار سنويًا؛ إذا كنت تفكر في إجمالي تكلفة FTE للمزايا والنفقات، فإن هذا يكلف 195.000 دولار سنويًا أو 95 دولارًا في الساعة.
تشير التقديرات إلى أن إنشاء خط أنابيب ETL بدائي يستغرق من أسبوع إلى ثلاثة أسابيع. لنفترض أن متوسط الجهد المبذول لبناء خط أنابيب ETL هو 80 ساعة، وهو ما يعادل 7600 دولار لكل خط أنابيب. بالإضافة إلى ذلك، تتطلب خطوط الأنابيب هذه الصيانة، والتي قد تتطلب 20% من الجهد الأصلي كل عام أو 1520 دولارًا إضافيًا سنويًا. قد يستغرق بناء خطوط أنابيب ETL الأكثر تعقيدًا شهورًا أو حتى سنوات، بتكلفة مئات الآلاف من الدولارات. يمكن أن يستغرق بناء واختبار موصل بيانات واحد ستة أسابيع ونصف.
أشارت دراسة أجرتها شركة Wakefield Research إلى أن المؤسسات تنفق 520 ألف دولار سنويًا لبناء وصيانة خطوط أنابيب البيانات.
قد يكون ترميز وإدارة خطوط أنابيب ETL من البداية مكلفًا، ولكن هناك أدوات يمكنها تبسيط العملية وأتمتة بعض متطلبات الترميز. يمكن بناء خطوط أنابيب ETL الأقل تعقيدًا باستخدام منصات بدون ترميز.
تستفيد هذه المنصات من الأتمتة والذكاء الاصطناعي لتقليل الوقت والمهارات المطلوبة لبناء خطوط أنابيب ETL. من خلال الاستفادة من بعض الأدوات المتاحة حاليًا، يمكن إنشاء خطوط أنابيب ETL في غضون ثلاثة أيام فقط.
ورغم أن هذه المنصات قد تخفض متطلبات الموارد اللازمة لبناء خطوط الأنابيب يدويًا، إلا أنها تأتي بتكلفة. وعادةً ما تستند هذه الحلول إلى حجم البيانات وعدد قواعد البيانات المتصلة بالمنصة. وبالنسبة للشركات الأكبر حجمًا، تزداد هذه التكاليف بسرعة، وقد لا تدعم الحلول التي لا تتطلب أكوادًا العديد من حالات الاستخدام الهامشية.
سيزداد عدد خطوط الأنابيب مع انخفاض تكلفة بناء خطوط أنابيب ETL باستخدام حلول بدون أكواد بشكل كبير. ويؤدي انتشار خطوط أنابيب ETL إلى مشكلة جديدة: تكرار البيانات وارتفاع تكاليف التخزين.
تتوفر استراتيجيات التخزين في تكوينات وهياكل معمارية مختلفة، مما يجعل تقديرات التخزين الدقيقة معقدة للغاية. ولكن استنادًا إلى البيانات المتاحة للجمهور، يمكننا تحديد التكاليف المرتبطة بتخزين وإدارة البيانات المكررة التي تم إنشاؤها بواسطة استراتيجيات ETL.
في كل مرة يتم فيها استخراج مجموعة بيانات من نظام وتحميلها في نظام آخر، يتم إنشاء مجموعة بيانات مكررة، والتي يجب تخزينها. وكلما زاد عدد خطوط الأنابيب وطلبات البيانات، زاد عدد مجموعات البيانات المكررة التي يتم إنشاؤها، مما يؤدي إلى زيادة تكاليف التخزين.
أدى نمو البيانات الضخمة وحركة البيانات الهائلة إلى زيادة في البيانات المكررة والقديمة والتافهة (ROT) المحفوظة في مخازن البيانات. تشير تقارير Statista إلى أن 8٪ من جميع البيانات التي تحتفظ بها الشركات أصلية و 91٪ منها مكررة. نفذت Veritas Technologies مشروع بحث مماثل ووجدت أن 16٪ من البيانات مهمة للأعمال، و 30٪ هي بيانات مكررة قديمة تافهة (ROT)، و 54٪ هي بيانات مظلمة، حيث تكون قيمة البيانات غير معروفة. توصلت كلتا الدراستين إلى استنتاج مماثل: يتم الاحتفاظ بكمية هائلة من البيانات غير المفيدة من قبل الشركات، مما يؤدي إلى كميات كبيرة من إهدار الموارد في تخزين البيانات غير المفيدة.
إذا كنت تعتقد أن Google Cloud تفرض رسومًا قدرها 0.02 دولارًا لكل جيجابايت شهريًا للتخزين السحابي، فهذا يعني 20 دولارًا لكل تيرابايت و20000 دولار لكل بيتابايت. ووفقًا لشركة Veritas Technologies، تنفق المؤسسة المتوسطة 650000 دولار سنويًا لتخزين البيانات غير الحرجة.
هناك عوامل متعددة تدفع نمو ROT، حيث يعد الحفاظ على صوامع البيانات أحد العوامل المهمة. حيث تحتفظ كل وظيفة تجارية بقاعدة بيانات خاصة بها لدعم كل عملية، مما يؤدي إلى تكرار مجموعات البيانات المشتركة عبر العديد من قواعد البيانات هذه، وبالتالي إهدار موارد التخزين.
لا يقتصر تأثير تخزين البيانات على تكاليف التخزين فحسب، بل إنه يزيد أيضًا من المخاطر. حيث تؤدي النسخ المتعددة من نفس مجموعة البيانات إلى تضارب مصادر الحقيقة، كما تؤدي تنسيقات البيانات المختلفة إلى الارتباك.
لتجنب ضعف جودة البيانات، يجب تنفيذ سياسات فعّالة لحوكمة البيانات. في عام 2021، قدرت شركة جارتنر أن ضعف جودة البيانات يكلف المؤسسات ما متوسطه 12.9 مليون دولار سنويًا.
لم تعد عمليات حوكمة البيانات اليدوية التقليدية كافية، وأصبح الاستثمار في أدوات واستراتيجيات حوكمة البيانات الآلية ضروريًا. إن فحص التقارير يدويًا وإعداد قواعد مخصصة يستغرق وقتًا طويلاً. ويتطلب تنفيذ هذه السياسات والقواعد والإشراف بشكل مستقل لكل خط أنابيب ETL اهتمامًا دقيقًا واستثمارًا للوقت.
إن الاستثمار في منع البيانات السيئة هو استثمار جيد. فإذا كان منع البيانات السيئة يكلف دولاراً واحداً، فإن إصلاحها سيكلف 10 دولارات و100 دولار في حالة الفشل. ويقول معهدمستودعات البيانات إن البيانات السيئة تكلف الشركات 600 مليار دولار سنوياً.
تشكل البيانات المكررة أيضًا مخاطر تتعلق بالخصوصية. فالكثير من البيانات التي يتم تكرارها عبر صوامع البيانات تتضمن بيانات تعريف شخصية (PII). ويزيد هذا النهج من احتمالية حدوث خرق للبيانات.
إن النمو المتزايد المستمر في جمع البيانات وتخزينها لن يؤدي إلا إلى تفاقم المشاكل المتعلقة بالبيانات المكررة الناتجة عن استراتيجيات دمج البيانات وإدارتها غير الفعّالة. وتقدر شركة Statista أنه بحلول عام 2025، سيتم إنشاء 181 زيتابايت واستهلاكها ونسخها والتقاطها.
مع الوقت المطلوب لتطوير خطوط أنابيب ETL من الصفر أو باستخدام منصات بدون أكواد، فإن الوصول إلى البيانات ليس سريعًا كما ينبغي. تُفقد الفرص عندما لا يتمكن المحللون وصناع القرار من الوصول إلى بيانات عالية الجودة بسرعة. يصعب تحديد تكاليف الفرصة هذه ولكنها حقيقية جدًا. مع عدد القرارات المتخذة عبر المؤسسة، فإن زيادة الوقت اللازم للحصول على الرؤى ولو بشكل طفيف أمر مهم. من خلال تحسين عملية اتخاذ القرار عبر المؤسسة، تتضاعف وفورات تكاليف الفرصة حيث تؤدي القرارات الجيدة إلى قرارات وخيارات أفضل.
لقد ظهر نهج جديد أو نموذج جديد للوصول إلى البيانات من شأنه أن يقلل من تكاليف الوصول إلى البيانات وإدارتها. ويبتعد هذا النهج عن استخراج البيانات وتحويلها وتحميلها ويركز على الحوكمة المركزية والأمان والوصول إلى منتجات البيانات. (للتعمق أكثر في نموذج البيانات الجديد، تأكد من قراءة منشور المدونة هذا)
يوفر هذا النهج الجديد إمكانية الوصول إلى البيانات دون الحاجة إلى نقل البيانات أو تكرارها. كما تستفيد هذه الاستراتيجية من منتجات البيانات القابلة لإعادة الاستخدام والتي تلغي الحاجة إلى إنشاء خطوط أنابيب ETL لكل حالة استخدام. يمكن أن يؤدي هذا التحول إلى توفير 40-50% من الوقت اللازم لتوفير البيانات للخدمة الذاتية، مما يصل إلى توفير 4100 دولار أمريكي لكل خط أنابيب فردي، أو 225000 دولار أمريكي للمنظمة النموذجية التي تنفق الموارد على خطوط أنابيب ETL.
نظرًا لأن الحاجة إلى نقل البيانات من قاعدة بيانات إلى أخرى عبر عملية ETL قد تم القضاء عليها، فإن تكاليف التخزين تنخفض. مع عدم وجود بيانات زائدة تم إنشاؤها من خطوط أنابيب ETL، يمكن تقليل تكاليف التخزين والإعداد بنسبة 30-40%.
يستفيد هذا النموذج الجديد من منتجات البيانات لتوصيل البيانات إلى منصات التحليلات، وبالتالي تقليل الجهد والتكاليف المطلوبة لإنشاء منتجات البيانات هذه مقارنة بخطوط أنابيب البيانات. فهي تستغرق وقتًا أقل لإنشائها وتتطلب مجموعات مهارات أقل تكلفة. يستغرق إنشاء منتج بيانات حوالي 24 ساعة، وهو أقل بنسبة 70% من إنشاء خط أنابيب ETL بدائي. كما يمكن إجراء العمل بواسطة محلل بيانات بدلاً من مهندس بيانات. يبلغ متوسط رواتب محللي البيانات في الولايات المتحدة 77000 دولار أو تكلفة إجمالية قدرها 100000 دولار. هذه التكلفة تساوي 50 دولارًا في الساعة مقابل 96 دولارًا لمهندس البيانات. وبإجراء الحسابات بناءً على هذه التقديرات، فإن تكلفة إنشاء منتج بيانات واحد هي 1200 دولار مقارنة بـ 7600 دولار لخط أنابيب بيانات بسيط واحد.
إن النهج الجديد لإنتاج البيانات يقلل من الطلب على تخزين البيانات، ولكن الوصول إلى البيانات في الوقت الفعلي بدلاً منها يزيد من تكاليف معالجة الشبكة وقاعدة البيانات. ورغم وجود مقايضة، فإن تكاليف الشبكات لا تتكبد إلا عندما يتم تسليم البيانات القيمة للتحليل، على عكس تكاليف التخزين التي تتكبدها عملية تخزين البيانات غير المفيدة وغير المستخدمة.
كما أن التقدم في أتمتة حوكمة البيانات يؤدي إلى تحقيق وفورات كبيرة في التكاليف في مشهد إدارة البيانات اليوم. تتضمن الحوكمة الآلية أتمتة تصنيف البيانات والتحكم في الوصول وإدارة البيانات الوصفية وتتبع سلسلة البيانات. تمكن حلول حوكمة البيانات المؤسسات من الاستفادة من الخوارزميات وسير العمل لأتمتة تطبيق سياسات البيانات ومراقبة استخدام البيانات ومعالجة مشكلات جودة البيانات قبل أن تصبح مشكلة. تقدر Informatica أن المؤسسات يمكنها توفير ما بين 475000 دولار و712000 دولار باستخدام حلول الحوكمة الآلية.
عادةً ما تكون هذه الحلول عبارة عن حزم مستقلة يتم تثبيتها على خطوط أنابيب البيانات الخاصة بك، وتكلف حوالي 20 ألف دولار سنويًا لـ 25 مستخدمًا. يضع نهج منصة منتجات البيانات الحوكمة في مركز العملية ويتم تضمينها في تكلفة المنصة.
عادةً ما يتم بناء خطوط أنابيب ETL لحالة استخدام محددة واحدة، مع ضرورة أن تفوق الفوائد التي توفرها تكاليف بنائها، مما يجعل قيمتها مفهومة جيدًا وثابتة نسبيًا. إن قابلية منتجات البيانات للتكيف تجعل قيمتها أكثر قابلية للتطوير. مع منتجات البيانات المبنية على منصة قياسية، يمكن دمج منتجات بيانات متعددة بسهولة لإنشاء منتجات بيانات جديدة. أيضًا، قد يكون منتج بيانات محدد مخصصًا لحالة استخدام معينة ولكن يمكن تكييفه بسهولة مع فرصة أخرى لإضافة قيمة في تطبيق منفصل.
تسمح هذه القدرة على التكيف لمنتجات البيانات بزيادة قيمتها لأنها يمكن أن تعالج حالات استخدام جديدة ربما لم يتصورها المطور الأصلي. ومع زيادة القيمة وثبات تكلفة إنشاء منتج البيانات هذا، ينمو العائد على هذا الاستثمار. وهذه طريقة أخرى تساعد بها منتجات البيانات في خفض التكاليف لتقديم رؤى وقيمة جديدة.
هناك العديد من الطرق التي يمكن من خلالها لاستراتيجية منتج البيانات أن تقلل التكاليف، مما يتيح اتخاذ قرارات أفضل وتدريب الذكاء الاصطناعي. وفي حين تساعد استراتيجية منتج البيانات على خفض التكاليف، فإن الفائدة الحقيقية مرتبطة بزيادة المرونة والقدرة التنافسية. وهذه الفائدة مركبة وغير قابلة للقياس ولكنها حقيقية للغاية.