إن النظام الصحي الذي يحتوي على بيانات نظيفة أمر بالغ الأهمية بالنسبة للمؤسسات التي تهدف إلى تحقيق نتائج مالية جيدة. فالبيانات غير الصحية تؤدي إلى اتخاذ قرارات رديئة وإهدار الفرص وارتفاع التكاليف. ويتطلب الحفاظ على جودة البيانات تنظيف البيانات بعناية للحفاظ عليها سليمة.
أدى البحث الذي أجراه جي. لوابوفيتز و واي. تشانج إلى قاعدة 1-10-100 لجودة البيانات. تسلط هذه القاعدة الضوء على التكلفة المتزايدة لأخطاء البيانات بسبب رداءة جودة البيانات: إذا كان التحقق من سجل يكلف دولارًا واحدًا، فإن إصلاح الأخطاء بمجرد إنشائها يكلف 10 دولارات لكل سجل و100 دولار لكل سجل إذا لم يتم معالجة الأخطاء. يذكر هذا البحث أنه كلما كنت أكثر استباقية في ضمان صحة بياناتك، كلما تم تجنب تكاليف جودة البيانات.
تؤدي استراتيجية صحة البيانات الكاملة التي تأخذ في الاعتبار صحة البيانات من بنية قاعدة البيانات إلى التطبيقات إلى الحصول على بيانات ذات جودة أعلى. يجب تنظيف البيانات والأنظمة وتقييمها على ثلاثة مستويات.
يجب تنظيم قواعد البيانات وجداول البيانات بشكل فعال وتشغيلها بشكل صحيح لتجنب الأخطاء. تعمل عمليات إصلاح قواعد البيانات الفعّالة على إصلاح مشكلات جودة البيانات عند المصدر.
يجب أن تخضع البيانات الموجودة داخل قاعدة البيانات الخاصة بك لعملية تنظيف منتظمة للبيانات للبحث عن الأخطاء والتناقضات والتكرارات والإدخالات المفقودة.
يتم إنشاء أخطاء بيانات جديدة أثناء تحويل البيانات ونقلها. تحتاج المؤسسات إلى استراتيجيات لضمان صحة البيانات من خلال عمليات تحويل مختلفة، بما في ذلك عمليات استخراج البيانات وتحويلها وتحميلها وتحميلها.
إن التأكد من أن قواعد البيانات الخاصة بك وبنيتها في حالة جيدة يمكن أن يؤثر بشكل كبير على استراتيجية صحة البيانات الخاصة بك. من خلال التركيز على مصدر البيانات، يتم تقليل مشكلات جودة البيانات المتكررة. تتمثل الخطوات الأولى للحفاظ على صحة بياناتك في ترقية تكنولوجيا قاعدة البيانات وإصلاح قواعد البيانات ذات البنية الضعيفة.
إن تقييم كيفية تنظيم قواعد البيانات وبنيتها يقلل من حدوث البيانات غير السليمة. إن دمج تنسيقات البيانات في بنية مشتركة يمكن أن يقلل من البيانات المتضاربة والمكررة. إن إنشاء تنسيق قياسي لرقم الهاتف هو أحد الأمثلة. فبدلاً من الحفاظ على تنسيقات متعددة باستخدام الشرطات والنقط ورموز المناطق ورموز البلدان، يمكن للمؤسسات تحديد تنسيق سلسلة نصية تحتوي على أرقام فقط لاستخدامها في جميع الأنظمة. يقلل هذا التكتيك من عدد أنواع البيانات، مما يقلل من فرص الارتباك.
يعد تغيير المخطط لتحسين الأداء طريقة أخرى لتنظيم قواعد البيانات لتعزيز صحة البيانات. تشمل الأمثلة توحيد المفاتيح الأساسية لزيادة الاتساق. يمكن أن يؤدي إصلاح وتوحيد جداول المصدر إلى تقليل الجهد المطلوب لتوحيد البيانات في كل مرة يتم فيها سحبها للتحليل. في حين أن تعديل المخطط ليكون أكثر توحيدًا يمكن أن يحد من الأخطاء في المستقبل، إلا أنه يمكن أن يتسبب في حدوث مشكلات في الأمد القريب حيث تحتاج التطبيقات الموجودة في اتجاه مجرى النهر إلى التعديل لتضمين تغييرات المخطط. يمكن أن تساعد طبقة الاتحاد التي تعمل كبوابة لقاعدة البيانات الخاصة بك في اكتشاف تغييرات المخطط لضمان تحديث التطبيقات الموجودة في اتجاه مجرى النهر بشكل مناسب.
على عكس إصلاح قاعدة البيانات، يركز تنظيف البيانات على البيانات نفسها. إن تنظيف قاعدة البيانات عملية تتطلب اهتمامًا مستمرًا ومنتظمًا. في المستشفى، تجد الملوثات طريقها باستمرار إلى المنشأة، لذا فإن التعقيم المنتظم ضروري لمنع الجراثيم من إصابة الأشخاص بالمرض. ولا تختلف قواعد البيانات الخاصة بك عن ذلك.
ينبغي أن تركز عمليات التنظيف المنتظمة على:
تؤدي البيانات المكررة إلى إهدار المساحة في قاعدة البيانات وتسبب الارتباك، مما يعيق دقة المعلومات. ومع كمية البيانات التي يتم جمعها وتخزينها عبر صوامع البيانات، غالبًا ما تحدث إصدارات متعددة من نفس السجل. يعد إزالة البيانات المكررة تمرينًا حيويًا لتطهير البيانات، حيث يؤدي حساب نفس نقاط البيانات مرتين إلى تشويه تحليلك.
يمكن أن تؤدي الأخطاء مثل الأخطاء الإملائية وأخطاء استخدام الأحرف الكبيرة وعدم اتساق الأسماء إلى إرباك التطبيقات والتحليلات التي تعتمد على التنسيقات القياسية. يساعد العثور على هذه الأخطاء وإصلاحها في الحفاظ على نظافة البيانات.
قد تؤدي البيانات المفقودة إلى تشويه التحليل. وقد يتطلب معالجة مشكلات البيانات المفقودة إضافة بيانات بافتراضات معقولة أو حذف عمود أو مجموعة بيانات بالكامل إذا كانت البيانات المفقودة مفرطة للغاية.
تشغل البيانات القديمة أو غير ذات الصلة مساحة تخزينية، مما يؤدي إلى حدوث ارتباك. كما يمكن أن تتعارض البيانات القديمة مع البيانات الأحدث أو يتم الخلط بينها وبين البيانات الحديثة، مما يؤدي إلى إفساد التحليل.
قد تشير القيم المتطرفة في مجموعة البيانات الخاصة بك إلى وجود خطأ، ولكن ليس دائمًا. يؤدي تحديد القيم المتطرفة وتحديد سببها واتخاذ الإجراء المناسب إلى تقليل عدد نقاط البيانات الخاطئة في مجموعات البيانات الخاصة بك.
يمكن أن يساعد التحقق من صحة البيانات في تجنب بعض هذه الأخطاء أثناء إدخال البيانات. يمكن أن يؤدي إنشاء قواعد التحقق ودمجها في مجموعة البيانات الخاصة بك إلى دعم الاختبار في الوقت الفعلي لتحديد الأخطاء في وقت مبكر.
تصبح العمليات معقدة عندما يتم نقل البيانات من قاعدة بيانات إلى أخرى، أو تحويلها، أو دمجها مع مجموعة بيانات جديدة. يعد التأكد من أن عمليات التحويل الخاصة بك لا تؤدي إلى إدخال أو إدامة بيانات سيئة أمرًا ضروريًا للحفاظ على بيانات سليمة. عندما تنشأ البيانات من قواعد بيانات منفصلة، تكون احتمالات تكرار البيانات عالية. يمكن أن يؤدي التمييز المختلف بين قواعد البيانات أيضًا إلى حدوث أخطاء.
يتم تحويل البيانات بطرق عديدة، ولكن عادةً ما يتم تحويلها وإعدادها للتحليل أو توحيدها لتحميلها في قاعدة بيانات للتطبيقات أو التحليل المستقبلي.
تعد عمليات الاستخراج والتحويل والتحميل (ETL) أكثر أساليب التحويل شيوعًا لنقل البيانات من قاعدة بيانات إلى أخرى. تستخرج عملية الاستخراج والتحويل والتحميل البيانات من قاعدة بيانات واحدة، وتحولها، ثم تحملها إلى قاعدة البيانات المستهدفة. عادةً ما تملي بنية قاعدة البيانات المستهدفة هذه التحويلات، والتي تكون محددة جيدًا ومنهجية. وهي قابلة للتطوير بشكل جيد ومناسبة لمجموعات البيانات الكبيرة.
تختلف عمليات معالجة البيانات وهي أكثر مرونة. وتعتبر هذه العمليات أساسية لإعداد مجموعات البيانات للتحليل. وتستوعب تقنيات معالجة البيانات البيانات المنظمة وغير المنظمة.
إن فهم هذه الاختلافات مهم لدعم البيانات الأكثر صحة.
تبدأ عمليات ETL عادةً ببيانات منظمة ومنظمة بشكل جيد. يتيح هذا الهيكل عمليات تحويل أكثر آلية ومنهجية. يتم بناء برامج التحويل هذه بواسطة مطورين موجهين تقنيًا باستخدام تقنيات قوية مثل Python وScala. في حين أن الأتمتة الأكبر رائعة للكفاءة، إلا أنها يمكن أن تؤدي أيضًا إلى إدامة البيانات السيئة والأخطاء بسرعة أكبر. كما أن إنشاء هذه الأتمتة أمر صعب، لذا يصعب تغييرها، مما يجعل عملية ETL أقل مرونة. يعد الحصول على الأمر بشكل صحيح في المرة الأولى أمرًا أساسيًا للحفاظ على صحة البيانات.
الخطوة الأولى في عملية ETL هي استخراج البيانات من قاعدة البيانات المصدرية. قد تحدث أخطاء عندما لا تكون بيانات المصدر نظيفة، لذا من المهم إجراء بعض تحليلات البيانات لفهم جودة البيانات. إذا لم تكن جودة البيانات جيدة في البداية، وكانت تعاني من القيم المفقودة والتكرارات والقيم التي تقع خارج النطاق، فسيتعين عليك العودة لإجراء بعض تنقية البيانات.
تعمل عملية التحويل على إعادة تنسيق البيانات بحيث يمكن استيعابها في قواعد البيانات المستهدفة. ويتضمن ذلك تطبيع البيانات بحيث تكون التنسيقات متسقة بين قاعدة البيانات المصدر وقاعدة البيانات المستهدفة. وقد تحدث أخطاء إذا تم وضع علامات خاطئة على البيانات أو عدم محاذاة هياكل البيانات، مما يجعل تنظيف البيانات جزءًا مهمًا من عملية التحويل. ويمكن تضمين إجراءات روتينية لتحديد البيانات المتسخة وتصحيح الأخطاء في برنامج ETL. وتعمل تصفية البيانات على إزالة البيانات غير المرغوب فيها، مما يقلل من التعقيد. وأخيرًا، يتم تشغيل عمليات التحقق للتحقق من عدم الاتساق أو لتحديد القيم المتطرفة.
الخطوة الأخيرة في العملية هي تحميل البيانات إلى قاعدة البيانات المستهدفة. إذا حدثت أخطاء في هذه المرحلة، فمن الضروري أن يكون لديك عملية إصدار حتى تتمكن من الرجوع إلى إصدار سابق من الكود الخاص بك لاستكشاف الأخطاء وإصلاحها.
مثل ETL، فإن معالجة البيانات هي عملية تحويل يمكن أن تحدث فيها أخطاء في البيانات. معالجة البيانات هي عملية إنشاء أصول بيانات لاستخدامها في حالة استخدام تحليلية محددة. متطلبات حالة الاستخدام التحليلية هي التي تحرك عمليات التحويل. يتطلب هذا المتطلب المزيد من المرونة والقدرة على دمج البيانات غير المنظمة.
مع التعامل مع البيانات، هناك حاجة إلى عملية يدوية وديناميكية أكثر. ولضمان أن التحليل يعتمد على بيانات ذات جودة عالية، يجب على الفرق اكتشاف البيانات وتنظيمها وتنظيفها وإثرائها والتحقق من صحتها.
في التعامل مع البيانات، فإن الخطوة الأولى نحو تحليل الجودة هي فهم صحة مجموعات البيانات الأساسية وقابليتها للتطبيق. وهذا يعني فهم ما هو متاح، وما يناسب المتطلبات، وتقييم جودة مجموعات البيانات. توفر مقاييس جودة البيانات مثل اختبارات التوزيع واختبارات نطاق الصلاحية رؤى حول صحة البيانات. إن فهم المشكلات الحالية وحجم مجموعة البيانات وتنسيقات البيانات هي عوامل يجب مراعاتها قبل استخدام البيانات لدعم التحليل. على عكس عمليات ETL، لا يتم تقييد التعامل مع البيانات بواسطة الأتمتة المبنية مسبقًا. هذا الاختلاف يعني أن المحللين لديهم المرونة للبحث عن أفضل مجموعات البيانات، وتجنب البيانات الأقل تطهيرًا. تعد كتالوجات البيانات القوية التي يمكن الوصول إليها والتي تحافظ على هذه البيانات وتتبعها مفيدة في قياس صحة البيانات.
إن تنظيم مجموعات البيانات التي سيتم استخدامها في التحليل هو عملية بالغة الأهمية. وعند العمل مع البيانات غير المنظمة، تصبح هذه العملية أكثر صعوبة. حيث يجب تنظيم البيانات غير المنظمة في صفوف وأعمدة ليتم تحليلها. ويمكن استخدام تقنيات الوسم لإنشاء المزيد من الهيكل حول هذه البيانات وتوفير المزيد من المعلومات حول المستندات غير المنظمة حتى يمكن تنظيمها بكفاءة أكبر. وتظهر هذه العملية كحالة استخدام قابلة للتطبيق لـ GenAI. حيث يمكن لهذه التقنيات تحليل المستندات لفهم معناها ووضع علامات عليها وفقًا لذلك. كما تعمل الوسمات الصحية للبيانات على تقليل فرص ارتكاب GenAI للأخطاء.
كما هو الحال في ELT، فإن عمليات تنظيف البيانات ضرورية في التعامل مع البيانات. يمكن لاستراتيجيات التنظيف تحديد القيم المتطرفة وإعداد البيانات للتحليل من خلال إزالة الضوضاء في البيانات والتأكد من أن مجموعات البيانات ذات صلة. يعد إصلاح التهجئة وتوحيد الاختصارات أكثر تعقيدًا عند العمل مع نص غير منظم. يمكن الاستفادة من الذكاء الاصطناعي لإصلاح هذه المشكلات.
تختلف عملية تطبيع البيانات في معالجة البيانات قليلاً عن ETL لأن المعايير تعتمد على حالة الاستخدام التجاري بدلاً من بنية قاعدة البيانات والمخطط المحكمين. يمكن لمحركات إدارة البيانات الوصفية القوية تحسين هذه العملية. باستخدام GenAI وقواميس الأعمال المتكاملة، يمكن لمستخدمي الأعمال تطبيع البيانات ودمجها بناءً على تعريفات وحسابات الأعمال.
إثراء البيانات هو أسلوب آخر يتضمن الجمع بين مجموعات البيانات أو منتجات البيانات المعدة مسبقًا لتوفير سياق أكبر لتحليل أعمق وأنظف. يعد ملء البيانات المفقودة ببيانات اصطناعية استراتيجية أخرى لتعزيز جودة مجموعات البيانات.
مثل عمليات ETL، تعتبر اختبارات التحقق من صحة البيانات حيوية لضمان نظافة البيانات بعد تنفيذ عمليات معالجة البيانات.
إن امتلاك الأدوات والعمليات المناسبة لبناء تحويلات البيانات هو أفضل طريقة للالتزام بأفضل الممارسات والحد من احتمالية حدوث أخطاء في تحويلات البيانات. ومثل أدوات DevOps في مجال البرمجيات، تدعم أدوات بناء البيانات عمليات تحويل البيانات من خلال منضدات عمل التطوير وضوابط الجودة. وتتضمن الميزات عناصر التحكم في الإصدار والاختبار والتسجيل.
تتطور عمليات تحويل البيانات باستمرار. ولضمان الجودة، يجب اختبارها في كل مرة يتم فيها تحديث الكود. قد يؤدي إنشاء الاستعلامات أو تعديلها إلى العديد من المشكلات، بما في ذلك عمليات ربط البيانات السيئة التي تؤدي إلى حدوث أخطاء في خط الأنابيب. يعد وجود عملية لإنشاء عمليات التحويل أمرًا أساسيًا لتجنب الأخطاء.
تتيح أدوات مثل dbt (أداة بناء البيانات) سير عمل تحويل صحي. تتيح الأداة للمحللين:
بعد كل العمل الذي قمت به في تنظيف البيانات، فإن تقليل فرصة إدخال بيانات سيئة باستخدام أدوات وسير عمل فعالة أمر منطقي.
إن دمج هذه الأدوات مع مجموعة البيانات الخاصة بك يجعلها أسهل في الاستخدام وتبسيط عملية تحويل البيانات الخاصة بك. يمكن الوصول بسهولة إلى القوالب والتحويلات التي تم اختبارها مسبقًا وتنفيذها. لا تعمل هذه القدرة على تقليل الأخطاء المحتملة فحسب، بل تقلل أيضًا من الجهد المبذول لإنشاء منتجات وعمليات البيانات.
يؤدي الجمع بين الأدوات وسير العمل والبيانات إلى إنشاء إطار عمل لدعم البيانات السليمة. من خلال محول dpt، يمكن لمستخدمي منصة البيانات إلى الذكاء الاصطناعي Avrio كتابة واختبار تحويلات SQL المعقدة التي تستخدم محرك الاستعلام الفيدرالي الخاص بـ Avrio، مما يدعم متطلبات جودة البيانات الخاصة بك.
إن فهم كيفية تنظيف البيانات والحفاظ عليها نظيفة طوال رحلتها من التجميع إلى التحليل أمر بالغ الأهمية لبناء الثقة في البيانات. إن القدرات المتزايدة لـ GenAI لإعداد البيانات غير المنظمة للتحليل تخلق فرصًا جديدة لمزيد من الرؤى، ولكن التعقيدات الجديدة قد تؤدي إلى بيانات متسخة. إن وجود استراتيجية معقدة لصحة البيانات عبر البيانات المنظمة وغير المنظمة من نظام المصدر إلى التحليل سيساعد في ضمان وضع البيانات النظيفة والمهمة في أيدي صناع القرار.