التعريف الجديد لممارسة التحليلات



Listen to this blog
Disclaimer

إن فهم المعلومات هو سعي بشري أبدي. لقد تطورت التكنولوجيا المستخدمة لإدارة البيانات منذ بدأ البشر في عصور ما قبل التاريخ في الرسم على جدران كهوفهم. واليوم، نشهد تحولاً جذرياً حيث تعمل سرعة التقدم التكنولوجي على تحويل كيفية تحليلنا للبيانات ودعم عملية اتخاذ القرار.

تطور ممارسات تحليل البيانات

لقد تطور التخزين الرقمي ونقل البيانات بسرعة. وعلى مدار العقود الماضية، طورت التكنولوجيا قدرتها على التقاط وتخزين وإدارة كميات هائلة ومتزايدة من البيانات بأشكال متنوعة.

BI ومستودعات البيانات

ظهرت تحليلات البيانات الحديثة مع إنشاء تطبيقات الاستخبارات التجارية ومستودعات البيانات. في هذه المرحلة من التطور، تم التقاط البيانات وتخزينها في قاعدة بيانات علائقية منظمة للغاية. تم تحديد التعيين بين جداول البيانات بشكل جيد لدعم سهولة الوصول إلى تطبيقات الاستخبارات التجارية. وكانت النتيجة أن مخرجات تحليلات البيانات كانت وصفية وتشخيصية للغاية. بناءً على هذه البيانات، يمكن لمديري الأعمال فهم الأداء التاريخي وتحديد الأنماط والقضايا الأساسية.

البيانات الضخمة والمصدر المفتوح والسحابة

لقد أدى ظهور قدرة الحوسبة السحابية على التوسع، وقدرة الأجهزة المحمولة وأجهزة إنترنت الأشياء على جمع البيانات، وقدرة تكنولوجيا المصدر المفتوح على دعم الابتكار، إلى ظهور عصر البيانات الضخمة. ولم تتمكن مستودعات البيانات التقليدية وقواعد البيانات المنظمة من التوسع لتلبية متطلبات استيعاب كميات هائلة من البيانات التي يتم توليدها باستمرار ــ فمن عام 2010 إلى عام 2017، نما إنتاج البيانات السنوي من 2 إلى 26 زيتابايت.

كانت أغلب البيانات التي تم إنشاؤها خلال هذه الفترة غير منظمة؛ لذا كان تخزينها في قاعدة بيانات علائقية منظمة أمرًا صعبًا. وتم إنشاء بحيرات البيانات لحل هذه المشكلة من خلال تخزين هذه البيانات في ملفات مسطحة. واليوم، 80-90% من البيانات في بحيرات البيانات غير منظمة. ومع تخزين كل هذه البيانات، فإن التحدي التالي هو الوصول إليها واستخدامها.

ولمعالجة هذه المشكلة، برزت سلالة جديدة من المحللين ومهندسي البيانات لبناء المهارات والأدوات اللازمة لتسخير قوة البيانات غير المنظمة. وشمل ذلك مشاريع مفتوحة المصدر، وبناء مهارات تحويل البيانات، وإنشاء تقنيات تحليلية أكثر تطوراً. كما أصبح تبني إدارة البيانات الوصفية لدعم الوصول إلى البيانات بشكل أكثر سهولة في عالم أقل تنظيماً أكثر أهمية.

مع إمكانية الوصول إلى المزيد من البيانات والمهارات الجديدة والأدوات المبتكرة، أصبح التحليل أكثر قدرة على التنبؤ، وظهرت نماذج يمكنها توفير المزيد من الأفكار حول الأحداث المستقبلية.

علم البيانات وتطبيقات البيانات

أدى نمو جمع البيانات والتركيز المتزايد على بناء مهارات تحليل البيانات إلى دفع السوق إلى تغيير أولوياته لمعرفة كيفية الاستفادة من هذه القدرات لدفع مزايا تنافسية جديدة. أدى الجمع بين الأساليب العلمية والإحصاء وتطوير الخوارزميات ومعرفة الأنظمة إلى ظهور علم البيانات. وهذا يمكّن المؤسسات من الاستفادة من بياناتها ليس فقط لبناء نماذج تنبؤية ولكن أيضًا لإنشاء أنظمة تصف أفضل بديل لأي قرار. يؤدي هذا التقدم إلى المزيد من الأتمتة وتصبح الشركات أكثر مرونة واستجابة.

تكنولوجيا نقل البيانات ودمجها لا تواكب التطورات

لقد تغيرت عملية جمع البيانات وتخزينها وتحليلها بشكل ملحوظ على مر السنين، ولكن الوصول إلى البيانات ودمجها لم يحرز سوى تقدم ضئيل. تم تطوير تقنيات وأساليب مثل ETL قبل انتشار الحوسبة السحابية وتكنولوجيا المصدر المفتوح والذكاء الاصطناعي.

إن الدفع نحو تطبيق قدرات البيانات والتحليلات وعلوم البيانات لحل مشاكل الأعمال الحقيقية بسرعة يخلق الحاجة إلى إعادة التفكير في كيفية الوصول إلى البيانات بكفاءة أكبر. أصبحت البيانات محصورة في بحيرات البيانات أو تطبيقات الأعمال، ولم تواكب التكنولوجيا اللازمة لدمج مجموعات البيانات هذه لإجراء تحليلات أعمق هذا الطلب.

الحواجز الفنية

لم تتغير الطريقة القياسية لدمج البيانات والوصول إليها منذ ظهور مستودع البيانات وذكاء الأعمال. تظل لغة الاستعلامات البنيوية (SQL) هي المعيار لاستعلام البيانات من قواعد البيانات، ولا تزال عملية استخراج البيانات وتحميلها وتحميلها هي العملية القياسية لدمج البيانات من أنظمة مختلفة. للوصول إلى البيانات بهذه الطريقة، يجب على المستخدمين كتابة نصوص لغة الاستعلامات البنيوية (SQL) للاستعلام عن البيانات، ومعرفة كيفية تنظيم البيانات، وفهم كيفية عمل تقنية قاعدة البيانات. لدمج مجموعات البيانات، يجب إنشاء عمليات متطورة لاستخراج البيانات من نظام واحد، وتحويلها، وتحميلها إلى قاعدة بيانات أخرى. من حيث الأساس، لم تتغير هذه العمليات، فهي لا تزال معقدة وتستغرق وقتًا طويلاً.

الحواجز السياسية

في التغلب على الحواجز التقنية التي تحول دون الوصول إلى البيانات، يمكن للتحديات السياسية أيضًا أن تعترض الطريق. يمكن لأولئك الذين يجمعون البيانات والمسؤولون عنها تقييد الوصول إليها. إذا شاركوا البيانات، فيجب على مالكي النطاقات هؤلاء مراقبة كيفية استخدامها. البيانات الحساسة مثيرة للقلق بشكل خاص. هل سيتم تخزين البيانات بشكل مناسب إذا شاركوها؟ هل سيتم إدارة البيانات بالاحترام الذي تستحقه؟ على سبيل المثال، هل ينتهك المحللون الذين لا يفهمون الفروق الدقيقة لقواعد قانون نقل التأمين الصحي والمساءلة (HIPAA) السياسات التي تعرض الشركة وعملائها للخطر؟

كما أن هناك مخاوف أخرى تتعلق بفهم المحللين في الأقسام المختلفة لمعنى البيانات التي يتم تبادلها معهم، وهل سيقومون بتحليل البيانات في السياق المناسب؟ كل هذه مخاوف مشروعة تحد من تبادل البيانات في البيئة الحالية.

كما أدى العمل لعقود من الزمن باستخدام التكنولوجيا التقليدية إلى ظهور عقلية قديمة تقيد الوصول الأكثر كفاءة إلى البيانات، وتركز على المشروع. وقد أجبرت التكنولوجيا والممارسات الحالية فرق البيانات على إنشاء خطوط أنابيب جديدة لكل طلب بيانات. ولا يأخذ هذا النهج التفاعلي في الاعتبار اقتصاديات الحجم التي توفرها بناء خطوط أنابيب أكثر تنوعًا يمكن استخدامها وإعادة استخدامها.

إعادة تعريف ممارسات التحليلات

تنتقل الصناعة إلى مرحلة جديدة من التطور تهيمن عليها الأتمتة والتعلم الآلي والذكاء الاصطناعي. وتتسارع وتيرة اتخاذ القرار، وستكون جودة نماذج الذكاء الاصطناعي عاملاً مميزًا في السوق المستقبلية. ويحتاج علماء البيانات إلى الوصول السريع إلى بيانات عالية الجودة لتحسين دقة النماذج. ويحتاج المديرون أيضًا إلى الوصول إلى بيانات غنية وسياقية لمواكبة وتيرة القرارات التي تعتمد على الأتمتة ومعالجة التحديات المعقدة للغاية بالنسبة للذكاء الاصطناعي.

لقد أصبح اتخاذ القرارات المستندة إلى البيانات ضروريًا للنجاح في الأسواق التنافسية، ومع ذلك هناك نقص في مهارات هندسة البيانات اللازمة لدعم المحللين. لقد أصبح الذكاء الاصطناعي سائدًا، وتكتسب التطبيقات ذات التأثير العالي مثل التعرف على الوجه وChatGPT زخمًا بالفعل. ومع عمل المبدعين على دمج الذكاء الاصطناعي في الأتمتة وعمليات الأعمال، ستثبت هذه التطبيقات أنها مجرد بداية لاتجاه طويل الأمد.

إن تأثيرات الذكاء الاصطناعي واسعة النطاق ومؤثرة، لكن موثوقية هذه النماذج لا تزال موضع شك. إن مراقبة الذكاء الاصطناعي والأتمتة مع ضمان وصولها إلى أفضل البيانات، سيكون عامل تمييز رئيسي في تعزيز الكفاءة. أما أولئك الذين لا يستطيعون التكيف بسرعة فسوف يتخلفون عن الركب.

يتعين على الشركات أن تتبنى نهجًا جديدًا لتحليل البيانات لتحقيق النجاح في هذه البيئة الديناميكية. ويرتكز هذا النموذج الجديد على أربعة مفاهيم:

  1. التحكم اللامركزي واتحاد البيانات
  2. التعاون والمشاركة
  3. التركيز على منتجات البيانات، وليس مشاريع البيانات
  4. الابتكار والتجريب

التحكم في اللامركزية واتحاد البيانات

لقد ظهرت تقنية استعلام قوية مصممة للعمل بكفاءة في بيئة سحابية موزعة. تعمل تقنية مفتوحة المصدر مثل Trino، التي طورتها شركة Facebook، على فصل وظيفة الحوسبة عن التخزين بحيث يمكن لكل منهما التوسع بشكل مستقل. كما تعمل التقنية على تقسيم عملية الاستعلام إلى خطوات منفصلة. تعمل هذه البنية على تشغيل جزء واحد من التعليمات البرمجية المعروفة باسم المنسق لإدارة برامج العمل المتعددة التي تنفذ عمليات الاستعلام عن كل قاعدة بيانات منفصلة. تمكن هذه التقنية استعلامًا واحدًا من سحب البيانات من مصادر مختلفة في وقت واحد. كما تسمح بالمعالجة المتوازية بحيث يمكن الوصول إلى مجموعات البيانات الكبيرة بسرعة أكبر بكثير.

مع تخزين البيانات في قواعد بيانات متعددة يمكن الوصول إليها باستخدام استعلام SQL واحد، يصبح تحليل البيانات أسهل وأسرع كثيرًا. لا يحتاج مهندسو تكنولوجيا المعلومات والبيانات إلى إنشاء خطوط أنابيب ETL معقدة لنقل البيانات من قاعدة بيانات المصدر إلى قاعدة بيانات الهدف، والتي يجب دمجها وتحويلها قبل أن تصبح جاهزة للتحليل. كما تظل البيانات في مكان واحد، مما يقلل من كمية البيانات المكررة المخزنة في مستودعات تكنولوجيا المعلومات ويقلل من تكاليف التخزين والأخطاء. لا تقم بدمج البيانات وإضافة الحوكمة؛ اترك البيانات حيث هي وقم بمركزية الحوكمة والبيانات الوصفية وإمكانية الاكتشاف.

البيانات الوصفية الموحدة

في حين أن استعلامات البيانات الفيدرالية رائعة في الحصول على البيانات، إلا أنها ليست جيدة بنفس القدر في العثور عليها. فهي تحتاج إلى خريطة أو فهرس لتقصير الوقت المطلوب لتحديد موقع البيانات المناسبة. يؤدي هذا التحدي إلى إنشاء آليات اكتشاف مبتكرة. تعمل استراتيجيات إدارة البيانات الوصفية على تمكين الاستعلامات الفيدرالية من العمل بكفاءة أكبر بكثير. من خلال دمج البيانات الوصفية في مكان مركزي، يمكن لمحركات الاستعلام الفيدرالية تحديد مكان العثور على البيانات بسرعة دون مسح كل قاعدة بيانات متباينة لديك لكل استعلام.

يمكن تنظيم البيانات الوصفية المجمعة في فهارس بيانات، ويمكن رسم خرائط للاتصالات بين مجموعات البيانات المختلفة باستخدام الرسوم البيانية المعرفية. تعمل فهرسة البيانات الوصفية على تقليل الوقت الذي يستغرقه تشغيل الاستعلام الفيدرالي بشكل كبير مما يجعل البيانات أكثر قابلية للاكتشاف وتحليلها أكثر كفاءة.

الحوكمة اللامركزية

رغم أن البرمجيات مفتوحة المصدر رائعة، إلا أنها عادة لا تكون جاهزة للاستخدام من قبل المؤسسات. ولكي تثق المؤسسات في أن البيانات آمنة، ويثق صناع القرار في دقة بياناتهم واكتمالها، فإن الحوكمة السليمة مطلوبة.

قبل تنفيذ استراتيجيات اتحاد البيانات، عندما كانت البيانات مركزية ويمكن الوصول إليها من خلال خطوط أنابيب البيانات ETL، كان لزامًا على تكنولوجيا المعلومات أن تبني الأمن والحوكمة في كل خط أنابيب. ومع سقوط هذه الحواجز الفنية، أصبح من الممكن اتباع نهج جديدة للحوكمة.

تتيح طبقة الاتحاد المدعومة ببرامج مفتوحة المصدر مثل Trino مزيدًا من التحكم حيث يمكن تنفيذ الحوكمة بكفاءة أكبر. لا يلزم التحكم في الوصول وإدارته في كل نظام مصدر فردي، بل في طبقة مركزية. مع وجود بيانات وصفية مفصلة مركزية، يمكن إدارة الوصول وجودة البيانات من منصة مركزية بدلاً من مصدر البيانات. يتيح هذا التكوين المزيد من الكفاءة وضوابط الوصول التفصيلية. يؤدي تجميع البيانات عبر ETL إلى فقدان السياق، ويصبح تتبع النسب أكثر صعوبة. يجعل الوصول المباشر إلى أنظمة المصدر عملية تتبع النسب أكثر سهولة.

التعاون والمشاركة

إن التحول الجديد في بنية تحليلات البيانات يتيح مشاركة وتعاون أسهل. ومع مركزية البيانات الوصفية، يصبح فهم البيانات وسياقها أكثر وضوحًا، مما يجعل المشاركة الآمنة للبيانات عبر المجالات أبسط كثيرًا. يمكن تعريف الوصول على مستوى البيانات بدلاً من مستوى التكنولوجيا. لا يتعين على مهندسي البيانات تحديد من لديه حق الوصول إلى أي نظام مصدر وبناء هذه السياسة في خط الأنابيب الخاص بهم. مع تجريد البيانات الوصفية بعيدًا عن بيانات المصدر، يمكن تعريف الوصول على مستوى جدول البيانات، مما يتيح مشاركة بيانات أكثر فعالية.

مع مشاركة البيانات، يصبح تحليل البيانات رياضة جماعية. وتنمو معرفة البيانات، وتصبح معرفة علم البيانات مهارة أساسية لدى أي صانع قرار. أصبح علماء البيانات أقل شبهاً بالآلهة حيث يمكن إدارة المزيد من ما يفعلونه من قبل زملاء أكثر معرفة بالبيانات. قد لا يكون كل الموظفين علماء بيانات، لكن فهم مفاهيم علم البيانات أصبح مهارة أساسية.

منتجات البيانات مقابل مشاريع البيانات

إن تجميع البيانات في منتجات بيانات قابلة لإعادة الاستخدام يوفر فرصًا جديدة في هذا النموذج الجديد. ومع توفر الأدوات اللازمة للوصول إلى البيانات وإدارتها في مكان واحد، يمكن تبسيط بناء منتجات البيانات القابلة لإعادة الاستخدام. وبمجرد أن نتوصل إلى فهم أفضل لبياناتنا من خلال إدارة البيانات الوصفية الموحدة، فإن بناء مشاريع خط أنابيب بيانات لمرة واحدة تتضمن البحث عن البيانات وفهمها وتطبيق الحوكمة بشكل مستقل لم يعد الخيار الوحيد. يمكننا أن نبدأ في التفكير في البيانات كمنتج معبأ بالحوكمة ومصمم ليكون أكثر مرونة وقابلية لإعادة الاستخدام. يتم بناء منتجات البيانات باستخدام بيانات متكاملة ومنقحة وموحدة ومعززة لتقديم مجموعة بيانات ذات أعلى قيمة.

بفضل التحكم في الوصول الأكثر تفصيلاً، أصبح بإمكان المزيد من المستخدمين الوصول إلى منتجات البيانات. ويمثل هذا النهج تغييرًا كبيرًا عن مشروع البيانات المخصصة الجامد، حيث يجب تحديد الوصول على مستوى نظام المصدر. ويجعل تجميع منتجات البيانات ونشرها في السوق من الوصول إليها أكثر سهولة وخدمة ذاتية.

كما أن التحول إلى منتجات البيانات يجعل تحليل البيانات أكثر استباقية بدلاً من أن يكون تفاعلياً. فبدلاً من الاستجابة لطلبات البيانات، يمكن للمديرين توقع منتجات البيانات التي قد تكون مطلوبة. وهذا التحول يجعل الخبرة في إدارة المنتجات ذات قيمة. والعقلية التي تأخذ بعين الاعتبار الاحتياجات المستقبلية لمستهلكي البيانات وأفضل السبل لتقديم القيمة هي سمة من شأنها أن تدعم استراتيجيات منتجات البيانات الناجحة.

التجريب والابتكار

إن النموذج الجديد لتحليل البيانات سوف يبشر بمزيد من الابتكار والتجريب. ومع البيانات الوصفية المركزية التي تدعم فهارس البيانات العالمية التي تفهرس البيانات عبر مجموعة تكنولوجيا المعلومات الخاصة بك، يصبح اكتشاف البيانات الجديدة أسهل بكثير. ويمكن للمحللين والمهندسين ومديري منتجات البيانات استكشاف مصادر بيانات جديدة لتعزيز تحليلاتهم أو منتجات البيانات الخاصة بهم. ومع توفر منتجات البيانات في السوق، يمكن لصناع القرار وعلماء البيانات الوصول إلى مجموعات البيانات ببضع نقرات فقط من الماوس. وتتوقع مجموعة إيكرسون للاستشارات في تحليل البيانات والبحث أن كل منظمة كبيرة سيكون لديها سوق لمنتجات البيانات في غضون ثلاث إلى خمس سنوات.

إن القدرة على اكتشاف مصادر البيانات ومجموعات البيانات الجديدة هي المفتاح لمزيد من التجارب والابتكار. كما أن فهارس البيانات الموحدة وأسواق منتجات البيانات تجعل القدرة على الاكتشاف أسهل كثيرًا.

نموذج جديد في عصر الذكاء الاصطناعي

إن بنية الاستعلام المتطورة تخلق فرصًا للاستفادة من الذكاء الاصطناعي لتحقيق كفاءة أكبر ونطاق أوسع. أصبحت البيانات أكثر ديمقراطية حيث يمكن لأي شخص لديه بعض مهارات SQL والسلطة المناسبة الاستفادة من محرك استعلام فيدرالي لسحب البيانات من أي مكان في المؤسسة باستخدام نص برمجي واحد. هذه القدرة، جنبًا إلى جنب مع الذكاء الاصطناعي، تجعل البيانات أكثر ذاتية الخدمة. يمكن استخدام نماذج اللغة الكبيرة لترجمة لغة الأعمال الشائعة إلى استعلام SQL، مما يلغي الحاجة إلى معرفة SQL. يدعم Gen AI أيضًا التحليلات المعززة، حيث يمكن لمستخدمي الأعمال أن يطلبوا من محرك الذكاء الاصطناعي إجراء تحليل لهم. اسأل روبوت الدردشة، وسيظهر الذكاء الاصطناعي الارتباطات بين مجموعات البيانات أو تحديد العوامل التي تحرك الاتجاهات. وهذا يتيح وصولًا أكثر فعالية للبيانات ذاتية الخدمة من قبل المحللين غير الفنيين وصناع القرار.

قدرات جديدة

ومع تزايد قوة الذكاء الاصطناعي وتراجع الحواجز أمام الوصول إلى البيانات، سيتم تغذية رؤى الذكاء الاصطناعي مباشرة في سير عمل الأتمتة، وحل المشكلات بشكل مباشر دون تدخل بشري. ورغم أن هذا يبدو خياليا، فقد يكون هذا الواقع موجودا قبل أن ندركه. وسيتعين على البشر مراقبة هذه العمليات والتحقق من مخرجات الذكاء الاصطناعي. وسوف تتطلب القدرة على بناء هذه النماذج ومراقبتها أيضا سهولة الوصول إلى البيانات من قبل البشر وفهم كيفية عمل هذه النماذج.

Discover the Latest in Data and AI Innovation

  • Blog

    ملخص AWS re:Invent

    Read More

  • Blog

    الذكاء الاصطناعي التوليدي في تحليلات البيانات - كيف يجعل الذكاء الاصطناعي الوصول إلى البيانات أسهل

    Read More

  • E-book

    البيانات غير المنظمة مع مجموعة البيانات الحديثة

    Read More

Request a Demo TODAY!

Take the leap from data to AI