هل بياناتك جاهزة لـ GenAI؟



Listen to this blog
Disclaimer

لا شك أن الذكاء الاصطناعي أصبح في مرحلة من الإثارة. ومن الصعب أن نجزم ما إذا كان قد وصل إلى ذروته المبكرة، ولكن هذه التكنولوجيا لديها القدرة على إحداث تغيير جذري في طريقة عملنا وحياتنا. إن عدد حالات استخدام الذكاء الاصطناعي وأين يمكن أن يضيف قيمة لا نهائية ومحولة. ويعتقد مارك كوبان أن أول تريليونير سيكون المبتكر الذي يعمل على تحسين الربح من الذكاء الاصطناعي قبل أي شخص آخر. وتقدر شركة ماكينزي أن الذكاء الاصطناعي سيكون له تأثير على الإنتاجية يعادل 2.6 إلى 4.4 تريليون دولار.

ولكن السؤال يظل مطروحا؛ هل سيعمل البشر والذكاء الاصطناعي معا بسلاسة، وكيف سيتمكن الناس من استثمار إبداعاتهم في نظام بيئي تهيمن عليه نماذج الذكاء الاصطناعي سريعة التطور؟ إن الطريق إلى الإجابة على هذه الأسئلة سيكون مليئا بالتحديات والإخفاقات والابتكارات. ويتعين على المنظمات أن تكون مستعدة للاضطرابات المستقبلية. وأفضل طريقة للقيام بذلك هي ضمان أن تكون بياناتك، وهي أعظم أصول المنظمة في هذا النظام البيئي الجديد، جاهزة للمستقبل.

في العام الماضي، ظهرت أول نماذج لنماذج اللغة الكبيرة (LLM) مثل ChatGPT-3 وMicrosoft Copilot وGoogle Gemini، مما أدى إلى انفجار في تجارب GenAI. هذا العام، سيتم إتقان هذه النماذج التجريبية ونقلها إلى الإنتاج. تحتاج المنظمات إلى الوصول إلى مجموعات متنوعة من البيانات عالية الجودة لتوسيع نطاق هذه النماذج بنجاح والأداء الفعال في الإنتاج. قد تجد المنظمات أن الحصول على هذه البيانات ليس بالأمر السهل، ولا يزال هناك الكثير من العمل الذي يتعين القيام به. وفقًا لمسح Wavestone's Data & Analytics ، قامت 5% فقط من المنظمات بتنفيذ الذكاء الاصطناعي التوليدي في الإنتاج على نطاق واسع.

في حين قد تتمتع المنظمات بقدر أكبر من الجاذبية مع الذكاء الاصطناعي التقليدي، فإن الذكاء الاصطناعي التوليدي هو حيوان مختلف مع متطلبات بيانات مختلفة. يعتمد الذكاء الاصطناعي التقليدي على التعلم الخاضع للإشراف، حيث تُستخدم مجموعات البيانات المنسقة لتدريب النماذج لتحديد الأنماط والنتائج. في حين يستفيد الذكاء الاصطناعي التوليدي من البيانات المنظمة وغير المنظمة وينشئ البيانات بمفرده بدلاً من مجرد التنبؤ بالنتائج. هذا التعلم غير خاضع للإشراف، لذلك يتعلم النموذج من أي بيانات يمكنه الوصول إليها. يشبه الذكاء الاصطناعي التوليدي صندوقًا أسودًا معقدًا حيث لا يفهم علماء البيانات سبب اتخاذ النماذج للقرارات التي تتخذها. هذا الافتقار إلى القدرة على الملاحظة يجعل من الأهمية بمكان أن تتمتع نماذج الذكاء الاصطناعي التوليدي بالوصول إلى البيانات ذات الجودة الأعلى.

تطبيق GenAI لتحسين أداء المؤسسة

تركز تطبيقات GenAI في المؤسسات على ضبط النماذج الجاهزة من قبل جهات خارجية مثل ChatGPT. إن إنشاء نماذج LLM كبيرة وفريدة ليس مجديًا اقتصاديًا بالنسبة لمعظم المؤسسات، لذا فإن العديد منها تدرب النماذج الحالية باستخدام بيانات المؤسسة لتنفيذ الذكاء الاصطناعي التوليدي. يُعرف هذا بضبط النموذج.

في حين يعمل ضبط GenAI على تكييف النماذج مع المجالات، فإن Retrieval Augmented Generation (RAG) هو الآلية التي يستخدمها GenAI للحصول على الحقائق داخل المؤسسة لدعم إجاباته. على سبيل المثال، إذا سألت روبوت محادثة GenAI عن موعد تسليم طلبك، فسوف يستخدم RAG للوصول إلى نظام التنفيذ للحصول على الإجابة.

لكي يعمل GenAI بشكل فعال في المؤسسة لدعم ضبط النموذج وبيانات RAG، يجب أن يكون:

  • يمكن الوصول إليها
  • ينظف
  • مُصنَّف
  • يؤمن

التكامل والوصول إلى البيانات

إن الوصول الواسع إلى البيانات هو المتطلب الأول لاستراتيجية GenAI الخاصة بك. لضبط نماذجك، تحتاج إلى الوصول إلى بيانات التدريب ذات الصلة، ولكي تعمل RAG، يجب أن تتمتع النماذج بالقدرة على الوصول إلى البيانات التشغيلية.

نماذج الضبط

من أجل ضبط النموذج بشكل فعال، يلزم وجود مجموعة بيانات أوسع وأكثر تنوعًا. إذا كانت نماذج GenAI معرضة فقط لمجموعات بيانات ضيقة، فإنها تميل إلى الإفراط في ملاءمة النموذج وحفظ مجموعة بيانات التدريب دون تعلم أي شيء. لكي تتعلم النماذج وتميز بين الخصائص المميزة، يجب تدريبها على بيانات متنوعة. تحتاج مجموعات البيانات هذه إلى تمثيل البيانات من جميع أنحاء المؤسسة لإنشاء أبعاد أكبر. مع تمثيل أكبر، ستكون نماذج الذكاء الاصطناعي أقل تحيزًا وأكثر فعالية.

إن استخدام مجموعات البيانات الصحيحة التي قد توجد في أي مكان في مؤسستك أمر ضروري لضبط نماذج GenAI. إن مجموعات البيانات الأصغر حجمًا والأكثر جودة أفضل من البيانات الكبيرة ذات الجودة المنخفضة. إن مجموعات البيانات ذات الجودة المنخفضة تخلق ضوضاء تربك النماذج وتعطل التعلم. إن الوصول إلى جميع بيانات المؤسسة وفهم جودتها سيساعدك في العثور على بيانات التدريب الصحيحة لضبط GenAI.

خرقة

ولكي تكون GenAI مفيدة في المنظمة، فلابد أن يكون لديها القدرة على الوصول إلى المعلومات المناسبة في السياق المناسب للإجابة على استفسارات المستخدمين. وتعتبر منتجات البيانات وسيلة رائعة لدعم هذه العمليات من خلال توفير سياق وتخصيص أكبر حول استفسارات المستخدمين. ومن خلال دمج منتجات البيانات مع GenAI، يمكن لمنتجات البيانات التي تركز على العملاء أن توفر إرشادات أو مدخلات يمكن إدخالها في GenAI لتقديم المزيد من التخصيص والاستجابات السياقية. وتوفر منتجات البيانات القدرة على الوصول والحوكمة المناسبة لضمان استفادة GenAI من أفضل البيانات. على سبيل المثال، يمكن لبرامج الدردشة الآلية الاستفادة من منتجات البيانات لإدراج تحيات شخصية في الاتصالات أو الاستفسار عن المشتريات السابقة، وبالتالي تحسين التجربة.

الجودة والنزاهة

إن القدرة الفريدة التي تتمتع بها GenAI على التعلم بشكل مستقل دون إشراف تجعلها ثورية وخطيرة في نفس الوقت. إن طبيعة "الصندوق الأسود" التي تتسم بها التكنولوجيا تجعل البيانات عالية الجودة ذات أهمية قصوى لتطبيقات GenAI الناجحة. ووفقًا لـ Wakefield Research، فإن اثنين وأربعين بالمائة من قادة البيانات يعتبرون جودة البيانات هي العقبة الرئيسية المتعلقة بالبيانات التي تحول دون تبني GenAI ونماذج اللغة الكبيرة.

تتميز GenAI أيضًا بقدرتها على التعلم من البيانات غير المنظمة عن الذكاء الاصطناعي التقليدي. عادةً ما تكون هذه البيانات هي الأكثر فوضوية ونادرًا ما يتم تنظيفها أو تنظيمها. لاستخدام هذه البيانات غير المنظمة في RAG أو التدريب، يلزم إجراء المعالجة المسبقة والتطبيع لمساعدة GenAI على فهم البيانات.

تختلف عملية تنظيف البيانات غير المنظمة عن تنظيف البيانات المنظمة، حيث تكون هذه البيانات عادةً في شكل نص، وتتضمن عملية التنظيف ما يلي:

  • توحيد اللغة، مثل تصحيح الأخطاء الإملائية أو توسيع الاختصارات.
  • يعد تحديد الشذوذ لمزيد من التحقيق طريقة أخرى لتنظيف البيانات غير المنظمة لدعم GenAI.

الاكتشاف والبيانات الوصفية والسياق

إن قدرة الذكاء الاصطناعي التوليدي على معالجة البيانات غير المنظمة تشكل تغييرًا جذريًا. ومع ذلك، فإن الافتقار إلى الاتساق في بيانات التدريب يمكن أن يؤدي إلى أخطاء وهلوسات. للتخفيف من حدة الأخطاء، يلزم وضع علامات على البيانات واستراتيجيات فعالة لإدارة البيانات الوصفية لتوفير المزيد من الهيكل.

إن إنشاء المزيد من البنية حول البيانات غير المنظمة يجعل البيانات أقل ضوضاءً وتضاربًا. والبشر أفضل بكثير من الآلات في حل هذه التضاربات. وتساعد استراتيجية البيانات الوصفية القوية التي تدير البيانات الوصفية عبر جميع قواعد البيانات الخاصة بك في إنشاء مصدر واحد للحقيقة يمكن للذكاء الاصطناعي الاعتماد عليه. ويساعد دمج الآليات التي تمكن البشر من العمل مع الذكاء الاصطناعي لتصنيف البيانات وتصنيفها المؤسسات على ضمان جاهزية بيانات مؤسستها للذكاء الاصطناعي.

الخصوصية والأمان

إن السماح لـ GenAI بالسيطرة على بياناتك الشخصية والآمنة يتطلب مزيدًا من التحكم. إن جوع GenAI للبيانات يدفع التكنولوجيا إلى استخدام أي بيانات يمكنها الوصول إليها. إن عمليات RAG أو التدريب سوف تنتهك البروتوكولات إذا لم يتم وضع حدود للوصول إلى البيانات الشخصية. إن عزل جميع بياناتك يحد من فعالية GenAI. لإعداد بياناتك وأنظمتك لـ GenAI، تحتاج الشركات إلى استراتيجية لضوابط الوصول التفصيلية وإخفاء البيانات لتعليم النماذج ما هو محظور وضمان عدم مشاركة النماذج للبيانات الخاصة بشكل غير مناسب.

يتطلب نهج الفريق

إن إعداد البيانات لتكنولوجيا GenAI المبتكرة ليس بالمهمة السهلة. تتطلب قوة التكنولوجيا بشرًا مهرة لمراقبتها والتأكد من عملها بشكل صحيح. عندما تصبح روبوتات GenAI بمثابة البوابة بين البيانات والمستخدمين، يتم استبعاد المحللين، الذين كانوا يتحكمون تقليديًا في الوصول إلى الرؤى، من العملية. يفقدون السيطرة على البيانات التي يتم الوصول إليها وما إذا كانت ذات جودة جيدة. يتطلب هذا التحول استراتيجيات حوكمة جديدة وأكثر قوة تتضمن المدخلات والإشراف من جميع أنحاء المنظمة.

ستتطلب الفرق التي تدير هذه العمليات مجموعة متنوعة من المهارات. وسوف يحتاجون إلى فهم كيفية عمل النماذج والتكنولوجيا الأساسية وفهم الآثار التجارية ومتطلبات هذه النماذج.

يمكن لـ GenAI حل مشاكلها بنفسها

الميزة الرائعة في إعداد البيانات لـ GenAI هي أن GenAI يمكن أن تساعد في هذه العملية. يمكن لأدوات الذكاء الاصطناعي مساعدة البشر في وضع علامات على البيانات وتصحيح التهجئة تلقائيًا أو توسيع الاختصارات. يمكن لـ GenAI أيضًا إنشاء بيانات اصطناعية لملء الفجوات في مجموعات البيانات. هذه القدرة هي المكان الذي يمكن فيه لـ GenAI تصنيع بيانات تحاكي الظروف في العالم الحقيقي عن كثب.

يمكن للذكاء الاصطناعي التوليدي أن يتعلم من نفسه، لكنه يحتاج إلى البدء من نقطة ما. فالنقطة التي تبدأ منها سيكون لها تأثير عميق على النقطة التي ستنتهي إليها. والبدء بأفضل البيانات جودة سيضعك في أفضل وضع لتحقيق نتائج عظيمة.

Discover the Latest in Data and AI Innovation

  • Blog

    ملخص AWS re:Invent

    Read More

  • Blog

    الذكاء الاصطناعي التوليدي في تحليلات البيانات - كيف يجعل الذكاء الاصطناعي الوصول إلى البيانات أسهل

    Read More

  • E-book

    البيانات غير المنظمة مع مجموعة البيانات الحديثة

    Read More

Request a Demo TODAY!

Take the leap from data to AI