التحديات الرئيسية لتعلم الألة المتعلقة بقاعدة البيانات

Main Challenges of Machine Learning


نتطرق في هذا المقال إلى التحديات أو العيوب التي تواجه أو تكون في قاعدة البيانات التي نرغب في إستعمالها في عملية التدريب و ثؤثر على النتائج بشكل سلبي. و لهذا فإن عملية تنظيف و تنقية و إصلاح البيانات عملية مهمة جدا قبل الشروع في عملية التدريب. أهم التحديات التي تواجه قاعدة البيانات هي :

1- Insufficient Quantity of Training Data :

بالنسبة للبشر إذا أخبرته عن شيء ما أو وصفته له فإنه قادر على التعلم و تعميم النتائج من مثال واحد فقط، يكفي أن يشاهد صورة الحوت الأزرق ليعرفه في كل مرة يراه بعد ذلك. لكن بالنسبة للألة فالأمر معقد جدا فهي تحتاج إلى الكثير و الكثير من الأمثلة من أجل إستنتاج العلاقات العامة التي تحكم ذلك الشيء. و بالنسبة لمجال تعلم الألة فوجود قاعدة بيانات كافية أمر ضروري جدا للحصول على نتائج مرغوبة. نحتاج الألاف من الأمثلة من أجل حل مشكل عادي و مئات الألاف من الأمثلة إذا كان المشكل معقدا كما في حالة التعرف على الأشكال داخل الصور أو التعرف على الكلام. 

2- Non-representative Training Data :

إذا أردنا مثلا برمجة برنامج يقوم بالتنبؤ بنتائج الطلاب على حسب دخل الوالدين ففي مجموعة معينة نجد كلما إرتفع دخل الوالدين كلما كانت حاجيات و رغبات الأبناء متوفرة و بالتالي ينعكس ذلك على نتائجهم الدراسية و تكون جيدة. خوارزمية التنبؤ في هذه الحالة تعطينا خطا مستقيما متزايدا في معلم يضم نسبة دخل الوالدين و حالة النتائج الدراسية. لكن في الحقيقة و الواقع هناك عائلات فقيرة و أبنائها يحققون نتائجا دراسية أحسن من العائلات الغنية! و بالتالي خوارزمية التنبؤ لن تكون دقيقة في هاته الحالة. من الضروري جدا إستخدام قاعدة بيانات قابلة للتمثيل، و عدم قابلية تمثيل البيانات يكون بسبب خلل في أخد العينات و يسمي (sampling bias). لتفادي هذا المشكل نستعين بالرسوم البيانية حيث نقوم بإظهار جزء من البيانات أو كلها لنعرف كيف هي البيانات، هل تتمركز في شكل خط مستقيم بالتقريب أو في مجموعات شبه منفصلة أو أنها متداخلة و متشابكة و حينها يمكننا إتخاد قرار حول تغير هذه العينات إن كانت غير صالحة و غير قابلة للتمثيل و كذلك إختيار الخوارزمية المناسبة. 

3- Poor-Quality Data :

إذا كانت قاعدة البيانات تحتوي على عينات رديئة و مليئة بالأخطاء و القيم الشادة على سبيل المثال بسبب رداءة وسائل القياس التي إستعملتها من أجل الحصول على البيانات (كاميرا، مكرفون، سكانر، مستشعر ...) فإن هذا سيؤثر على النتائج و من الصعب الحصول على نمودج خوارزمية مدربة تقوم بعملها بشكل مقبول. في هذه الحالة لابد من تخصيص وقت كافي من أجل تنظيف هذه البيانات و إصلاحها و توجد مكتبات مساعدة في ذلك كمكتبة (pandas) الاطلاع على المزيد من هنا . أغلبية (data scientist) يقضون جزء من وقتهم في هذا الأمر. مثلا :
إذا كانت بعض القيم شادة أو غير واضحة يمكن تجاهلها أو إصلاحها يدويا. 
إذا كانت بعض القيم ناقصة في بعض الخصائص  فإما نتجاهلها أو نصلحها. مثلا 5٪ من العملاء مجهولة أعمرهم في قاعدة البيانات ففي هذه الحالة نفكر في تجاهل خاصية العمر و إذا كانت أقل من هذه النسبة نحاول إصلاحها مثلا نعوض قيم الأعمار المفقودة بمعدل الأعمار. 

4- Irrelevant Features :

 إختيار الخصائص المناسبة و المعبرة فعلا لتمثيل عناصر قاعدة البيانات يعتبر عاملا محددا في عملية نجاح مشروع ما يستخدم مجال تعلم الألة و هذه العملية تسمى (feature engineering ) و تحتوي على الخطوات التالية :

a- Feature Selection :

نختار نوع الخصائص المناسب الذي يمثل عناصر قاعدة البيانات، مثلا في مشروع تصنيف الزبائن الذين نتعامل معهم نحدد الجنس و العمر و منطقة السكن و الوظيفة كخصائص مميزة في تصنيف الزبائن. 

b- Feature Extraction :

عملية إستخراج الخصائص تتم بجمع قيم أو معلومات الخصائص المحددة سلفا من أجل تشكيل مجموعة أو جدول خاص بكل عنصر من عناصر قاعدة البيانات. أحيانا قد نحتاج إلى عدد أقل فنقوم بإنقاص العدد عن طريق (dimensionality reduction algorithm ). 

c- Creating new Features :

إذا كان عدد الخصائص التي إستخرجناها غير كافي فيمكن جمع بعضها مع بعض لتشكيل خصائص جديدة.


Main Challenges of Machine Learning
#الذكاء_الإصطناعي #تعلم_الألة #التعلم_العميق
#artificial_intelligence #machine_learning #deep_learning

الكاتب : هشام فلواط - hichem felouat
تابعوا مقالاتي على الهاشتاج : #هشام_فلواط

Comments

Popular posts from this blog

نصائح إلى الطلبة الذين سيدرسون تخصص الإعلام الألي

تحسين أداء خوارزميات تعلم الألة

أقسام الذكاء الاصطناعي Subdomains of AI