تشخیص و حذف داده های زائد
در مجموعه داده هایی که معموال جهت کاوش به الگوریتم داده کاوی ارائه می شوند داده هایی وجود دارندکه در تناقض با داده های دیگر می باشند. به طور معمول داده های مزبور نتیجه خطاهای اندازه گیری، کدکردن و یا ذخیره کردن هستند. گاهی اوقات هم این داده ها مقادیری غیر عادی هستند که منشاء کاملاطبیعی دارند. نمونه هایی از مجموعه داده های مورد کاوش که شامل داده های زائد هستند می توانند تأثیر منفی قابل توجهی را در مدل تولیدی الگوریتم داده کاوی داشته باشند. دو راه می توان جهت برخورد با داده های زائد معرفی نمود:
الف- تشخیص و حذف داده های زائد به عنوان بخشی از مرحله پیش پردازش.
ب- ارائه مدلی مقاوم که نسبت به داده های زائد (نویزی) غیر حساس باشد.
نرمال کردن[۱]، کد کردن[۲] و انتخاب ویژگی ها[۳]
پیش پردازش داده ها شامل مراحل مختلفی نظیر نرمال و کد کردن متغیرها است. به عنوان مثال چنانچه دو ویژگی داشته باشیم که اولی تغییراتش در بازه [۰,۱] دومی در بازه [-۰٫۰۰۱,۱۰۰۰] باشد، چگونگی تأثیر این دو ویژگی در مدل بدست آمده توسط الگوریتم داده کاوی یکسان نخواهد بود و این اختلاف باعث تأثیر منفی در کارآیی مدل نهایی می گردد. به این ترتیب توصیه می شود که همیشه تمامی ویژگی هادر یک بازه یکسان نرمال شوند تا از تأثیر تفاوت بازه ها جلوگیری به عمل آید. همچنین با توجه بهمسأله ای که قصد اعمال داده های آن را به الگوریتم داده کاوی داریم، گاهی اوقات با بکارگیری روش کدکردن خاصی میتوانیم ابعاد داده های ورودی را در مسأله مورد بررسی کاهش دهیم.
به عبارت دیگر تعداد ورودی ها را با توجه به یک روش کد کردن خاص می توانیم کاهش دهیم. از آنجا که تعداد کم ورودی ها همیشه اثری مهم در کاهش پیچیدگی مسأله و به تبع آن افزایش کارآیی الگوریتم داده کاوی در یافتن مدل نهائی می شود، انتخاب روش کدکردنی که بتواند باعث کاهش در تعداد ورودی های اعمالی به الگوریتم داده کاوی شود بسیار مورد توجه می باشد. استفاده از دانش قبلی در هر کدام از انواع روش های پیش پردازش ذکر شده میتواند در افزایش کارآیی فرایند پیش پردازش نقش به سزائی داشته باشد.
۵-۳-۲) برآورد مدل (کاوش داده)
انتخاب و پیاده سازی روش داده کاوی مناسب فرایند مهمی است که در این مرحله انجام می شود. به طور کلی روش ها و الگوریتم های مختلفی جهت یادگیری و تولید یک مدل بر اساس داده های ورودی وجود دارند. به نوعی الگوریتم های مزبور را می توان یک روال جستجو نیز در نظر گرفت. این روال سعی در یافتن مدلی می کند که به بهترین نحو داده های ورودی را پوشش دهد.
بایستی توجه نمود که الگوریتم داده کاوی که در این مرحله اجرا می گردد، با توجه به ماهیت مسأله ای کهفرایند داده کاوی سعی در تحلیل داده های آن را دارد، طراحی می گردد.
[۱] Normalization
[۲] coding
[۳] Feature Selection