یک روش ویرایشی تراکمی نوین برای شناسایی نمونه داده های پرت در مسائل کلاسه بندی

Publish Year: 1387
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 2,250

This Paper With 6 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

ACCSI14_035

تاریخ نمایه سازی: 26 مهر 1387

Abstract:

در مسائل کلاسه بندی، داده های پرت به نمونه هایی اطلاق می شود که با همسایه های خود (نزدیکترین نمونه ها به نمونه ی مورد نظر) هماهنگی ندارند. به عبارت دیگر، نمونه داده ای از یک کلاس در بین تعدادی از نمونه های مربوط به کلاس دیگر محصور باشد. عوامل اصلی بروز چنین داده هایی معمولا نویزها و خطاهای اندازه گیری می باشند. در نتیجه حذف این نمونه ها از مجموعه داده های آموزشی بعنوان یک عملیات پیش پردازش می تواند به دقت کلاسه بند و همچنین کارایی آن از لحاظ حافظه و زمان کمک قابل توجی نماید. روش های شناسایی و حذف نمونه های پرت را می توان به دو زیر گروه اصلی تقسیم کرد؛ روشهای ویرایشی و روشهای تراکمی. هدف روش های ویرایشی غالبًا بهبود کارایی و دقت کلاسه بندی به کمک حذف نمونه های نویزی می باشد. از طرف دیگر، هدف روش های تراکمی حذف نمونه هایی است که در عمل کلاسه بندی تاثیری ندارند. در واقع، سعی این روش ها یافتن زیرمجموعه ای بسیار کاهش یافته از فضای دادهای آموزشی به کمک حذف نمونه های داخلی جهت بهبود سرعت و حافظه می باشد. در این مقاله، ما یک روش ویرایشی‐ تراکمی جدید برای شناسایی نمونه های پرت ارائه می کنیم. عملکرد الگوریتم پیشنهادی بر پایه عملگرهای سریع بیتی می باشد. پس از مشاهده تاثیر الگوریتم بر سرعت یک کلاسه بند، تاثیر آن را در افزایش دقت کلاسه بند نیز بررسی می نماییم. بدین منظور روش پیشنهادی را روی چند مجموعه داده استاندارد که ماهیت نویزی دارند، اعمال نموده و سپس عمل کلاسه بندی را انجام می دهیم. دقت کلاسه بند حاصل را با حالت بدون حذف نمونه های پرت و نیز با چند روش معروف مقایسه می کنیم.

Authors

س.م فخر احمد

عضو هیات علمی دانشگاه آزاد اسلامی واحد شیراز

م.ه صدرالدینی

استادیار بخش مهندسی کامپیوتر، دانشگاه شیراز

م ذوالقدری جهرمی

دانشیار بخش مهندسی کامپیوتر، دانشگاه شیراز