سیستم هوشمند فیلتر کردن هرزنامه ها با استفاده از الگوریتم ماشین بردار پشتیبان، شاخص گذری N-Gram و وزن دهی TF-IDF

Publish Year: 1393
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 2,117

This Paper With 8 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

CCITC01_032

تاریخ نمایه سازی: 27 آبان 1393

Abstract:

با توجه به بکارگیری مستمر تکنیک های جدید توسط تولید ک نندگان هرزنامه ها، نیاز بیش از پیش به استفاده از تکنیک های جدید و هوشمند مقابله با این هرزنامه ها احساس می شود. در حال حاضر استفاده از الگوریتم های یادگیری ماشین یکی از مؤثرترین و محبوب ترین روش ها در فیلتر کردن خودکار هرزنامه ها می باشد. در این مقاله مدل جدیدی برای فیلتر کردن خودکار هرزنامه ها ارائه شده است. برای پیاده سازی از نرم افزار RapidMiner استفاده شده است. این مدل شامل دو فاز پیش پردازش مجموعه داده و فاز دسته بندی ایمیل ها می باشد. فاز پیش پردازش شامل مراحل آماده سازی م جموعه داده، شاخص گذاری و وزن دهی شاخص ها می باشد. مرحله آماده سازی شامل بخش های یک شکل سازی متن، تقسیم متن به واحدهای با معنی مثل ک لمه، حذف کلمات متوقف کننده و علائم نگارشی می باشد. ما در مدل پیشنهادی برای شاخص گذاری در فاز پیش پردازش از روش N-gram و برای وزن دهی به شاخص ها از فیلتر TF-IDF استفاده کرده ایم. در فاز دوم، برای آموزش مدل جهت دسته بندی، از الگوریتم ماشین بردار پشتیبان استفاده شده است. به منظور ارزیابی و مقایسه نتایج، معیارهای صحت، دقت، بازخوانی و پاارمتر (F(1 محاسبه شده اند. نتایج آزمایش ها که بر روی مجموعه داده های LingSpam و SpamAssassin انجام گرفت نشان می دهد که مدل پیشنهادی ما کارایی بهتری نسبت به الگوریتم های دیگر روی این مجموعه داده ها دارد.

Authors

فاطمه حیدری

کارشناسی ارشد نرم افزار، جهاد دانشگاهی خوزستان، اهواز، ایران

علیرضا عصاره

دانشیار، گروه کامپیوتر دانشگاه شهید چمران، اهواز، ایران

بیتا شادگار

استادیار، گروه کامپیوتر دانشگاه شهید چمران، اهواز، ایران