CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

شناسایی هرزنامه ها با استفاده از الگوریتم دسته بندی درخت تصمیم با یک رویکرد مبتنی برکاهش بعد، تحلیل مولفه های اساسی

عنوان مقاله: شناسایی هرزنامه ها با استفاده از الگوریتم دسته بندی درخت تصمیم با یک رویکرد مبتنی برکاهش بعد، تحلیل مولفه های اساسی
شناسه ملی مقاله: FBFI01_114
منتشر شده در نخستین کنفرانس بین المللی فناوری اطلاعات در سال 1394
مشخصات نویسندگان مقاله:

مرادعلی قادری - دانشجوی کارشناسی ارشد مهندسی نرم افزار، دانشگاه آزاد اسلامی واحد بروجرد،
محمد ابراهیم شیری - دانشگاه صنعتی امیرکبیر،دانشکده ریاضی و علوم کامپیوتر

خلاصه مقاله:
محبوبیت روزافزون و کم بودن هزینه پست الکترونیکی این زمینه را فراهم کرده است تا بسیاری اقدام به ارسال نامه های الکترونیکی ناخواسته درحجم انبوه کنند. این نامه ها به اصطلاح هرزنامه نامیده می شوند. هرزنامه ها یکی از بزرگترین مشکلات کاربران پست الکترونیکی هستند که سبب اتلاف وقت، کاهش امنیتو کاهش کارایی کامپیوتر می شوند. برای غلبه بر این مشکل روشهای مختلفی ارائه شده است. در این مقاله یک روش برای شناسایی و دسته بندی ایمیل ها به دو دسته هرزنامه یا اسپم و نامه معتبر با غیر اسپم براساس الگوریتم درخت تصمیم ارائه نموده ایم.در روش پیشنهادی از الگوریتم کاهش بعد، تحلیل مولفه های اساسی(PCA) برای کاهش بعد فضای ویژگی ها استفاده نموده ایم و همچنین الگوریتم ترکیبیBagging را روی الگوریتم درخت تصمیم اعمال نموده ایم. روش پیشنهادی روی مجموعه داده استاندارد، Lingspam ارزیابی شده است. تاکنون الگوریتم های زیادی برای شناسایی هرزنامه ها توسط الگوریتم های یادگیری ماشین در مقالات ارائه شده که نتایج حاصل از ارزیابی روش پیشنهادی نشان می دهد که روش پیشنهادی باعث بالابردن معیارهای دقت، صحت ،بازخوانی و کارایی دسته بندی هرزنامه ها شده است.

کلمات کلیدی:
پست الکترونیکی، هرزنامه ، یادگیری ماشین ، دسته بندی، کاهش بعد ، درخت تصمیم ، الگوریتم ترکیبی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/478082/