بررسی تاثیر کاهش ویژگی بر افزایش نرخ دقت تشخیص صفحات وب هرز

Publish Year: 1396
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 520

This Paper With 6 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

SPIS03_014

تاریخ نمایه سازی: 21 اردیبهشت 1397

Abstract:

وب اسپم روشی غیرقانونی و غیراخلاقی به منظور افزایش رتبه صفحات اینترنتی توسط فریب الگوریتم های موتورهای جستجو است. از آنجا که کیفیت نتایج برای موتورهای جستجو اهمیت بسیاری دارد، ویژگی های زیادی جهت تشخیص صفحات وب هرز پیشنهاد شده است. چالشی که تنوع ویژگیها با آن روبرو است افزایش ابعاد ویژگی و در نتیجه کاهش نرخ تشخیص است. به همین دلیل استفاده از روش های کاهش ویژگی به عنوان یک پیش پردازش آمری اجتناب ناپذیر به نظر می رسد. در این مقاله سعی داریم با بررسی ویژگیهای مستخرج از صفحات وب و انتخاب زیرمجموعهای مناسب از آنها، نرخ تشخیص صفحات وب هرز را افزایش دهیم. بدین منظور ابتدا با استفاده از 11 روش جستجو و هشت معیار ارزیابی، 26 زیر مجموعه مختلف از مجموع کلیه ویژگیها انتخاب شد. سپس با استفاده از الگوریتم Naive Bayes میزان کارایی و موثر بودن هر یک از این زیرمجموعه ها در تشخیص صفحات وب هرز با استفاده از معیاری به نام IBA اندازهگیری شد. نتایج این بررسی که با استفاده از ابزار weka و بر روی مجموعه داده معتبر WEBSPAM-UK2007 صورت گرفت نشان داد که از مجموع 275 ویژگی موجود در این پایگاه داده، 32 ویژگی که با روش جستجوی رتبه بندی و معیار chi square انتخاب شدهاند باعث بهبود عملکرد طبقه بندی و افزایش آن از 0/337 به 0/369 شد.

Authors

علی سلیمانی ایوری

دانشیار، دانشکده مهندسی برق، دانشگاه صنعتی شاهرود، شاهرود،

فایزه اصدقی

دانشجوی دکتری، دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی شاهرود، شاهرود،