CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

بررسی تاثیر کاهش ویژگی بر افزایش نرخ دقت تشخیص صفحات وب هرز

عنوان مقاله: بررسی تاثیر کاهش ویژگی بر افزایش نرخ دقت تشخیص صفحات وب هرز
شناسه ملی مقاله: SPIS03_014
منتشر شده در سومین کنفرانس پردازش سیگنال و سیستم‎ های هوشمند ایران در سال 1396
مشخصات نویسندگان مقاله:

علی سلیمانی ایوری - دانشیار، دانشکده مهندسی برق، دانشگاه صنعتی شاهرود، شاهرود،
فایزه اصدقی - دانشجوی دکتری، دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی شاهرود، شاهرود،

خلاصه مقاله:
وب اسپم روشی غیرقانونی و غیراخلاقی به منظور افزایش رتبه صفحات اینترنتی توسط فریب الگوریتم های موتورهای جستجو است. از آنجا که کیفیت نتایج برای موتورهای جستجو اهمیت بسیاری دارد، ویژگی های زیادی جهت تشخیص صفحات وب هرز پیشنهاد شده است. چالشی که تنوع ویژگیها با آن روبرو است افزایش ابعاد ویژگی و در نتیجه کاهش نرخ تشخیص است. به همین دلیل استفاده از روش های کاهش ویژگی به عنوان یک پیش پردازش آمری اجتناب ناپذیر به نظر می رسد. در این مقاله سعی داریم با بررسی ویژگیهای مستخرج از صفحات وب و انتخاب زیرمجموعهای مناسب از آنها، نرخ تشخیص صفحات وب هرز را افزایش دهیم. بدین منظور ابتدا با استفاده از 11 روش جستجو و هشت معیار ارزیابی، 26 زیر مجموعه مختلف از مجموع کلیه ویژگیها انتخاب شد. سپس با استفاده از الگوریتم Naive Bayes میزان کارایی و موثر بودن هر یک از این زیرمجموعه ها در تشخیص صفحات وب هرز با استفاده از معیاری به نام IBA اندازهگیری شد. نتایج این بررسی که با استفاده از ابزار weka و بر روی مجموعه داده معتبر WEBSPAM-UK2007 صورت گرفت نشان داد که از مجموع 275 ویژگی موجود در این پایگاه داده، 32 ویژگی که با روش جستجوی رتبه بندی و معیار chi square انتخاب شدهاند باعث بهبود عملکرد طبقه بندی و افزایش آن از 0/337 به 0/369 شد.

کلمات کلیدی:
وب اسپم، انتخاب ویژگی، روش های جستجو، ارزیابی ویژگی۔

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/729441/