طبقه بندی محتوایی صفحات وب با استفاده از راهکارهای خوشه بندی

Publish Year: 1395
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 875

This Paper With 12 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

IRCEM01_102

تاریخ نمایه سازی: 25 آذر 1395

Abstract:

از آنجا که حجم اطلاعات بر روی وب روز به روز در حال افزایش است. سازماندهی این اطلاعات به منظور دسترسی سریع کاربران به محتوای مورد نظر یک نیاز ضروری می باشد. با توجه به رشد سریع وب، فراهم کردن روشی خودکار برای تقسیم بندی و طبقه بندی صفحات وب یک نیاز ضروری می باشد. در این مقاله چندین روش خوشه بندی صفحات وب مورد بررسی قرار گرفته است. این روش ها شامل خوشه بندی اسناد براساس ترکیب تگ های HTML، روش یادگیری ماشین K نزدیکترین همسایه، روش خوشه بندی بر اساس الگوریتم K-Means و خوشه بندی براساس پیوندهای خروجی است. سپس با استفاده از تمامی این الگوریتم ها دسته بندی صفحات وب مطابق با گروه بندی های از پیش تعیین شده انجام شده و پس از قرارگیری صفحات در گروه ها و دسته های مربوط به خود میزان درستی کار هر کدام از این الگوریتم ها را از طریق روش های ارزیابی خوشه بندی سنجیده شده و با سایر الگوریتم ها مقایسه شده و درصد موفقیت هریک را در گروه های مختلف محاسبه کرده و در نهایت به معرفی موفق ترین گروه در این آزمایش پرداخته شد. این طبقه بندی بوسیله ۱۰۰ صفحه وب متعلق به ۴ دسته آموزشی، پزشکی، خبری، ورزشی است.

Keywords:

الگوریتم های خوشه بندی , ارزیابی خوشه بندی , بازیابی اطلاعات , طبقه بندی صفحات وب

Authors

معصومه رجب زاده شهرستانی

دانشجوی کارشناسی ارشد مهندسی کامپیوتر- نرم افزار، موسسه آموزش عالی دیلمان- لاهیجان

فاطمه احمدی آبکناری

استادیار- گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه پیام نور رشت

غلامحسین اکباتانی فرد

استادیار- گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه آزاد اسلامی، واحد لاهیجان

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :