CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارایه مدلی جهت خوشه بندی جریان صفحات وب برای موتورهای جستجو با استفاده از محیط های توزیع شده

عنوان مقاله: ارایه مدلی جهت خوشه بندی جریان صفحات وب برای موتورهای جستجو با استفاده از محیط های توزیع شده
شناسه ملی مقاله: BIGDATA01_015
منتشر شده در همایش داده های عظیم در سال 1393
مشخصات نویسندگان مقاله:

سعید رحمانی - دانشجوی دکتری، دانشگاه شیراز
محمدهادی صدرالدینی - دانشیار، دانشگاه شیراز

خلاصه مقاله:
امروزه وب جهانی مهمترین محیط جهت تولید و نشراطلاعات است. موتورهای جستجو بهترین ابزار برای دسترس ی بهاین اطلاعات میباشند. حجم و تغییرات زیاد از مهمترین ویژگیهای وب میباشد که بازیابی و پردازش اطلاعات را با چالش ها یجدیدیمانند پیچیدگی محاسباتی زیاد مواجه ساخته است.خوشه بندی صفحات از جمله این پردازش هاست که تاث یر قابلقبولی در کیفیت موتورهای جستجو دارد.در این مقاله مدلی جهت خوشه بندی مناسب صفحات وب ارایهشده است. در این مدل مجموعه مناسبی از صفحات وب با استفادهاز الگوریتم FICA خزش شده و در ادامه با استفاده از تکنیک خوشه بندی افزایشی، صفحات در خوشه های مناسب قرار می-گیرند. با توجه به تاثیر عبارات مهم در کیفیت خوشه بندی، ازچهارچوب توزیع شده MapReduce جهت استخراج عبارات مهم استفاده شده است. همچنین در مدل ارایه شده میتوان از محیطتوزیع شده پردازش گراف PowerGraph جهت افزایش کارایی الگوریتم FICA استفاده کرد.

کلمات کلیدی:
خزشگر، خوشه بندی افزایشی، PowerGraph ،MapReduce

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/754179/