CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

موتور جستجو بر پایه فناوری وب معنایی و استفاده از روش K نزدیک ترین همسایه برای رتبه بندی و طبقه بندی صفحات وب

عنوان مقاله: موتور جستجو بر پایه فناوری وب معنایی و استفاده از روش K نزدیک ترین همسایه برای رتبه بندی و طبقه بندی صفحات وب
شناسه ملی مقاله: DCBDP04_092
منتشر شده در چهارمین کنفرانس ملی محاسبات توزیعی و پردازش داده های بزرگ در سال 1397
مشخصات نویسندگان مقاله:

هادی سعیدی فرد - دانشجوی کارشناسی ارشد نرم افزار، گروه کامپیوتر، واحد ارومیه، دانشگاه آزاد اسلامی، ارومیه، ایران
امین بابازاده سنگر - استادیار، گروه کامپیوتر، واحد ارومیه، دانشگاه آزاد اسلامی، ارومیه، ایران

خلاصه مقاله:
وب معنایی نسخه ی ارتقاء یافته ی وب کنونی است که اطلاعات موجود در آن دارای معانی تعریف شده ای هستند. در این مقاله یک الگوریتم پیشنهادی بر پایه فناوری وب معنایی ارایه شده است. روش پیشنهادی از دو بخش تشکیل شده است، بخش اول بیشتر شامل پیش پردازش صفحات وب و استخراج کلمات کلیدی و تشکیل بردار کلمات کلیدی برای هر یک از صفحات وب است و بخش دوم پردازش پرس و جوی کاربر و تبدیل آن به یک بردار کلمات کلیدی است. برای بررسی میزان شباهت معنایی کلمات پرس و جو کاربر و متن صفحات وب از دیکشنری WordNet استفاده شده است. در نهایت در روش پیشنهادی از روش K نزدیک ترین همسایه برای رتبه بندی و طبقه بندی صفحات و محاسبه فاصله کلمات پرس و جو و کلمات کلیدی استخراج شده از هر صفحه وب استفاده شد. برای ارزیابی الگوریتم پیشنهادی از مجموعه داده با 250 نمونه صفحه وب استفاده شد که نتایج نشان می دهد الگویتم پیشنهادی در و پرس و جو کلمات مرتبط با میانگین 81.6 درصد و در پرس و جو یک جمله با میانگین 71.20 و پرس و جو خود کلمات کلیدی با میانگین 91 درصد صحیح توانسته صفحات وب را براساس ارتباط معنایی رتبه بندی کند.

کلمات کلیدی:
موتور جستجو، وب معنایی، وب کاوی، دیکشنری K، WordNet نزدیک ترین همسایه

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/772509/