CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارایه یک روش ترکیبی برای خوشه بندی اسناد وب با استفاده از دستهبندی کلمات کلیدی و الگوریتمK-means

عنوان مقاله: ارایه یک روش ترکیبی برای خوشه بندی اسناد وب با استفاده از دستهبندی کلمات کلیدی و الگوریتمK-means
شناسه ملی مقاله: ICTI01_011
منتشر شده در اولین کنفرانس ملی فناوری های نوین در مهندسی برق و کامپیوتر در سال 1395
مشخصات نویسندگان مقاله:

امید زیارتی - دانشجوی دکتری تخصصی، گروه کامپیوتر، واحد یاسوج، دانشگاه آزاد اسلامی، یاسوج، ایران
صمد نجاتیان - عضو هیات علمی، گروه برق، واحد یاسوج، دانشگاه آزاد اسلامی، یاسوج، ایران

خلاصه مقاله:
امروزه اینترنت یکی از مهمترین منابع اطلاعاتی است که کاربران فراوانی را به خود اختصاص داده است. این کاربران، محققان و پژوهشگران و حتی عامهی مردمرا تحت پوششقرار میدهد. حجم وب بر اساس تحقیقات انجام شده، فراتر از بیلیونها صفحه است و هر لحظه میلیونها صفحه به آن افزوده میشود. ناهمگنیاسناد وب به حدی است که آشفتگی حاصل از آن غیر قابل کنترل است. محققان محیط وب این نیاز را احساس کردهاند که اگر بازیابی و سازماندهی اسناد وب هر سند وزنی داده میشود و در پایان با استفاده از روش ،K-Means اسناد را خوشهبندی میکنیم. بعد از شبیهسازی الگوریتم پیشنهادی و مقایسه ی آن با دیگر الگوریتمها، ملاحظه شد که دقت و کارایی آن نسبت به الگوریتمهای مشابه بهتر است.صورت نپذیرد، اطلاعات موجود در وب عملا غیر قابل استفاده است. لذا محققان، ایدهی ردهبندی و خوشهبندی خودکار اسناد وب را مطرح کردند، که بر اساسآن اسناد وب در یک نظام ساختارمند، سازماندهی میشوند. در این تحقیق یک روش جدید شاخصگذاری صفحات وب براساس محتوا، به منظور خوشهبندی درراستای افزایش سازماندهی اسناد وب ارایه شده است. این الگوریتم در ابتدا پارامترهای مطلوب اسناد وب را انتخاب کرده، سپس با توجه به تکنیک ارایه شده، به

کلمات کلیدی:
اسناد وب، خوشهبندی، دادهکاوی، دستهبندی K-means

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/622875/