CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

الگوریتم خوشه بندی اسناد بر پایه الگوریتم K-MEANS بهبود یافته

عنوان مقاله: الگوریتم خوشه بندی اسناد بر پایه الگوریتم K-MEANS بهبود یافته
شناسه ملی مقاله: ISCEE16_233
منتشر شده در شانزدهمین کنفرانس دانشجویی مهندسی برق ایران در سال 1392
مشخصات نویسندگان مقاله:

محمدرضا بهشتی پور - دانشگاه صنعتی مالک اشتر
بهروز مینایی بیدگلی - دانشگاه علم و صنعت ایران
محمدحسین الهی منش - دانشگاه آزاد اسلامی واحد قزوین، قزوین
عباس غلامزاده مراغه - دانشگاه صنعتی مالک اشتر

خلاصه مقاله:
خوشه بندی یکی از مسائل مهم داده کاوی است که هدف آن گروه گروه کردن تعدادی از اشیاء به طوری است که اشیاء درون یک گروه به هم شباهت بیشتری داشته و اشیاء دو گروه مختلف نسبت به هم متفاوت باشند. در این مقاله به مسئله خوشه بندی اسناد پرداخته شده است. الگوریتم خوشه بندی به کاررفته بر اساس الگوریتم K-Means است. اعمال تغییراتی در این الگوریتم از جمله تعیین تعداد تکرار مرحله پالایش برحسب یک مقدار آستانه، اعمال تکنیک N-Gram و تکنیک های دیگر باعث افزایش درصد موفقیت الگوریتم، بیش از 12 درصد در مجموعه فارسی آزمایش شده و حدود 25 درصد در مجموعه انگلیسی آزمایش شده، شده است.

کلمات کلیدی:
الگوریتم K-Means، الگوریتم K-Means بهبود یافته، پردازش متن، خوشه بندی اسناد

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/265294/