CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

طبقه بندی خودکار متون با استفاده از خوشه بندی فازی بهبود یافته و استخراج ویژگی های مبتنی بر الگوریتم ژنتیک

عنوان مقاله: طبقه بندی خودکار متون با استفاده از خوشه بندی فازی بهبود یافته و استخراج ویژگی های مبتنی بر الگوریتم ژنتیک
شناسه ملی مقاله: ACCSI22_045
منتشر شده در بیست و دومین کنفرانس ملی سالانه انجمن کامپیوترایران در سال 1395
مشخصات نویسندگان مقاله:

سهیلا رمضانی پور - دانشجوی کارشناسی ارشد، گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه شهید چمران اهواز، اهواز
مرجان نادران طحان - استادیار گروه کامپیوتر، دانشکده مهندسی، دانشگاه شهید چمران اهواز، اهواز
سعیدالله مرتضوی - دانشیار گروه برق و کنترل، دانشکده مهندسی، دانشگاه شهید چمران اهواز، اهواز

خلاصه مقاله:
با ورود به عصر اطلاع رسانی دیجیتال و رشد سریع اینترنت، رفته رفته اطلاعات از فرم کاغذی به الکترونیکی تبدیل شدند. این امر برای ما امکان جستجوی کتاب ها و اخبار را به صورت الکترونیکی فراهم می کند. بنابراین نیاز به سیستم هایی برای بازیابی اطلاعات احساس می شود. به این منظور سیستمی جهت طبقه بندی متون با استفاده از خوشه بندی فازی با بردار ویژگی وزن دارپیشنهاد می-شود. در روش پیشنهادی ابتدا در مرحله ی پیش پردازش، برای کاهش ابعاد از الگوریتم ژنتیک و سپس TF-IDF (Term Frequency - Inverse Document Frequency) استفاده شده و ویژگی هایی با قدرت تفکیک بالا انتخاب می شوند. سپس ماتریس وزنی متناسب با واریانس هر ویژگی، محاسبه شده و همگام با پیشرفت الگوریتم خوشه بندی تغییر می کند. بنابراین ویژگی های با واریانس بیشتر، تاثیر بیشتری در فرایند خوشه بندی خواهند داشت. در روش خوشه بندی، فاصله اقلیدسی به کار رفته، با این تفاوت که برای ابعاد ارزش یکسانی در نظر گرفته نمی شود. در نهایت کارایی سیستم پیشنهادی در خوشه بندی گروه های خبری مجموعه داده رویترز بررسی شده و نتایج نشان دهنده ی کارایی بالاتر این روش نسبت به خوشه بندی معمولی از نظر چند معیار ارزیابی معروف خوشه-بندی، است.

کلمات کلیدی:
خوشه بندی متون، بردار ویژگی وزن دار، الگوریتم ژنتیک، TF – IDF، کاهش بعد

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/635588/