CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارایه روشی نوین برای دسته بندی متن بر اساس مدلی ترکیبی از روش k نزدیکترین همسایگی و الگوریتم ژنتیک

عنوان مقاله: ارایه روشی نوین برای دسته بندی متن بر اساس مدلی ترکیبی از روش k نزدیکترین همسایگی و الگوریتم ژنتیک
شناسه ملی مقاله: ICCSE01_039
منتشر شده در کنفرانس بین المللی مهندسی و علوم کامپیوتر در سال 1395
مشخصات نویسندگان مقاله:

علی رضا مشکوه روحانی - دانشجوی کارشناسی ارشد کامپیوتر نرم افزار موسسه آموزش عالی عقیق شاهین شهر
ایوب باقری - استادیار گروه مهندسی کامپیوتر دانشکده مهندسی برق و کامپیوتر دانشگاه کاشان
عاطفه جعفری نعیمی - هنر آموز آموزش و پرورش شاهین شهر

خلاصه مقاله:
در الگوریتم ژنتیک استفاده شده، فقط کلمات با بیشترین وزن بررسی نمیشوند بلکه از ترکیب بالاترین وزن ها در متن یک وزنترکیبی بهینه ارایه می کند که می تواند نوع سند (پزشکی، ورزشی، سیاسی و غیره) را مشخص کند. برای تکمیل کار الگوریتم ژنتیکخروجی آن را به الگوریتم KNN داده تا با آزمایش و آموزش بتواند طی گام های مختلفی متن های وارد شده را دسته بندی کرده و خروجی مطلوبی را به کاربر ارایه دهد. بدین منظور مساله یافتن وزن مناسب را به یک مساله بهینه سازی تبدیل کرده و به کمکالگوریتم ژنتیک به حل آن پرداخته میشود. تعریف این مساله بهینه سازی بدین صورت است که در پی یافتن تابع وزنی برایهمسایه ها با توجه به وزن نسبی آنها خواهیم بود که دقت دسته بندی را بیشینه نماید.روش پیشنهادی با ایجاد ماتریس وزن برای داده ها (هر متن یک ماتریس 1*N) نتایج بهتری را از نظر دقت و سرعت دسته بندی متنها نسبت به روشهای قبلی برای کاربر به ارمغان می آورد.تشکیل ماتریس وزن برای کلمات هر سند و تلفیق خاص الگوریتم ها باعث شده تا از ترکیب بالاترین وزنهای کلمات، یک وزن بهینهکه هم سرعت و هم دقت دستهبندی در آن لحاظ شده، پدید آید که تا 95 % از صحت کارایی نسبت به همین الگوریتم ها بدون ترکیببرخوردار می باشد.

کلمات کلیدی:
داده کاوی، دسته بندی متون، الگوریتم K-NN، الگوریتم ژنتیک

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/648192/