CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

طبقه بندی متون اخبار فارسی با الگوریتم کا-نزدیک ترین همسایگی Knn

عنوان مقاله: طبقه بندی متون اخبار فارسی با الگوریتم کا-نزدیک ترین همسایگی Knn
شناسه ملی مقاله: ICTBC06_048
منتشر شده در ششمین همایش بین المللی مهندسی فناوری اطلاعات کامپیوتر و مخابرات ایران در سال 1401
مشخصات نویسندگان مقاله:

هادی وظیفه آبان - دانشجوی کارشناسی ارشد دانشگاه جامع امام حسین (ع)
حامد مظفری - دانشجوی کارشناسی ارشد دانشگاه جامع امام حسین (ع)

خلاصه مقاله:
برای دسته بندی متن از یادگیری و پردازش زبان طبیعی به طور گسترده ای استفاده می شود. به طور کلی هدف یک دسته بند متن، دسته بندی سندها در قالب تعداد مشخصی از دسته های از پیش تعیین شده می باشد. هر سند می تواند در یک یاچند دسته قرار بگیرد. در این تحقیق اسناد یک پایگاه خبری مورد بررسی و به این سوال پاسخ داده می شود کهاین سند در کدام یک از دسته های خبری قرار می گیرد. روش پیشنهادی با در نظر داشتن ساختار کلمات فارسی، بردار ویژگی متون فارسی و الگوریتم knn اسناد پایگاه خبری را دسته بندی می کند. در این تحقیق مقادیر مختلف در بازه ۱ تا ۹ برای k آزمایش شد و در نهایت برای k بهینه، مقدار ۹ بدست آمد و اسناد در دسته های مجزا از هم طبقه بندی شدند. نتایج بدست آمده نشان می دهد که روش پیشنهادی این تحقیق دارای دقت ۷۷ درصدی در دسته بندی اسناد خبری می باشد.

کلمات کلیدی:
دسته بندی متون فارسی، k- نزدیک ترین همسایگی، الگوریتم knn، پردازش زبان طبیعی، الگوریتم یادگیری ماشین

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1607320/