CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

طبقه بندی خودکار متون فارسی

عنوان مقاله: طبقه بندی خودکار متون فارسی
شناسه ملی مقاله: ACCSI13_180
منتشر شده در سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران در سال 1386
مشخصات نویسندگان مقاله:

بهاره بینا - قطب علمی کنترل و پردازش هوشمند، پردیس دانشکدههای فنی، دانشکده برق و ک
مسعود رهگذر - قطب علمی کنترل و پردازش هوشمند، پردیس دانشکدههای فنی، دانشکده برق و ک
آذین ده موبد - قطب علمی کنترل و پردازش هوشمند، پردیس دانشکدههای فنی، دانشکده برق و ک

خلاصه مقاله:
طبقه بندی خودکار متون از موارد کاربرد الگوریتمهای یادگیری ماشینی در مبحث بازیابی اطلاعات میباشد. در این مقاله نیز نتایج طبقه بندی خودکار متون فارسی با استفاده از معیارهای شاخصگذاری3 -gram, ٤-gram و کلمه ارائه شدهاست . در ضمن نتایج در دو حالت با حذفstop word و بدون حذف stop word های متون نیز مقایسه شدهاند. به منظور دستهبندی متون از الگوریتم یادگیری ماشینی نزدیکترینk همسایه همسایه استفاده شده است و در نهایت به منظور ارزیابی و مقایسه نتایج، دو معیار دقت و یادآوری برای هر روش شاخصگذاری نیز محاسبه شدهاند. نتایج بدست آمده نشان داد که بهترین روش شاخصگذاری متون فارسیgram میباشد و حذف stop word ها نتایج را اندکی بهبود میبخشد.

کلمات کلیدی:
طبقه بندی متن فارسی، شاخص گذاری n-gram ، الگوریتم یادگیری ماشینی، نزدیکترینk همسایه

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/41774/