CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

مقایسه دستهبندی متون فارسی با استفاده از الگوریتمهای kNN و fkNN وانتخاب ویژگیها بر اساس بهره اطلاعات و فرکانس سند

عنوان مقاله: مقایسه دستهبندی متون فارسی با استفاده از الگوریتمهای kNN و fkNN وانتخاب ویژگیها بر اساس بهره اطلاعات و فرکانس سند
شناسه ملی مقاله: ACCSI13_192
منتشر شده در سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران در سال 1386
مشخصات نویسندگان مقاله:

محمداحسان بصیری - گروه کامپیوتر دانشگاه اصفهان
شهلا نعمتی - دانشکده برق و کامپیوتر دانشگاه صنعتی اصفهان
ناصر قاسم آقایی - گروه کامپیوتر دانشگاه اصفهان

خلاصه مقاله:
در این مقاله به بررسی دستهبندی متن فارسی با استفاده از الگوریتمهایfkNN و kNN خواهیم پرداخت. آزمایشها بر روی ششصد سند متنی که به شش دسته تقسیم میشوند، انجام شدهاند. هدف اساسی این بررسی، مقایسه دو الگوریتم مذکور برای دستهبندی متن فارسی و ترکیب آنها با روشهای انتخاب ویژگی بهره اطلاعات IG و فرکانس سندDF است. از این دو روش برای انتخاب ویژگیها و کاستن از ابعاد فضای ویژگیها استفاده شده است. نتایج نشان میدهند که دقت الگوریتمfkNN از الگوریتم kNN بهتر است. همچنین دقت دستهبندی با استفاده از ترکیبIG و fkNN از سایر ترکیبها بیشتر میباشد. دقت دسته بندی در بهترین حالت به 0/804دقت میکرو- 1F و 0/755دقت ماکرو - F1 رسید . همچنین میتوان نتیجه گرفت کهIG بیشتر از DF دقت را بالا میبرد . در بین دستههای موجود بهترین دستهبندی در مورد بزرگترین دسته یعنی اسناد مربوط به دسته اقتصادی انجام گرفت. دقت دستهبندی برای این

کلمات کلیدی:
دستهبندی متن، انتخاب ویژگی، دسته بند kNN،(K-Nearest Neighborمدل ،(bag-of-words) BOW پیش پردازش متن

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/41786/