مقایسه دستهبندی متون فارسی با استفاده از الگوریتمهای kNN و fkNN وانتخاب ویژگیها بر اساس بهره اطلاعات و فرکانس سند
عنوان مقاله: مقایسه دستهبندی متون فارسی با استفاده از الگوریتمهای kNN و fkNN وانتخاب ویژگیها بر اساس بهره اطلاعات و فرکانس سند
شناسه ملی مقاله: ACCSI13_192
منتشر شده در سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران در سال 1386
شناسه ملی مقاله: ACCSI13_192
منتشر شده در سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران در سال 1386
مشخصات نویسندگان مقاله:
محمداحسان بصیری - گروه کامپیوتر دانشگاه اصفهان
شهلا نعمتی - دانشکده برق و کامپیوتر دانشگاه صنعتی اصفهان
ناصر قاسم آقایی - گروه کامپیوتر دانشگاه اصفهان
خلاصه مقاله:
محمداحسان بصیری - گروه کامپیوتر دانشگاه اصفهان
شهلا نعمتی - دانشکده برق و کامپیوتر دانشگاه صنعتی اصفهان
ناصر قاسم آقایی - گروه کامپیوتر دانشگاه اصفهان
در این مقاله به بررسی دستهبندی متن فارسی با استفاده از الگوریتمهایfkNN و kNN خواهیم پرداخت. آزمایشها بر روی ششصد سند متنی که به شش دسته تقسیم میشوند، انجام شدهاند.
هدف اساسی این بررسی، مقایسه دو الگوریتم مذکور برای دستهبندی متن فارسی و ترکیب آنها با روشهای انتخاب ویژگی بهره اطلاعات IG و فرکانس سندDF است. از این دو روش برای انتخاب ویژگیها و کاستن از ابعاد فضای ویژگیها استفاده شده است. نتایج نشان میدهند که دقت الگوریتمfkNN از الگوریتم kNN بهتر است. همچنین دقت دستهبندی با استفاده از ترکیبIG و fkNN از سایر ترکیبها بیشتر میباشد. دقت دسته بندی در بهترین حالت به 0/804دقت میکرو- 1F و 0/755دقت ماکرو - F1 رسید . همچنین میتوان نتیجه گرفت کهIG بیشتر از DF دقت را بالا میبرد . در بین
دستههای موجود بهترین دستهبندی در مورد بزرگترین دسته یعنی اسناد مربوط به دسته اقتصادی انجام گرفت. دقت دستهبندی برای این
کلمات کلیدی: دستهبندی متن، انتخاب ویژگی، دسته بند kNN،(K-Nearest Neighborمدل ،(bag-of-words) BOW پیش پردازش متن
صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/41786/