مقایسه دستهبندی متون فارسی با استفاده از الگوریتمهای kNN و fkNN وانتخاب ویژگیها بر اساس بهره اطلاعات و فرکانس سند
Publish place: 13th Annual Conference of Computer Society of Iran
Publish Year: 1386
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 3,661
متن کامل این Paper منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل Paper (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ACCSI13_192
تاریخ نمایه سازی: 25 آبان 1386
Abstract:
در این مقاله به بررسی دستهبندی متن فارسی با استفاده از الگوریتمهایfkNN و kNN خواهیم پرداخت. آزمایشها بر روی ششصد سند متنی که به شش دسته تقسیم میشوند، انجام شدهاند.
هدف اساسی این بررسی، مقایسه دو الگوریتم مذکور برای دستهبندی متن فارسی و ترکیب آنها با روشهای انتخاب ویژگی بهره اطلاعات IG و فرکانس سندDF است. از این دو روش برای انتخاب ویژگیها و کاستن از ابعاد فضای ویژگیها استفاده شده است. نتایج نشان میدهند که دقت الگوریتمfkNN از الگوریتم kNN بهتر است. همچنین دقت دستهبندی با استفاده از ترکیبIG و fkNN از سایر ترکیبها بیشتر میباشد. دقت دسته بندی در بهترین حالت به 0/804دقت میکرو- 1F و 0/755دقت ماکرو - F1 رسید . همچنین میتوان نتیجه گرفت کهIG بیشتر از DF دقت را بالا میبرد . در بین
دستههای موجود بهترین دستهبندی در مورد بزرگترین دسته یعنی اسناد مربوط به دسته اقتصادی انجام گرفت. دقت دستهبندی برای این
Keywords:
دستهبندی متن , انتخاب ویژگی , دسته بند kNN , (K-Nearest Neighborمدل , (bag-of-words) BOW پیش پردازش متن
Authors
محمداحسان بصیری
گروه کامپیوتر دانشگاه اصفهان
شهلا نعمتی
دانشکده برق و کامپیوتر دانشگاه صنعتی اصفهان
ناصر قاسم آقایی
گروه کامپیوتر دانشگاه اصفهان
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :