ارائه ی یک مدل جهت دسته بندی متون فارسی با استفاده از ترکیب روش های دسته بندی
Publish Year: 1399
نوع سند: مقاله ژورنالی
زبان: Persian
View: 262
This Paper With 12 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_JCEJ-10-38_006
تاریخ نمایه سازی: 19 تیر 1400
Abstract:
برای دستهبندی متن از تکنیکهای استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود به طور کلی هدف یک دسته بند متون، دستهبندی اسناد در قالب تعداد معینی از دستههای از پیش تعیین شده میباشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سوال پاسخ داده خواهد شد که این سند در کدام یک از دستهها قرار می گیرد. این موضوع می تواند در قالب یک یادگیری خودکار قرار گیرد تا با استفاده از آن بتوان هر سند را به طور خودکار به دستهای نسبت داد . در این مقاله، بعد از انتخاب مجموعه داده و پاکسازی متون به کمک روش نرمال شده فرکانس کلمه- معکوس فرکانس سند (norm TF-IDF) به ویژگیها وزن داده میشود و در طی دو مرحله ویژگیها با استفاده از روشهای فرکانس سند (DF) و مربع چی(SChi) انتخاب میشوند و بعد با استفاده از روش تحلیل مولفه اصلی (PCA) ابعاد ویژگیها کاهش داده میشود و در مرحله بعد با استفاده از ترکیب ۲۱ ماشین بردار پشتیبان (SVM) به پیاده سازی مدل پیشنهادی میپردازیم و در نهایت صحت مدل را با روش اعتبار سنجی ۱۰ مرحله ای ارزیابی میکنیم نتایج تجربی نشان میدهد که این مدل میتواند عمل دستهبندی متون را برای هفت دسته با صحت ۹۱.۸۶ انجام دهد که نسبت به کارهای پیشین انجام گرفته صحت بالاتری دارد.
Keywords:
Authors
ایمان جمالی
گروه کامپیوتر، دانشگاه آزاد اسلامی واحد علوم و تحقیقات بوشهر، بوشهر، ایران
سید جواد میرعابدینی
عضو هیئت علمی دانشگاه آزاد اسلامی واحد تهران
علی هارون آبادی
عضو هیئت علمی دانشگاه آزاد اسلامی، واحد تهران مرکز، گروه مهندسی کامپیوتر
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :