یک روش ترکیبی و معنایی انتخاب ویژگی جهت بهبود کارایی طبقه بندی داده های متنی نامتوازن فارسی

Publish Year: 1397
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 523

This Paper With 11 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

ICTI02_117

تاریخ نمایه سازی: 7 خرداد 1398

Abstract:

انتخاب زیرمجموعه ای از ویژگی ها، یکی از مراحل ضروری در پیش پردازش متون قبل از اعمال الگوریتم های طبقه بندی است. اگرچه روش های کشف دانش موجود و فن های مهندسی داده موفقیت بزرگی در بسیاری از برنامه های کاربردی نشان داده اند، اما مشکل یادگیری از داده های نامتوازن یک چالش است که توجه دانشگاه و صنعت را به خود جلب کرده است. در این تحقیق یک روش دو مرحله ای برای انتخاب ویژگی داده های متنی نامتوازن پیشنهاد شده است. در مرحله اول، روشی معنایی برای کاهش ویژگی ها استفاده می شود و در مرحله دوم یک روش ترکیبی پالایه و پوشانه پیشنهاد شده است. در این تحقیق از پردازش های معنایی خاص متن و ترکیب روشهای پالایه و پوشانه برای انتخاب ویژگی بر کارایی طبقه بندهای درخت تصمیم k نزدیکترین همسایه و ماشین بردار پشتیبان برای طبقه بندی متون نامتوازن فارسی استفاده شده است. نتایج نشان می دهد که روش پیشنهادی انتخاب ویژگی روی پیکره همشهری، علیرغم کاهش تعداد ویژگی ها، باعث بهبود نتایج طبقه بندی شده است. نتایج بدست آمده در مرحله اول انتخاب ویژگی و پس از اعمال پردازش های معنایی بطور میانگین به میزان 21/125 بهبود داشته است. همچنین بهبود نتایج بدست آمده در مرحله دوم نسبت به مرحله اول انتخاب ویژگی 1/13 است.

Keywords:

الگوریتم های طبقه بندی متون , داده های نامتوازن , انتخاب ویژگی DFS , انتخاب ویژگی ترکیبی , روش پالایه و پوشانه

Authors

زینب علی بابا

پژوهشگر، گروه مهندسی فناوری اطلاعات، موسسه غیرانتفاعی تعالی

بهروز مینایی بیدگلی

استاد راهنما، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران

جعفر پورامینی

استاد مشاور، گروه مهندسی فناوری اطلاعات، دانشکده فنی مهندسی، دانشگاه قم