CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

یک روش ترکیبی و معنایی انتخاب ویژگی جهت بهبود کارایی طبقه بندی داده های متنی نامتوازن فارسی

عنوان مقاله: یک روش ترکیبی و معنایی انتخاب ویژگی جهت بهبود کارایی طبقه بندی داده های متنی نامتوازن فارسی
شناسه ملی مقاله: ICTI02_117
منتشر شده در دومین کنفرانس ملی فناوری های نوین در مهندسی برق و کامپیوتر در سال 1397
مشخصات نویسندگان مقاله:

زینب علی بابا - پژوهشگر، گروه مهندسی فناوری اطلاعات، موسسه غیرانتفاعی تعالی
بهروز مینایی بیدگلی - استاد راهنما، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران
جعفر پورامینی - استاد مشاور، گروه مهندسی فناوری اطلاعات، دانشکده فنی مهندسی، دانشگاه قم

خلاصه مقاله:
انتخاب زیرمجموعه ای از ویژگی ها، یکی از مراحل ضروری در پیش پردازش متون قبل از اعمال الگوریتم های طبقه بندی است. اگرچه روش های کشف دانش موجود و فن های مهندسی داده موفقیت بزرگی در بسیاری از برنامه های کاربردی نشان داده اند، اما مشکل یادگیری از داده های نامتوازن یک چالش است که توجه دانشگاه و صنعت را به خود جلب کرده است. در این تحقیق یک روش دو مرحله ای برای انتخاب ویژگی داده های متنی نامتوازن پیشنهاد شده است. در مرحله اول، روشی معنایی برای کاهش ویژگی ها استفاده می شود و در مرحله دوم یک روش ترکیبی پالایه و پوشانه پیشنهاد شده است. در این تحقیق از پردازش های معنایی خاص متن و ترکیب روشهای پالایه و پوشانه برای انتخاب ویژگی بر کارایی طبقه بندهای درخت تصمیم k نزدیکترین همسایه و ماشین بردار پشتیبان برای طبقه بندی متون نامتوازن فارسی استفاده شده است. نتایج نشان می دهد که روش پیشنهادی انتخاب ویژگی روی پیکره همشهری، علیرغم کاهش تعداد ویژگی ها، باعث بهبود نتایج طبقه بندی شده است. نتایج بدست آمده در مرحله اول انتخاب ویژگی و پس از اعمال پردازش های معنایی بطور میانگین به میزان 21/125 بهبود داشته است. همچنین بهبود نتایج بدست آمده در مرحله دوم نسبت به مرحله اول انتخاب ویژگی 1/13 است.

کلمات کلیدی:
الگوریتم های طبقه بندی متون، داده های نامتوازن، انتخاب ویژگی DFS، انتخاب ویژگی ترکیبی، روش پالایه و پوشانه

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/859408/