ارزیابی روش های یادگیری ماشین در دسته بندی متون فارسی با وزن دهی ویژگی ها و استخراج داده مناسب

Publish Year: 1397
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 655

This Paper With 32 Page And PDF and WORD Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

ECICONFE03_009

تاریخ نمایه سازی: 3 تیر 1398

Abstract:

با توجه به اینکه اطلاعات اغلب به صورت متن ذخیره می شوند،به همین دلیل متن کاوی که به کشف دانش از داخل متون می پردازد پتانسیل زیادی برای استفاده در شرکت ها و سازمان ها برای استخراج دانش در متون دارد. هدف این پژوهش، ارزیابی روش های یادگیری ماشین در دسته بندی متون فارسی با وزن دهی ویژگی ها و استخراج داده مناسب می باشد ،در این پژوهش، ابتدا برنامه ای برای دسته بندی متون فارسی با روش آماری به صورت ابتکاری و برنامه دیگری برای تهیه مجموعه داده متون فارسی پیاده سازی شد و از متون آموزشی و آزمایشی استاندارد، مجموعه دادگان مورد نظر استخراج گردید. برای دسته بندی متون فارسی، از روش های K-نزدیکترین همسایه، شبکه های عصبی پرسپترون، LVQ، SOM، PatternNet ، ماشین بردار پشتیبان و روش آماری، استفاده شد. داده های آموزشی و آزمون این پژوهش، از اخبار روزانه فارسی استخراج شد و سعی شد متون مورد نظر در حوزه های نه گانه اقتصادی، سیاسی، حوادث، هنر، ورزشی، ادبی، پزشکی، تاریخی و مذهبی دسته بندی شوند. در نهایت نتایج دسته بندی نشان داد از بین هفت روش ذکر شده، آماری، شبکه عصبی پرسپترون، LVQ، PatternNet، SOM، الگوریتم K-نزدیک ترین همسایه و ماشین بردار پشتیبان، روش آماری ابتکاری، الگوریتم روش K-نزدیک ترین همسایه و شبکه عصبی PatternNet، با درصد موفقیت 92،93و 96، مناسب ترین روش ها برای کار دسته بندی متون فارسی می باشند. نتایج این پژوهش در مقایسه با سایر پژوهش های مرتبط، نشان می دهد که نرم افزار استخراج مجموعه داده برای این کار مناسب ارزیابی شده و روش های آماری، الگوریتم K-نزدیک ترین همسایه و PatternNet کارایی خوبی در دسته بندی متون فارسی دارند

Keywords:

دسته بندی متون فارسی , متن کاوی , روش های یادگیری ماشین

Authors

حکیمه چمانی ریک

گروه کامپیوتر ،دانشگاه آزاد اسلامی واحد بندر عباس،هرمزگان،ایران

محمد شجاعی

گروه کامپیوتر ،دانشگاه آزاد اسلامی واحد بندر عباس،هرمزگان،ایران