بهبود الگوریتم خوشه بندی جهت تحلیل احساس در متون فارسی

Publish Year: 1396
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 878

This Paper With 12 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

COMCONF05_133

تاریخ نمایه سازی: 21 اردیبهشت 1397

Abstract:

امروزه با رشد سریع اینترنت و در دسترس بودن برای همه مردم دنیا، حجیم عظیمی از اطلاعات فراهم آمده است. اغلب این داده ها به صورت متنی هستند. تحلیل احساس شامل استخراج عقاید، احساسات، ارزیابی های کاربران از داده های متنی میباشد. تاکنون روشهایی به منظور دسته بندی متون به دو گروه داده های متنی حاوی نظرات مثبت و گروه حاوی نظرات منفی ارایه شده است. اغلب این روشها از یادگیری ماشین مبتنی بر ناظر بهره میبرند درحالیکه در بسیاری از موارد، ممکن است داده های لازم برای آموزش ماشین در دسترس نباشند. در این پژوهش، به تحلیل احساس درون متون پرداخته ایم. روش ارایه شده در این پژوهش از الگوریتم های خوشه بندی که در واقع همان روشهای یادگیری ماشین بدون ناظر میباشند، استفاده شده است. در این پژوهش هر متن را با استفاده از خصیصه های word -1 و word-2 مدل کردهایم. با توجه به اینکه داده های متنی شامل حجم زیادی از خصیصه ها هستند، به منظور کاهش تعداد خصیصهها ابتدا ریشه یابی انجام شده است، سپس کلمات متوقف کننده حذف شده اند و در ادامه خصیصههایی که فرکانس وقوع آنها از یک آستانه کمتر است را حذف کردهایم. با بکارگیری الگوریتم LDA، عناوین مهم که در دو نوع متون مثبت و منفی مجموعه خصیصهها که دارای اهمیت بیشتری هستند را استخراج کرده ایم و سپس با الگوریتم انتخاب خصیصه IGR فیلتر نهایی را روی خصیصه ها اعمال کردهایم. از چندین مرحله فیلتر خصیصه ها استفاده شده است که خصیصههای غیر سودمند خود چندین دسته خصیصههای غیر مرتبط، خصیصههای افزونه و خصیصههای نامتعادل میباشند. در نظر گرفتن چندین مرحله فیلترسازی خصیصهها روش مناسبی به منظور پالایش انواع مختلف خصیصه های غیر سودمند میباشد. در پایان با استفاده از الگوریتم EM خوشه بندی داده ها بر روی خوشه های مثبت و منفی انجام داده ایم. نتایج نشان میدهد روش پیشنهادی در این پژوهش نسبت به روشهای پیشین بهبود قابل توجهی ارایه داده است.

Authors

شیما هاشم زاده

گروه کامپیوتر، واحد بویین زهرا، دانشگاه آزاد اسلامی، بویین زهرا، ایران

مهدی ملامطلبی

گروه کامپیوتر، واحد بویین زهرا، دانشگاه آزاد اسلامی، بویین زهرا، ایران

حسن نادری

گروه مهندسی کامپیوتر، دانشگاه علم و صنعت، تهران، ایران