تشخیص خودکار جنسیت نویسنده نظرات نوشته شده به زبان فارسی

Publish Year: 1398
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 601

This Paper With 7 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

UTCONF03_128

تاریخ نمایه سازی: 24 شهریور 1398

Abstract:

استفاده زیاد از اینترنت در بین مردم باعث تبادل حجم وسیعی از نظرات در فضای مجازی شده است. در اغلب شبکه های اینترنتی کاربران به صورت گمنام نظرات خود را ثبت می کنند. حال آنکاه فهمیدن ویژگی نویسنده مانند سن و جنسیت می تواند در تحلیل بهتر نظر نویسنده و یا شناسایی نظر اقشار مختلف جامعه به تفکیک کاربردهای بسیاری داشته باشد. در این پژوهش مسئله شناسایی خودکار جنسیت از روی متن نظرات نوشتهشده به زبان فارسی در سایت مایکت بررسی شده است. روش های کیسه کلمات و n- گرام، بررسی شدند. برای دسته بندی نظرات از الگوریتم های بیز ساده، شبکه های عصبی پرسپترون چندلایه استفاده شد. نشان دادیماستفاده از علائم نگارشی در کنار رویکرد ترکیبی n- گرام سب افزایش صحت جهت پیش بینی نویسنده می شود. بالاترین صحت به دست آمده برای تشتیص جنسیت استفاده از علائم نگارشی به همراه رویکرد ترکیبییک گرام، دوگرام و سه گرام و الگوریتم شبکه عصبی به میزان 85.7 درصد می باشد.

Keywords:

تشتیص جنسیت , کیسه کلمات , n- گرام , بیز ساده , شبکه عصبی پرسپترون چندلایه

Authors

سیامک حکمتیان زاده پور

کارشناسی ارشد مهندسی فناوری اطلاعات دانشگاه قم

امیر جلالی بیدگلی

استادیار دانشگاه قم