تشخیص خودکار جنسیت نویسنده نظرات نوشته شده به زبان فارسی
Publish place: National Conference on Knowledge and Technology of Electrical Engineering, Computer and Mechanics of Iran
Publish Year: 1398
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 601
This Paper With 7 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
این Paper در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
UTCONF03_128
تاریخ نمایه سازی: 24 شهریور 1398
Abstract:
استفاده زیاد از اینترنت در بین مردم باعث تبادل حجم وسیعی از نظرات در فضای مجازی شده است. در اغلب شبکه های اینترنتی کاربران به صورت گمنام نظرات خود را ثبت می کنند. حال آنکاه فهمیدن ویژگی نویسنده مانند سن و جنسیت می تواند در تحلیل بهتر نظر نویسنده و یا شناسایی نظر اقشار مختلف جامعه به تفکیک کاربردهای بسیاری داشته باشد. در این پژوهش مسئله شناسایی خودکار جنسیت از روی متن نظرات نوشتهشده به زبان فارسی در سایت مایکت بررسی شده است. روش های کیسه کلمات و n- گرام، بررسی شدند. برای دسته بندی نظرات از الگوریتم های بیز ساده، شبکه های عصبی پرسپترون چندلایه استفاده شد. نشان دادیماستفاده از علائم نگارشی در کنار رویکرد ترکیبی n- گرام سب افزایش صحت جهت پیش بینی نویسنده می شود. بالاترین صحت به دست آمده برای تشتیص جنسیت استفاده از علائم نگارشی به همراه رویکرد ترکیبییک گرام، دوگرام و سه گرام و الگوریتم شبکه عصبی به میزان 85.7 درصد می باشد.
Keywords:
Authors
سیامک حکمتیان زاده پور
کارشناسی ارشد مهندسی فناوری اطلاعات دانشگاه قم
امیر جلالی بیدگلی
استادیار دانشگاه قم