سیویلیکا را در شبکه های اجتماعی دنبال نمایید.

انتخاب ویژگی برای شناسایی نویسنده در متون کوتاه برخط فارسی

Publish Year: 1400
Type: Journal paper
Language: Persian
View: 105

This Paper With 23 Page And PDF Format Ready To Download

Export:

Link to this Paper:

Document National Code:

JR_AICTI-13-47_004

Index date: 20 December 2023

انتخاب ویژگی برای شناسایی نویسنده در متون کوتاه برخط فارسی abstract

رشد فزایندهی استفاده از رسانه های اجتماعی و ارتباطات برخط به منظور بیان نظرات، تبادل عقاید و همچنین گسترش استفادهی کاربران فارسی زبان از این ابزارها باعث افزایش متون فارسی در وب شده است. این رشد چشمگیر در کنار سوءاستفادههای ناشی از ناشناس بودن نویسندهی نوشتهها نیاز به سامانهی خودکار شناسایی نویسنده در این زبان را بیش از پیش آشکار می سازد. هدف از این پژوهش، بررسی ویژگی های موثر در شناسایی نویسندگان نظرات فارسی تولید شده توسط خریداران گوشی و همچنین ارزیابی روش های نظارتی و غیرنظارتی می باشد. عواملی که در این پژوهش بررسی میشود شامل ویژگی های لغوی، نگارشی، معنایی، ساختاری، دستوری، مختص متن و مختص شبکه های اجتماعی است. پس از استخراج ویژگی های مذکور، انتخاب ویژگی های برتر توسط چهار الگوریتم همبستگی ویژگی، نسبت بهره، OneR و تحلیل اجزای اصلی آزمایش میشود. در ادامه از الگوریتمهای K-means، EM و خوشهبندی مبتنی بر چگالی برای خوشه بندی و الگوریتمهای شبکهی بیز، جنگل تصادفی و Bagging برای دستهبندی استفاده خواهد شد. ارزیابی الگوریتم های فوق بر روی نظرات فارسی مربوط به خریداران گوشی های سامسونگ نشان میدهد که بهترین تشخیص در بین الگوریتمهای خوشهبندی با دقت ۱۶/۵۹% مربوط به الگوریتم EM روی ۱۵ ویژگی برتر انتخابی توسطOneR است درحالی که الگوریتم جنگل تصادفی به همراه نسبت بهره برای ۹۰ ویژگی با دقت ۵۷/۷۹% بهترین کارایی را در بین الگوریتمهای دستهبندی دارد. همچنین مقایسه ی ویژگی ها نشان داد که ویژگی های نگارشی بیشترین تاثیر را در شناسایی نویسندهی متون کوتاه داشته و پس از آن به ترتیب ویژگی های لغوی ، مختص متن، مختص شبکه های اجتماعی، ساختاری، دستوری و معنایی قرار گرفتند.

انتخاب ویژگی برای شناسایی نویسنده در متون کوتاه برخط فارسی Keywords:

تحلیل متن , تحلیل سبک , استخراج ویژگی , انتخاب ویژگی و شناسایی نویسنده.

انتخاب ویژگی برای شناسایی نویسنده در متون کوتاه برخط فارسی authors

امید روزمند

استادیار، گروه مهندسی کامپیوتر، پردیس شهرضا، دانشگاه اصفهان