انتخاب ویژگی برای شناسایی نویسنده متون کوتاه آنلاین

Publish Year: 1397
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 697

This Paper With 9 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

ECTCONF01_070

تاریخ نمایه سازی: 13 مهر 1398

Abstract:

رشد فزاینده استفاده از رسانه های اجتماعی و ارتباطات برخط به منظور بیان نظرات و تبادل عقاید و همچنین گسترش استفاده کاربران فارسی زبان از چنین ابزارهایی باعث افزایش متون فارسی در وب شده است. این رشد چشمگیر نیاز به سیستم خودکار شناسایی نویسنده در این زبان را بیش از پیش آشکار میسازد. مطالعات پیشین، ویژگیهای سنتی را به همراه روشهای خوشهبندی یا دستهبندی با استفاده از استراتژی های انتخاب ویژگی به کار گرفته اند تا براساس سبک نگارش افراد، به شناسایی نویسنده متون بپردازند. در این پژوهش، تمرکز بر روی بررسی فاکتورهای موثر در شناسایی نویسندگان نظرات فارسی تولید شده توسط کاربران محصولات سامسونگ، میباشد. فاکتورهای مورد بررسی شامل ویژگیهای لغوی، نحوی، معنایی، ساختاری، دستوری، مختص متن و مختص شبکه های اجتماعی بوده است. پس از استخراج ویژگیهای مذکور، انتخاب ویژگیهای برتر و خوشه بندی، ارزیابی الگوریتم های فوق بر روی 1000 نظر مربوط به 9 نویسنده نشان داد که بهترین تشخیص مربوط به الگوریتم خوشهبندی EM روی 15ویژگی برتر انتخابی توسط OneR بوده و این الگوریتم در مقایسه با سایر الگوریتم ها، دارای عملکرد بهتری میباشد. همچنین مقایسه ویژگیها نشان داد که ویژگیهای لغوی بیشترین تاثیر را در شناسایی نویسنده متون کوتاه داشته و پس از آن به ترتیب ویژگیهای نحوی، مختص متن، ساختاری و دستوری قرار گرفتند.

Keywords:

تحلیل متن , تحلیل سبک , استخراج ویژگی , انتخاب ویژگی و شناسایی نویسنده.

Authors

سمیه عارفی

دانشجوی کارشناسی ارشد، موسسه آموزش عالی صفاهان، اصفهان

محمداحسان بصیری

گروه مهندسی کامپیوتر، دانشگاه شهرکرد،

امید روزمند

دانشکده فنی و مهندسی، مرکز آموزش عالی شهرضا