CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

تشخیص نظرات هرز در زبان فارسی با استفاده از یادگیری عمیق

عنوان مقاله: تشخیص نظرات هرز در زبان فارسی با استفاده از یادگیری عمیق
شناسه ملی مقاله: CSICC27_038
منتشر شده در بیست و هفتمین کنفرانس بین المللی کامپیوتر انجمن کامپیوتر ایران در سال 1400
مشخصات نویسندگان مقاله:

محمود علی عرب - دانش آموخته ی کارشناسی ارشد مهندس ی فناوری اطلاعات آزمایشگاه پژوهشی یادگیری عمیق، گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشکدگان فارابی، دانشگاه تهران، ایران
کاظم فولادی قلعه - استادیار، گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشکدگان فارابی، دانشگاه تهران، ایران

خلاصه مقاله:
نظرات هرز به نظراتی گفته میشود که به قصد تبلیغ و یا تخریب یک محصول و یا برند نوشته میشوند. این نظرات باعث گمراهی افراد در خرید میشوند و تصمیم گیری آگاهانه را دشوار میسازند. تحقیقات زیادی برای تشخیص این نوع نظرات در زبان فارسی صورت نگرفته و تحقیقات موجود نیز از روش های یادگیری ماشین کلاسیک استفاده کرده اند . در این تحقیق مدلی ترکیبی با استفاده از ۴ شبکه حافظه طولانی کوتاه مدت دو طرفه (BiLSTM) ارائه شده است که با استفاده از ویژگی های متن نظر و قطبیت نظرات آموزش می بیند. با توجه به عدم وجود قطبیت نظرات در برخی مجموعه داده ها، از یک مدل تحلیل احساسات برای استخراج قطبیت نظرات از روی متن آنها، استفاده شده است. با توجه به اینکه مدل ارائه شده، برای یادگیری تنها به متن نظر نیاز دارد و از فراداده ها استفاده نمی کند، نظرات هرز تکی (نظراتی که نویسنده ی آنها تنها یک نظر نوشته است) نیز با استفاده از این مدل قابل تشخیص هستند. عملکرد مدل ارائه شده در مقایسه با روش های موجود افزایش چشم گیری داشته است؛ به گونه ای که بر روی مجموعه داده Digikala که پرکاربردترین مجموعه داده ی زبان فارسی در این حوزه است، دقت ۷.۷۸ به دست آمد

کلمات کلیدی:
تشخیص نظرات هرز، شبکه حافظه طولانی کوتاه مدت دوطرفه، تحلیل احساسات، متوازن سازی داده ها، یادگیری عمیق، قطبیت نظر، طبقه بندی متن، زبان فارسی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1452944/