شناسایی پرسش های تکراری در سامانه های پرسش و پاسخ اسلامی مبتنی بر تعبیه کلمات، Siamese LSTM و فاصله ی منهتن

فیروزه میرامبک; بهروز مینایی بیدگلی

شناسایی پرسش های تکراری در سامانه های پرسش و پاسخ اسلامی مبتنی بر تعبیه کلمات، Siamese LSTM و فاصله ی منهتن

Publish place: Third National Conference on New Researches in Engineering and Applied Sciences

Publish Year: 1400

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 7 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/1306604

شناسه ملی سند علمی:

NREAS03_217

تاریخ نمایه سازی: 16 آبان 1400

Abstract:

در این مقاله، ما روی مسئله ی شناسایی پرسشهای تکراری در سامانه های پرسش و پاسخ انجمنی اسلامی تمرکز داریم.تعیین اینکه آیا دو پرسش دادهشده از نظر معنایی مشابه هستند، با توجه به ساختارهای مختلفی که سوالات میتوانند داشته باشند، یک کار کاملا چالش برانگیز است همچنین در چند سال اخیر، شناسایی جفت پرسشهای تکراری در زبان فارسی و به خصوص در سامانه های اسلامی اهمیت ویژه ای یافته است. ما برای این کار، یکی از مقالات مربوط به زبان انگلیسی را به عنوان مقاله ی پایه در نظر گرفتیم و روش استفاده شده در آن را با مجموعه داده ی فارسی سازگار کردیم و از آن بهره بردیم. مدل مقاله ی پایه با کمک یکی از تعبیه کلمات word۲vec و FastText بردار کلمات را به دست می آوردوبا استفاده از Siamese LSTM نمایش معنایی پرسشها را به دست می آورد. از فاصله ی منهتن نیز برای به دست آوردن میزان شباهت بین دو پرسش استفاده میکند. همچنین یک رویکرد ترکیبی معرفی می کنیم که از ترکیب دو مدل آموزش دیده بر روی هرکدام از تعبیه کلمات به دست می آید. آزمایشات روی مجموعه داده فارسی ما نشان داد که مدل مقاله ی پایه، روی سامانه های پرسش و پاسخ اسلامی که به زبان فارسی هستند، نیز به خوبی عمل میکند.

Keywords:

پرسش و پاسخ انجمنی , شناسایی پرسشهای تکراری , سامانه های اسلامی

Authors

فیروزه میرامبک

(کارشناسی ارشد)، دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر.

بهروز مینایی بیدگلی

(دانشیار)، دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر