شناسایی پرسش های تکراری در سامانه های پرسش و پاسخ اسلامی مبتنی بر تعبیه کلمات، Siamese LSTM و فاصله ی منهتن

Publish Year: 1400
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 366

This Paper With 7 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

NREAS03_217

تاریخ نمایه سازی: 16 آبان 1400

Abstract:

در این مقاله، ما روی مسئله ی شناسایی پرسشهای تکراری در سامانه های پرسش و پاسخ انجمنی اسلامی تمرکز داریم.تعیین اینکه آیا دو پرسش دادهشده از نظر معنایی مشابه هستند، با توجه به ساختارهای مختلفی که سوالات میتوانند داشته باشند، یک کار کاملا چالش برانگیز است همچنین در چند سال اخیر، شناسایی جفت پرسشهای تکراری در زبان فارسی و به خصوص در سامانه های اسلامی اهمیت ویژه ای یافته است. ما برای این کار، یکی از مقالات مربوط به زبان انگلیسی را به عنوان مقاله ی پایه در نظر گرفتیم و روش استفاده شده در آن را با مجموعه داده ی فارسی سازگار کردیم و از آن بهره بردیم. مدل مقاله ی پایه با کمک یکی از تعبیه کلمات word۲vec و FastText بردار کلمات را به دست می آوردوبا استفاده از Siamese LSTM نمایش معنایی پرسشها را به دست می آورد. از فاصله ی منهتن نیز برای به دست آوردن میزان شباهت بین دو پرسش استفاده میکند. همچنین یک رویکرد ترکیبی معرفی می کنیم که از ترکیب دو مدل آموزش دیده بر روی هرکدام از تعبیه کلمات به دست می آید. آزمایشات روی مجموعه داده فارسی ما نشان داد که مدل مقاله ی پایه، روی سامانه های پرسش و پاسخ اسلامی که به زبان فارسی هستند، نیز به خوبی عمل میکند.

Authors

فیروزه میرامبک

(کارشناسی ارشد)، دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر.

بهروز مینایی بیدگلی

(دانشیار)، دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر