CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

شباهت معنایی جملات فارسی با استفاده از تطبیق فضای برداری و یادگیری عمیق

عنوان مقاله: شباهت معنایی جملات فارسی با استفاده از تطبیق فضای برداری و یادگیری عمیق
شناسه ملی مقاله: JR_PADSA-10-2_005
منتشر شده در در سال 1401
مشخصات نویسندگان مقاله:

سعیده سادات سدیدپور - استادیار، دانشگاه صنعتی مالک اشتر، تهران، ایران
مینا حاجی غلامرضا - کارشناسی ارشد، دانشگاه صنعتی مالک اشتر، تهران، ایران
محمدرضا محمدزاده - کارشناسی ارشد، دانشگاه صنعتی مالک اشتر، تهران، ایران
سید محمدرضا محمدی - کارشناسی ارشد، دانشگاه صنعتی مالک اشتر، تهران، ایران
محمدعلی کیوانراد - استادیار، دانشگاه صنعتی مالک اشتر، تهران، ایران

خلاصه مقاله:
امروزه، شناسایی متون مشابه، موضوعی با کاربردهای فراوان می باشد که با توجه به اهمیت آن، توسط پژوهشگران زبان های مختلف مورد‍ تحلیل و بررسی قرار گرفته است. در گذشته اغلب برای درک جملات توسط سامانه­های رایانه ای، جملات به صورت مجموعه کلمات مورد بررسی قرار می­گرفتند. اما امروزه، با گسترش فناوری و استفاده از شبکه­های عصبی عمیق، می توان از خود جملات، مفهوم اصلی را استخراج نمود. بنابراین، رسیدن به مدلی که بتواند جملات را کدگذاری کرده و مفهوم اصلی جمله را با دقت هر چه بیشتر استخراج نماید، یکی از نیازهای ضروری برای این هدف به شمار می­رود. این مقاله قصد دارد تا میزان شباهت جملات را از نقطه نظر معنایی به دست آورد که از روش های یادگیری عمیق استفاده می کند. از آنجایی که روش های یادگیری عمیق نیاز به داده آموزشی زیادی دارند، این مقاله از ایده نگاشت بین زبانی بهره می برد. روش پیشنهادی، فضای برداری تعبیه کلمات انگلیسی را به فارسی نگاشت کرده و با کمک مدل آموزش داده شده در زبان انگلیسی، شباهت جملات فارسی به دست می آید. درنهایت، نتایج نهایی با امتیازات انسانی مورد مقایسه قرار گرفته است. نتایج حاصل از روش پیشنهادی، میزان دقت این سامانه پیشنهادی را ۸۹ درصد ارائه می دهد که نسبت به سایر مدل­های یادگیری عمیق برتری دارد.

کلمات کلیدی:
استخراج مفهوم جملات, تعبیه کلمات, یادگیری عمیق, مشابهت یابی, تطبیق فضای برداری

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1602312/