خلاصه سازی مفهومی متون فارسی مبتنی بر مدل mT۵

Publish Year: 1403
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 43

This Paper With 9 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

SECONGRESS02_276

تاریخ نمایه سازی: 19 مرداد 1403

Abstract:

خلاصه سازی خودکار متن از جمله وظایف اساسی در پردازش زبان طبیعی (NLP) است که هدف آن فشرده کردن اطلاعات اصلی یک مجموعه داده شده در یک خلاصه کوتاه است. با رشد تصاعدی داده های متنی، از جمله اسناد، مقالات و اخبار، خلاصه سازی خودکار اهمیت فزاینده ای پیدا کرده است. در این پژوهش، از مدل های mT۵-small، mT۵base و mT۵large برای وظیفه خلاصه سازی در متون خبر فارسی بهره گرفته و مجدد تنظیم دقیق شده اند. نتایج نشان می دهد که با افزایش تعداد پارامترها در مدل ها، دقت در وظیفه فوق الذکر افزایش می یابد. اما مشخص شد که تنظیم دقیق مدل ها بزرگ با پارامترهای زیاد در مجموعه داده های آموزشی استفاده شده، آن ها دچار بیش برازش می شوند، بنابراین برای حل این مشکل و بهبود بیشتر عملکرد مدل ها، اقدامات بیشتری برای جلوگیری از بیش برازش نیاز است. مدل های فوق پس از تنظیم دقیق بر روی مجموعه داده آموزشی ارزیابی مختلفی شدند و نتایج تجربی اثربخشی آن را در تولید خلاصه های با کیفیت بالا نمونه های برچسب گذاری شده نشان می دهد. و در نهایت تنظیم دقیق مدل mT۵large در معیار ROUGE-L به دقت ۵۱ درصد در تولید خلاصه مفهومی رسیده است.

Authors

آرش کشت کار

دانشکده مهندسی برق و کامپیوتر، دانشگاه صنعتی مالک اشتر، تهران، ایران

سعیده سادات سدیدپور

استادیار گروه هوش مصنوعی، دانشگاه صنعتی مالک اشتر، تهران، ایران