مروری نظام مند بر معیارهای ارزیابی در پردازش زبان طبیعی از رویکردهای واژگانی تا ارزیابی مبتنی بر مدل های زبانی بزرگ
Publish Year: 1404
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 12
This Paper With 7 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ICCPM08_048
تاریخ نمایه سازی: 13 بهمن 1404
Abstract:
این پژوهش با هدف مرور و تحلیل جامع معیارهای ارزیابی در پردازش زبان طبیعی طی بازه زمانی ۲۰۱۰ تا ۲۰۲۵ انجام شده است. مساله اصلی شناسایی نقاط ضعف و قوت شاخص های سنتی مانند معیارهای واژگانی و مبتنی بر تعبیه سازی، در کنار بررسی رویکردهای جدید مدل محور و مبتنی بر مدل های زبانی بزرگ برای سنجش کیفیت خروجی های متنی است. روش تحقیق به صورت مطالعه مروری نظام مند تدوین شد که شامل انتخاب منابع علمی معتبر از پایگاه های بین المللی استخراج، دسته بندی معیارها، تحلیل کیفی کارکرد هر معیار و مقایسه عملکرد آنها در سناریوهای مختلف بود. برای این منظور، طبقه بندی پنج گانه ای شامل معیارهای واژگانی، معیارهای مبتنی بر تعبیه سازی، ارزیابی مبتنی بر مدل زبانی، شاخص های مقاوم سازی و معیارهای انصاف و بی طرفی ارائه گردید. یافته ها نشان دادند که معیارهای سنتی هنوز برای وظایف ساختاری ساده مناسب اند اما در سنجش ابعاد معنایی دچار محدودیت هستند. در مقابل، رویکردهای مبتنی بر مدل های زبانی و روش های استنباط متنی توانایی بیشتری در تحلیل معنایی، تشخیص استدلال و ارزیابی زمینه محور دارند هرچند هنوز چالش هایی مانند حساسیت به داده های آموزشی، ناپایداری در وظایف بین زبانی و مخاطرات بی طرفی باقی است. نتایج نهایی حاکی از آن است که ترکیب رویکردهای آماری و مدل محور همراه با چارچوب های استاندارد مقاوم سازی می تواند بنیانی پایدار برای سیستم های ارزیابی نسل آینده در پردازش زبان طبیعی فراهم سازد و مسیر توسعه هوشمندانه این حوزه را هموار نماید.
Keywords:
پردازش زبان طبیعی , معیارهای ارزیابی , مدل های زبانی بزرگ , آزمون پایداری عملکرد , Robustness , Bias & Fairness , Evaluation Metrics , Large Language Models (LLM) , Robustness Testing
Authors
محمد حسین مهاجر ارومیه
گروه کامپیوتر و فناوری اطلاعات، واحد اصفهان (خوراسگان)، دانشگاه آزاد اسلامی، اصفهان، ایران