مروری نظام مند بر معیارهای ارزیابی در پردازش زبان طبیعی از رویکردهای واژگانی تا ارزیابی مبتنی بر مدل های زبانی بزرگ

محمد حسین مهاجر ارومیه

مروری نظام مند بر معیارهای ارزیابی در پردازش زبان طبیعی از رویکردهای واژگانی تا ارزیابی مبتنی بر مدل های زبانی بزرگ

Publish place: The 8th international conference on artificial intelligence and its future prospects in electrical, computer, mechanical and telecommunication engineering sciences

Publish Year: 1404

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 7 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/2504154

شناسه ملی سند علمی:

ICCPM08_048

تاریخ نمایه سازی: 13 بهمن 1404

Abstract:

این پژوهش با هدف مرور و تحلیل جامع معیارهای ارزیابی در پردازش زبان طبیعی طی بازه زمانی ۲۰۱۰ تا ۲۰۲۵ انجام شده است. مساله اصلی شناسایی نقاط ضعف و قوت شاخص های سنتی مانند معیارهای واژگانی و مبتنی بر تعبیه سازی، در کنار بررسی رویکردهای جدید مدل محور و مبتنی بر مدل های زبانی بزرگ برای سنجش کیفیت خروجی های متنی است. روش تحقیق به صورت مطالعه مروری نظام مند تدوین شد که شامل انتخاب منابع علمی معتبر از پایگاه های بین المللی استخراج، دسته بندی معیارها، تحلیل کیفی کارکرد هر معیار و مقایسه عملکرد آنها در سناریوهای مختلف بود. برای این منظور، طبقه بندی پنج گانه ای شامل معیارهای واژگانی، معیارهای مبتنی بر تعبیه سازی، ارزیابی مبتنی بر مدل زبانی، شاخص های مقاوم سازی و معیارهای انصاف و بی طرفی ارائه گردید. یافته ها نشان دادند که معیارهای سنتی هنوز برای وظایف ساختاری ساده مناسب اند اما در سنجش ابعاد معنایی دچار محدودیت هستند. در مقابل، رویکردهای مبتنی بر مدل های زبانی و روش های استنباط متنی توانایی بیشتری در تحلیل معنایی، تشخیص استدلال و ارزیابی زمینه محور دارند هرچند هنوز چالش هایی مانند حساسیت به داده های آموزشی، ناپایداری در وظایف بین زبانی و مخاطرات بی طرفی باقی است. نتایج نهایی حاکی از آن است که ترکیب رویکردهای آماری و مدل محور همراه با چارچوب های استاندارد مقاوم سازی می تواند بنیانی پایدار برای سیستم های ارزیابی نسل آینده در پردازش زبان طبیعی فراهم سازد و مسیر توسعه هوشمندانه این حوزه را هموار نماید.

Keywords:

پردازش زبان طبیعی , معیارهای ارزیابی , مدل های زبانی بزرگ , آزمون پایداری عملکرد , Robustness , Bias & Fairness , Evaluation Metrics , Large Language Models (LLM) , Robustness Testing

Authors

محمد حسین مهاجر ارومیه

گروه کامپیوتر و فناوری اطلاعات، واحد اصفهان (خوراسگان)، دانشگاه آزاد اسلامی، اصفهان، ایران