ارزیابی واحدسازهای مرسوم زبان فارسی به کمک یک مجموعه دادگان طلایی برگرفته از نهج البلاغه

Publish Year: 1399
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 206

نسخه کامل این Paper ارائه نشده است و در دسترس نمی باشد

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

IISC01_047

تاریخ نمایه سازی: 22 آذر 1400

Abstract:

در پردازش زبان طبیعی، یکی از مهمترین فرآیند های تجزیه و تحلیل واژگانی پیش پردازشی،واحدسازی است. قبل از انجام هر نوع از پردازش روی متون زبان طبیعی، هر دنباله از کار اکترهاباید به دنباله ای از واحدهای معنادار متمایز با نام واحد تبدیل شود. واحدسازی نقش مهمی در روندتحلیل واژگانی دارد. عملیات های پی شپردازشی، از جمله واحدسازی در زبان فارسی و به خصوصدر متون فقهی، به دلیل وجود موارد استثناء مانند نیم فاصله و همینطور وجود واژگان مرکب وپیچیده، برای الگوریتم ها کاری دشوار است. بنابراین آگاهی از کیفیت الگوریتم های واحدسازیموجود در زبان فارسی اهمیت زیادی دارد.در این مقاله، پرکاربرد ترین واحدسازهای موجود در زبان فارسی را معرفی می کنیم و با استفادهاز یک الگوریتم ساده و با معرفی یک مجموعه دادگان طلایی فقهی، کیفیت عملکرد آنها را رویمتون اسلامی مقایسه و ارزیابی می کنیم. مجموعه دادگان طلایی پیشنهادی، از متون نهج البلاغهبرگرفته و به صورت دستی برچسب گذاری شده است. داده های خام هرکدام از واحدسازها دادهشده و خروجی آن ها به سیستم ارزیاب داده می شود. در سیستم ارزیاب نتیجه نهایی هر یک ازواحدسا زها با استفاده از داده برچسب خورده ارزیابی می شود. در انتها پس از ارزیابی واحد سازهایمعرفی شده با معیار F۱ ، واحد ساز فارسی ورب با نمره ۹۸ / ۲۹ % بهترین عملکرد را از خود نشان داد.

Authors

دانیال کمالی

دانشجو،کارشناسی مهندسی کامپیوترگرایش نرم افزار

آرش امانی

دانشجو، کارشناسی ارشد، مهندسی کامپیوتر گرایش نرم افزار

بهروز جان فدا

دانشجو، کارشناسی ارشد، مهندسی کامپیوتر گرایش نرم افزار

بهروز مینایی بیدگلی

دانشیار، (دانشگاه علم وصنعت ایران)، دکتری هوش مصنوعی