سازه پرداز: واژه بندی و یکسان سازی متون فارسی با رویکرد پیکره - محور

Publish Year: 1396
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 674

This Paper With 15 Page And PDF and WORD Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

CITCOMP02_259

تاریخ نمایه سازی: 7 اسفند 1396

Abstract:

اغلب عملیات پردازش متن احتیاج به مرحله پیش پردازش دارد. دقت عملیات مختلف به دقت این ابزار پیش-پردازش وابستگی زیادی دارد. پیش پردازش ممکن است فقط شامل اصلاح و یکسان سازی نویسه ها باشد و یا اعمال پیچیده تری همچون واژه بندی، اصلاح نیم فاصله ها، ریشه یابی، بن یابی و غلط یابی را انجام دهند. هدف از پژوهش حاضر ارایه یک ابزار یکسان سازی و واژه بندی دقیق تر و جامع تر از ابزارهای موجود و مناسب برای مرحله پیش پردازش ابزار تجزیه گر سازه است. تجزیه گر سازه بر روی درخت بانک سازه آموزش داده شده است. واژه بندی درست و مطابق با شیوه-نامه استفاده شده در درخت بانک سازه تاثیر به سزایی در دقت عملیات تجزیه خواهد داشت. سازه پرداز ابزار ارایه شده در این مقاله است که برخلاف روش های رایج که مبتنی بر قانون و لغت نامه هستند از روش های پیکره محور برای این منظور استفاده می کند. عملیات اصلاح نیم فاصله ها، اصلاح صفت های مفعولی افعال مرکب و جداسازی واژه بست ها در ابزار ارایه-شده وجود دارد. ارزیابی ابزار پیش پردازش حاضر بر روی مجموعه 100 جمله نمونه، معیار F معادل 90.4% را نشان می دهد..

Authors

شهره طباطبایی سیفی

پژوهشگر ارشد، گروه صوت و پردازش زبان طبیعی، پژوهشگاه خواجه نصیرالدین طوسی، تهران، ایران

ایمان صراف

پژوهشگر ارشد، پژوهشگاه خواجه نصیرالدین طوسی