CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

سازه پرداز: واژه بندی و یکسان سازی متون فارسی با رویکرد پیکره - محور

عنوان مقاله: سازه پرداز: واژه بندی و یکسان سازی متون فارسی با رویکرد پیکره - محور
شناسه ملی مقاله: CITCOMP02_259
منتشر شده در دومین کنفرانس بین المللی پژوهش های دانش بنیان در مهندسی کامپیوتر و فناوری اطلاعات در سال 1396
مشخصات نویسندگان مقاله:

شهره طباطبایی سیفی - پژوهشگر ارشد، گروه صوت و پردازش زبان طبیعی، پژوهشگاه خواجه نصیرالدین طوسی، تهران، ایران
ایمان صراف - پژوهشگر ارشد، پژوهشگاه خواجه نصیرالدین طوسی

خلاصه مقاله:
اغلب عملیات پردازش متن احتیاج به مرحله پیش پردازش دارد. دقت عملیات مختلف به دقت این ابزار پیش-پردازش وابستگی زیادی دارد. پیش پردازش ممکن است فقط شامل اصلاح و یکسان سازی نویسه ها باشد و یا اعمال پیچیده تری همچون واژه بندی، اصلاح نیم فاصله ها، ریشه یابی، بن یابی و غلط یابی را انجام دهند. هدف از پژوهش حاضر ارایه یک ابزار یکسان سازی و واژه بندی دقیق تر و جامع تر از ابزارهای موجود و مناسب برای مرحله پیش پردازش ابزار تجزیه گر سازه است. تجزیه گر سازه بر روی درخت بانک سازه آموزش داده شده است. واژه بندی درست و مطابق با شیوه-نامه استفاده شده در درخت بانک سازه تاثیر به سزایی در دقت عملیات تجزیه خواهد داشت. سازه پرداز ابزار ارایه شده در این مقاله است که برخلاف روش های رایج که مبتنی بر قانون و لغت نامه هستند از روش های پیکره محور برای این منظور استفاده می کند. عملیات اصلاح نیم فاصله ها، اصلاح صفت های مفعولی افعال مرکب و جداسازی واژه بست ها در ابزار ارایه-شده وجود دارد. ارزیابی ابزار پیش پردازش حاضر بر روی مجموعه 100 جمله نمونه، معیار F معادل 90.4% را نشان می دهد..

کلمات کلیدی:
پردازش زبان طبیعی، پیش پردازش، پیکره زبانی، یادگیری ماشین

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/696200/