استخراج خودکار جملات همتراز انگلیسی-فارسی از متون مقایسهای با بهرهبرداری از اطلاعات نحوی
Publish place: Researches in Linguistics، Vol: 10، Issue: 2
Publish Year: 1397
نوع سند: مقاله ژورنالی
زبان: Persian
View: 253
This Paper With 22 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_JRLU-10-2_002
تاریخ نمایه سازی: 12 بهمن 1399
Abstract:
پیکرههای موازی همواره از غنیترین منابع در مباحث پردازش زبان طبیعی محسوب میشوند. این نوع پیکرهها شامل متون ترجمهشدۀ دو یا چند زبان هستند که در سطوح مختلف کلمه، عبارت و یا جمله همترازشدهاند. علیرغم کاربرد فراوان این نوع پیکرهها در مطالعات مختلف از جمله پژوهشهای زبانی، ترجمة ماشینی آماری و سامانههای خودکار بازیابی اطلاعات میان زبانی، متأسفانه همواره پژوهشگران با کمبود پیکرههای موازی مواجه بودهاند. در این راستا، در پژوهش حاضر سعی شده است بهمنظور تولید پیکره موازی با بهرهگیری از اطلاعات نحوی، روشی خودکار برای استخراج جملات همترازانگلیسی/فارسی از متون مقایسهای ارائه شود. در این روش، با ساخت بردار ویژگی با بهرهگیری از اطلاعات نحوی جملات، یک مدل همترازی آموزش داده میشود. دقت مدل همترازی،در بهترین حالت، به شکل عملیاتی روی دادههای آزمون (208 عدد جفت جمله) 77% و روی دادههای آموزشی (830 عدد جفت جمله) 7/97 % محاسبه شد. از آنجایی که حجم دادههای طلایی بسیار کوچک بود روش n-fold cross validation در مورد تمام الگوریتمهای آموزش مورد استفاده قرار گرفت. بهمنظور افزایش دقت، از یک الگوریتم جستوجوی شباهت لغوی جملات نیز استفاده شد که دقت را روی دادههای آزمون از 77% به 18/85% افزایش داد. پژوهش حاضر، با بهکارگیری مدل همترازی بهدستآمده، به تولید ابزار همترازی دانشگاه اصفهان منجر شد، که میتواند بهمنظور خودکفایی در تولید پیکرههای موازی مورداستفاده محققین حوزه پردازش زبان فارسی قرار گیرد.
Keywords:
Authors
رضوان متولیان
استادیار گروه زبانشناسی دانشگاه اصفهان
امیرحسن منجمی
دانشیار گروه کامپیوتر دانشگاه اصفهان
ابراهیم قدس اللهی
کارشناسی ارشد زبانشناسی رایانشی دانشگاه اصفهان
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :