بهبود ترجمه ماشینی آماری با استفاده از دانش زبانی کم عمق

Publish Year: 1403
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 12

This Paper With 5 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

PESSHCONF01_133

تاریخ نمایه سازی: 21 تیر 1403

Abstract:

ما روش هایی را برای بهبود عملکرد ترجمه ماشینی آماری (SMT) بین چهار زبان مختلف از نظر زبانی، یعنی چینی، انگلیسی، ژاپنی و کره ای با استفاده از دانش مورفوسنتکسی توصیف می کنیم. به منظور کاهش ابهامات ترجمه و تولید خروجی ترجمه صحیح و روان از نظر دستوری، از دانش زبانی کم عمق استفاده می کنیم، یعنی: (۱) غنی سازی یک کلمه با ویژگی های صرفی آن، (۲) به دست آوردن جفت عبارات پراکنده. عمق با انگیزه زبانی ، (۳) تراز تکراری کلمات با استفاده از جفت عبارات فیلتر شده و (۴) ساختن یک مدل زبانی از کلمات غنی شده از لحاظ مورفوسنتکسی.این مقاله یک مدل سلسله مراتبی جدید برای ترجمه ماشینی آماری پیشنهاد می کند که غیر پایانه ها را با تطبیق مرزهای عبارت هدف با برچسب های کم عمق نحوی در سمت هدف مجموعه آموزشی نام گذاری می کند. در جایی که هیچ برچسبی برای کل عبارت وجود ندارد، نام غیر پایانی با اضافه کردن برچسب های مرزی تعریف می شود. برچسب گذاری کلاس کلمه مرزهای عبارت قبلا معرفی شده است که می تواند مبنای مدل پیشنهادی باشد. ما این فرم اصلی را در مقاله حاضر با استفاده از برچسب های قطعه توسعه می دهیم. در این توسعه، اگر تگ قطعه در عبارت مرزی وجود نداشته باشد، از پیشوند POS کلمه مرزی استفاده می شود. با استفاده از برچسب های عبارت به جای کلاس های کلمه، قوانین مدل پیشنهادی تعمیم می یابد. تعدادی آزمایش به صورت ترجمه فارسی به انگلیسی انجام شد. با استفاده از معیار BLEU، در مقایسه با مدل SAMT که از درخت تجزیه برای برچسب گذاری استفاده می کند، مدل پیشنهادی به بهبود قابل توجهی دست می یابد.

Keywords:

ترجمه ماشینی آماری - مدل زنجیره ای - خلاصه کلمه

Authors

ویدا صالحی

دانشجوی زبان انگلیسی مقطع کارشناسی