مروری بر بهبود ترجمه ماشینی همزمان

Publish Year: 1402
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 14

This Paper With 11 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

SMARTCITYC03_055

تاریخ نمایه سازی: 20 فروردین 1403

Abstract:

در این مقاله به معرفی ترجمه ماشینی همزمان (SiMT)، تقطیر دانش سطح توالی (Seq-KD) و ترجمه ماشین عصبی (NMT) میپردازیم در این پژوهش، اقدام به بهبود عملکرد SiMT از طریق بهره گیری از داده های تک زبانه (monolingual) شده است. این روش شامل آموزش یک دانش آموز SiMT بر روی ترکیب داده های دو زبانه و داده های تک زبانه خارجی است که توسط Seq-KD تولید شده اند. آزمایشات اولیه بر روی مجموعه داده های خبری انگلیسی به چینی و انگلیسی به ژاپنی نشان می دهد که داده های تک زبانه می توانند بهبود قابل توجهی در کیفیت ترجمه داشته باشند (مثلا +۳.۱۵ BLEU درانگلیسی به چینی). با الهام از رفتار مترجمان همزمان انسان، یک استراتژی نمونه برداری تک زبانه جدید پیشنهاد شده است. این استراتژی با در نظر گرفتن همزمان طول و یکنواختی (monotonicity)، مشکل اصلی SiMT یعنی تخیل پیش گیری کرده و دارای مقیاس پذیری بهتری است. نتایج آزمایشات نشان می دهند که استراتژی نمونه برداری پیشنهادی به طور مداوم از استراتژی نمونه برداری تصادفی و سایر استراتژی های معمول تصادفی در NMT)) عملکرد بهتری دارد، با اجتناب از مشکل تخیل. در مجموع، بهبود +۰.۷۲ BLEU در میانگین در مقایسه با نمونه برداری تصادفی در ترجمه انگلیسی به چینی و انگلیسی به ژاپنی حاصل شده است.

Keywords:

ترجمه ماشینی همزمان (SiMT) , تقطیر دانش سطح توالی (Seq-KD) , ترجمه ماشین عصبی (NMT) , داده های تک زبانه (monolingual).

Authors

جواد امان اله نژاد فرد

دانشجوی کارشناسی ارشد مهندسی کامپیوتر(هوش مصنوعی) دانشگاه آپادانا شیراز