CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

مروری بر بهبود ترجمه ماشینی همزمان

عنوان مقاله: مروری بر بهبود ترجمه ماشینی همزمان
شناسه ملی مقاله: SMARTCITYC03_055
منتشر شده در سومین کنفرانس بین المللی شهر هوشمند، چالش ها و راهبردها در سال 1402
مشخصات نویسندگان مقاله:

جواد امان اله نژاد فرد - دانشجوی کارشناسی ارشد مهندسی کامپیوتر(هوش مصنوعی) دانشگاه آپادانا شیراز

خلاصه مقاله:
در این مقاله به معرفی ترجمه ماشینی همزمان (SiMT)، تقطیر دانش سطح توالی (Seq-KD) و ترجمه ماشین عصبی (NMT) میپردازیم در این پژوهش، اقدام به بهبود عملکرد SiMT از طریق بهره گیری از داده های تک زبانه (monolingual) شده است. این روش شامل آموزش یک دانش آموز SiMT بر روی ترکیب داده های دو زبانه و داده های تک زبانه خارجی است که توسط Seq-KD تولید شده اند. آزمایشات اولیه بر روی مجموعه داده های خبری انگلیسی به چینی و انگلیسی به ژاپنی نشان می دهد که داده های تک زبانه می توانند بهبود قابل توجهی در کیفیت ترجمه داشته باشند (مثلا +۳.۱۵ BLEU درانگلیسی به چینی). با الهام از رفتار مترجمان همزمان انسان، یک استراتژی نمونه برداری تک زبانه جدید پیشنهاد شده است. این استراتژی با در نظر گرفتن همزمان طول و یکنواختی (monotonicity)، مشکل اصلی SiMT یعنی تخیل پیش گیری کرده و دارای مقیاس پذیری بهتری است. نتایج آزمایشات نشان می دهند که استراتژی نمونه برداری پیشنهادی به طور مداوم از استراتژی نمونه برداری تصادفی و سایر استراتژی های معمول تصادفی در NMT)) عملکرد بهتری دارد، با اجتناب از مشکل تخیل. در مجموع، بهبود +۰.۷۲ BLEU در میانگین در مقایسه با نمونه برداری تصادفی در ترجمه انگلیسی به چینی و انگلیسی به ژاپنی حاصل شده است.

کلمات کلیدی:
ترجمه ماشینی همزمان (SiMT)، تقطیر دانش سطح توالی (Seq-KD)، ترجمه ماشین عصبی (NMT)، داده های تک زبانه (monolingual).

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1950308/