استخراج خودکار جملات هم‌تراز انگلیسی-فارسی از متون مقایسه‌ای با بهره‌برداری از اطلاعات نحوی

Publish Year: 1397
نوع سند: مقاله ژورنالی
زبان: Persian
View: 253

This Paper With 22 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

JR_JRLU-10-2_002

تاریخ نمایه سازی: 12 بهمن 1399

Abstract:

پیکره‌های موازی همواره از غنی‌ترین منابع در مباحث پردازش زبان طبیعی محسوب می‌شوند.  این نوع پیکره‌ها شامل متون ترجمه‌شدۀ دو یا چند زبان هستند که در سطوح مختلف کلمه، عبارت و یا جمله هم‌ترازشده‌اند. علیرغم کاربرد فراوان این نوع پیکره‌ها در مطالعات مختلف از جمله پژوهش­های زبانی، ترجمة ماشینی آماری و سامانه‌های خودکار بازیابی اطلاعات میان زبانی، متأسفانه همواره پژوهشگران با کمبود پیکره‌های موازی مواجه بوده‌اند. در این راستا، در پژوهش حاضر سعی شده است به‌منظور تولید پیکره موازی با بهره‌گیری از اطلاعات نحوی، روشی خودکار برای استخراج جملات هم‌ترازانگلیسی/فارسی از متون مقایسه‌ای ارائه شود. در این روش، با ساخت بردار ویژگی با بهره‌گیری از اطلاعات نحوی جملات، یک مدل هم‌ترازی آموزش داده می‌شود. دقت مدل هم‌ترازی،در بهترین حالت، به شکل عملیاتی روی داده‌های آزمون (208 عدد جفت جمله) 77% و روی داده‌های آموزشی (830 عدد جفت جمله) 7/97 % محاسبه شد. از آنجایی که حجم داده‌های طلایی بسیار کوچک بود روش n-fold cross validation در مورد تمام الگوریتم‌های آموزش مورد استفاده قرار گرفت. به‌منظور افزایش دقت، از یک الگوریتم جست‌وجوی شباهت لغوی جملات نیز استفاده شد که دقت را روی داده‌های آزمون از 77% به 18/85% افزایش داد. پژوهش حاضر، با به‌کارگیری مدل هم‌ترازی به‌دست‌آمده، به تولید ابزار هم‌ترازی دانشگاه اصفهان منجر شد، که می‌تواند به‌منظور خودکفایی در تولید پیکره‌های موازی مورداستفاده محققین حوزه پردازش زبان فارسی قرار گیرد.

Authors

رضوان متولیان

استادیار گروه زبانشناسی دانشگاه اصفهان

امیرحسن منجمی

دانشیار گروه کامپیوتر دانشگاه اصفهان

ابراهیم قدس اللهی

کارشناسی ارشد زبانشناسی رایانشی دانشگاه اصفهان

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :
  • شناسایی جملات هم ترجمه با استفاده از طبقهبند آنتروپی بیشینه [مقاله کنفرانسی]
  • جکیان طوسی، سید احمد (1391). ارائه رهیافتی جدید برای تولید ...
  • Ansari, E., Sadreddini, M. H., Tabebordbar, A., & Wallace, R. ...
  • Barzilay, R., & Elhadad, N. (2003). Sentence alignment for monolingual ...
  • Brown, K. (2005). Encyclopedia of Language and Linguistics, 14-Volume Set. ...
  • Caseli, H. M. and Nunes, M. G. V. (2003). Evaluation ...
  • Chen, S. F. (1993). Aligning sentences in bilingual corpora using ...
  • Cheon, J., & Youngjoong, K. O. (2017). Automatically Extracting Parallel ...
  • Fattah M.A., Ren F., Kuroiwa S. (2006) Text-Based English-Arabic Sentence ...
  • Gale, W. A., & Church, K. W. (1993). A program ...
  • Georgiou, P., Sethy, P., Shin, J., & Narayanan, S. (2006). ...
  • Halácsy, P., Kornai, A., & Oravecz, C. (2007). HunPos: an ...
  • Han, X., Li, H., & Zhao, T. (2009). Train the ...
  • Jabbari, F. & Ziabary,  M. (2012). Developing an open-domain English-Farsi ...
  • Jurafsky, D., & Martin, J. H. (2009). Speech and Language ...
  • Koehn, P. (2009). Statistical Machine Translation. Cambridge University Press. ...
  • Manning, C. D. & Schütze, H. (1999). Foundations of statistical ...
  • Manning, C., Surdeanu, M., Bauer, J., Finkel, J., Bethard, S., ...
  • McEnery, A., & Xiao, R. (2007). Parallel and comparable corpora:  ...
  • Mitkov, R. (ed.) (2005). The Oxford handbook of computational linguistics. ...
  • Mohammadi, M., & GhasemAghaee, N. (2010). Building bilingual parallel corpora ...
  • Munteanu, D. S., & Marcu, D. (2005). Improving machine translation ...
  • Pilevar M.T., Faili H., Pilevar A.H. (2011) TEP: Tehran English-Persian ...
  • Piperidis, S., Papageorgiou, H., & Boutsis, S. (2000). From sentences ...
  • Rahimi, Z., Taghipour, K., Khadivi, S., & Afhami, N. (2012). ...
  • Rauf, S. A., & Schwenk, H. (2011). Parallel sentence generation ...
  • Seraji, M. (2011). A statistical part-of-speech tagger for Persian. In ...
  • Simard, M., Foster, G. F., & Isabelle, P. (1993). Using ...
  • Ștefănescu, D., Ion, R., & Hunsicker, S. (2012). Hybrid parallel ...
  • Taghipour, K., Afhami, N., Khadivi, S., & Shiry, S. (2010). ...
  • نمایش کامل مراجع