ویرایش کلمات چندبخشی فارسی طبق اصول ترجمه ماشینی آماری

آرزو ارجمندزاده; مرتضی زاهدی

ویرایش کلمات چندبخشی فارسی طبق اصول ترجمه ماشینی آماری

Publish place: 2nd National conference on Computer Engineering and IT Management

Publish Year: 1394

Type: Conference paper

Language: Persian

This Paper With 11 Page And PDF Format Ready To Download

DOWNLOAD Paper

Certificate
I'm the author of the paper

Export:

Link to this Paper:

https://civilica.com/doc/422816

Document National Code:

CSITM02_055

Index date: 14 February 2016

ویرایش کلمات چندبخشی فارسی طبق اصول ترجمه ماشینی آماری abstract

زبان فارسی شامل کلماتی است که از چند بخش تشکیل شدهاند و رسمالخط استاندارد این کلمات چندبخشی به این صورت است که اجزاء کلمه چندبخشی جدا از هم نوشته شوند و این اجزاء با نیمفاصله از هم جدا شوند تا یکپارچگی خود را حفظ کنند و بهصورت یک کلمه واحد شناسایی شوند. رعایت این نوع فاصلهگذاری منتج به متنی استاندارد میشود و وجود متن استاندارد تاثیر بسزایی در بالا بردن کارایی سیستمهای پردازش زبان طبیعی بهویژه آنالیز لغوی و نشانهگذاری متن دارد. علاوه بر آن استاندارد بودن متن نقش بسزایی در خوانا و قابل درک بودن متن، که هدف هر نویسندهای است، دارد. در این مقاله روش آماری برایویرایش کلمات چندبخشی فارسی طبق اصول ترجمه ماشینی آماری ارائه شده است و با استفاده از این روش فاصله میان اجزاء کلمات چندبخشی به نیمفاصله ویرایش شده است. ترجمه ماشینی آماری با استفاده از تکنیکهای آماری، متنی را از یک زبان طبیعی به زبانی دیگر ترجمه میکند. به این معنا که، تطبیق کلمات و عبارات را روی یک پیکره موازی از زبان مبدا به زبان مقصد انجام میدهد. در این مقاله با بکارگیری این اصول ترجمه ماشینی آماری و مدل تطبیقIBM مبتنی بر باروی، به تطبیق میان کلمات چندبخشی ویرایشنشده با کلمات چندبخشی ویرایششده پرداخته شده و فاصله میان اجزاء کلمات چندبخشی به نیمفاصله ویرایش شده است. بنابراین در گام اول نیاز به یک پیکره موازی فارسی است که شامل متنی با کلمات چندبخشی ویرایشنشده درسمت مبدا و ویرایششده آن متن در سمت هدف باشد که چنین پیکرهای در این مقاله ایجاد شده است. ارزیابی نتایج حاصل از این روش نشاندهنده صحت و کارایی روش پیشنهاد شده برای ویرایش کلمات چندبخشی فارسی است

ویرایش کلمات چندبخشی فارسی طبق اصول ترجمه ماشینی آماری Keywords:

کلمات چندبخشی فارسی , روش آماری , ترجمه ماشینی آماری , مدلIBM مبتنی بر باروی , پیکره موازی فارسی

ویرایش کلمات چندبخشی فارسی طبق اصول ترجمه ماشینی آماری authors

آرزو ارجمندزاده

کارشناسی ارشد دانشگاه صنعتی شاهرود، دانشکده مهندسی کامپیوتر و فناوری اطلاعات

مرتضی زاهدی

استادیار دانشگاه صنعتی شاهرود، مهندسی کامپیوتر و فناوری اطلاعات

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :

Bruning, J. (2010); »Aligmment Models and Algorithms for Statistical Machine ...

Brown, P., Pietra, V.J.D., Pietra, S.A.D. and Mercer, R.L. (1993); ...

Galley, M., Graehl, J., Knight, K., Marcu, D., DeNeefe, S., ...

Germann, U., Jabr, M., Knight, K., Marcu, D. and Yamada, ...

Koehn, Ph. (2010); Statistical Machine Translation, United Kingdom: CAMBRIDGE UNIVERSITY ...

Li, Z., Ca lison-Burch, C., Dyer, C., Ganitkevitch, J., Khudanpur, ...

Moore, R.C. (2004); »Improving IB MWord- Alignment Model I«, Proceedings ...

Och, F.J. and Ney, H. (2003); »A Systematic Comparison of ...

Och, F.J. and Ney, H. (2000); »Improved statistical alignment models«, ...

Post, M., Ganitkevitch, J., Orland, L., Weese, J. and Cao, ...

Rasooli, M.S., Kholy, A.E. and Habash, N. (2013); »Orthographic and ...

Rosenfeld, R. (2000); »Two decades of statistical language modeling: Where ...

Seraji, M., Megyesi, B. and Nivre, J. (2012); »A Basic ...

Specia, L. (2010); »Fundamental and New Approaches to Statistical Machine ...

Shamsfard, M., Jafari, H. and Ilbeygi, M. (2010); »STeP-1: A ...

Zaidan, O.F. (2009); »Z-MERT: A Fully Configurable Open Source Tool ...

نمایش کامل مراجع