سیویلیکا را در شبکه های اجتماعی دنبال نمایید.

ویرایش کلمات چندبخشی فارسی طبق اصول ترجمه ماشینی آماری

Publish Year: 1394
Type: Conference paper
Language: Persian
View: 1,091

This Paper With 11 Page And PDF Format Ready To Download

Export:

Link to this Paper:

Document National Code:

CSITM02_055

Index date: 14 February 2016

ویرایش کلمات چندبخشی فارسی طبق اصول ترجمه ماشینی آماری abstract

زبان فارسی شامل کلماتی است که از چند بخش تشکیل شدهاند و رسمالخط استاندارد این کلمات چندبخشی به این صورت است که اجزاء کلمه چندبخشی جدا از هم نوشته شوند و این اجزاء با نیمفاصله از هم جدا شوند تا یکپارچگی خود را حفظ کنند و بهصورت یک کلمه واحد شناسایی شوند. رعایت این نوع فاصلهگذاری منتج به متنی استاندارد میشود و وجود متن استاندارد تاثیر بسزایی در بالا بردن کارایی سیستمهای پردازش زبان طبیعی بهویژه آنالیز لغوی و نشانهگذاری متن دارد. علاوه بر آن استاندارد بودن متن نقش بسزایی در خوانا و قابل درک بودن متن، که هدف هر نویسندهای است، دارد. در این مقاله روش آماری برایویرایش کلمات چندبخشی فارسی طبق اصول ترجمه ماشینی آماری ارائه شده است و با استفاده از این روش فاصله میان اجزاء کلمات چندبخشی به نیمفاصله ویرایش شده است. ترجمه ماشینی آماری با استفاده از تکنیکهای آماری، متنی را از یک زبان طبیعی به زبانی دیگر ترجمه میکند. به این معنا که، تطبیق کلمات و عبارات را روی یک پیکره موازی از زبان مبدا به زبان مقصد انجام میدهد. در این مقاله با بکارگیری این اصول ترجمه ماشینی آماری و مدل تطبیقIBM مبتنی بر باروی، به تطبیق میان کلمات چندبخشی ویرایشنشده با کلمات چندبخشی ویرایششده پرداخته شده و فاصله میان اجزاء کلمات چندبخشی به نیمفاصله ویرایش شده است. بنابراین در گام اول نیاز به یک پیکره موازی فارسی است که شامل متنی با کلمات چندبخشی ویرایشنشده درسمت مبدا و ویرایششده آن متن در سمت هدف باشد که چنین پیکرهای در این مقاله ایجاد شده است. ارزیابی نتایج حاصل از این روش نشاندهنده صحت و کارایی روش پیشنهاد شده برای ویرایش کلمات چندبخشی فارسی است

ویرایش کلمات چندبخشی فارسی طبق اصول ترجمه ماشینی آماری Keywords:

ویرایش کلمات چندبخشی فارسی طبق اصول ترجمه ماشینی آماری authors

آرزو ارجمندزاده

کارشناسی ارشد دانشگاه صنعتی شاهرود، دانشکده مهندسی کامپیوتر و فناوری اطلاعات

مرتضی زاهدی

استادیار دانشگاه صنعتی شاهرود، مهندسی کامپیوتر و فناوری اطلاعات

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :
Bruning, J. (2010); »Aligmment Models and Algorithms for Statistical Machine ...
Brown, P., Pietra, V.J.D., Pietra, S.A.D. and Mercer, R.L. (1993); ...
Galley, M., Graehl, J., Knight, K., Marcu, D., DeNeefe, S., ...
Germann, U., Jabr, M., Knight, K., Marcu, D. and Yamada, ...
Koehn, Ph. (2010); Statistical Machine Translation, United Kingdom: CAMBRIDGE UNIVERSITY ...
Li, Z., Ca lison-Burch, C., Dyer, C., Ganitkevitch, J., Khudanpur, ...
Moore, R.C. (2004); »Improving IB MWord- Alignment Model I«, Proceedings ...
Och, F.J. and Ney, H. (2003); »A Systematic Comparison of ...
Och, F.J. and Ney, H. (2000); »Improved statistical alignment models«, ...
Post, M., Ganitkevitch, J., Orland, L., Weese, J. and Cao, ...
Rasooli, M.S., Kholy, A.E. and Habash, N. (2013); »Orthographic and ...
Rosenfeld, R. (2000); »Two decades of statistical language modeling: Where ...
Seraji, M., Megyesi, B. and Nivre, J. (2012); »A Basic ...
Specia, L. (2010); »Fundamental and New Approaches to Statistical Machine ...
Shamsfard, M., Jafari, H. and Ilbeygi, M. (2010); »STeP-1: A ...
Zaidan, O.F. (2009); »Z-MERT: A Fully Configurable Open Source Tool ...
نمایش کامل مراجع

مقاله فارسی "ویرایش کلمات چندبخشی فارسی طبق اصول ترجمه ماشینی آماری" توسط آرزو ارجمندزاده، کارشناسی ارشد دانشگاه صنعتی شاهرود، دانشکده مهندسی کامپیوتر و فناوری اطلاعات؛ مرتضی زاهدی، استادیار دانشگاه صنعتی شاهرود، مهندسی کامپیوتر و فناوری اطلاعات نوشته شده و در سال 1394 پس از تایید کمیته علمی دومین همایش ملی مهندسی رایانه و مدیریت فناوری اطلاعات پذیرفته شده است. کلمات کلیدی استفاده شده در این مقاله کلمات چندبخشی فارسی، روش آماری، ترجمه ماشینی آماری، مدلIBM مبتنی بر باروی، پیکره موازی فارسی هستند. این مقاله در تاریخ 25 بهمن 1394 توسط سیویلیکا نمایه سازی و منتشر شده است و تاکنون 1091 بار صفحه این مقاله مشاهده شده است. در چکیده این مقاله اشاره شده است که زبان فارسی شامل کلماتی است که از چند بخش تشکیل شدهاند و رسمالخط استاندارد این کلمات چندبخشی به این صورت است که اجزاء کلمه چندبخشی جدا از هم نوشته شوند و این اجزاء با نیمفاصله از هم جدا شوند تا یکپارچگی خود را حفظ کنند و بهصورت یک کلمه واحد شناسایی شوند. رعایت این نوع فاصلهگذاری منتج به متنی استاندارد ... . برای دانلود فایل کامل مقاله ویرایش کلمات چندبخشی فارسی طبق اصول ترجمه ماشینی آماری با 11 صفحه به فرمت PDF، میتوانید از طریق بخش "دانلود فایل کامل" اقدام نمایید.