ویرایش کلمات چندبخشی فارسی طبق اصول ترجمه ماشینی آماری
Publish Year: 1394
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 1,062
This Paper With 11 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CSITM02_055
تاریخ نمایه سازی: 25 بهمن 1394
Abstract:
زبان فارسی شامل کلماتی است که از چند بخش تشکیل شدهاند و رسمالخط استاندارد این کلمات چندبخشی به این صورت است که اجزاء کلمه چندبخشی جدا از هم نوشته شوند و این اجزاء با نیمفاصله از هم جدا شوند تا یکپارچگی خود را حفظ کنند و بهصورت یک کلمه واحد شناسایی شوند. رعایت این نوع فاصلهگذاری منتج به متنی استاندارد میشود و وجود متن استاندارد تاثیر بسزایی در بالا بردن کارایی سیستمهای پردازش زبان طبیعی بهویژه آنالیز لغوی و نشانهگذاری متن دارد. علاوه بر آن استاندارد بودن متن نقش بسزایی در خوانا و قابل درک بودن متن، که هدف هر نویسندهای است، دارد. در این مقاله روش آماری برایویرایش کلمات چندبخشی فارسی طبق اصول ترجمه ماشینی آماری ارائه شده است و با استفاده از این روش فاصله میان اجزاء کلمات چندبخشی به نیمفاصله ویرایش شده است. ترجمه ماشینی آماری با استفاده از تکنیکهای آماری، متنی را از یک زبان طبیعی به زبانی دیگر ترجمه میکند. به این معنا که، تطبیق کلمات و عبارات را روی یک پیکره موازی از زبان مبدا به زبان مقصد انجام میدهد. در این مقاله با بکارگیری این اصول ترجمه ماشینی آماری و مدل تطبیقIBM مبتنی بر باروی، به تطبیق میان کلمات چندبخشی ویرایشنشده با کلمات چندبخشی ویرایششده پرداخته شده و فاصله میان اجزاء کلمات چندبخشی به نیمفاصله ویرایش شده است. بنابراین در گام اول نیاز به یک پیکره موازی فارسی است که شامل متنی با کلمات چندبخشی ویرایشنشده درسمت مبدا و ویرایششده آن متن در سمت هدف باشد که چنین پیکرهای در این مقاله ایجاد شده است. ارزیابی نتایج حاصل از این روش نشاندهنده صحت و کارایی روش پیشنهاد شده برای ویرایش کلمات چندبخشی فارسی است
Keywords:
Authors
آرزو ارجمندزاده
کارشناسی ارشد دانشگاه صنعتی شاهرود، دانشکده مهندسی کامپیوتر و فناوری اطلاعات
مرتضی زاهدی
استادیار دانشگاه صنعتی شاهرود، مهندسی کامپیوتر و فناوری اطلاعات
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :