روشی جهت حذف وندهای کلمات فارسی با استفاده از بر چسب دستوری نوع کلمات
Publish place: 11th Intelligent Systems Conference
Publish Year: 1391
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 626
This Paper With 6 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
این Paper در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ICS11_067
تاریخ نمایه سازی: 14 مهر 1392
Abstract:
هدف از این مقاله، ارائه روشی حهت حذف<<وندهای>> کلمات فارسی می باشد. در زبان فارسی <<وندهای>> مختلفی وجود دارند که به قبل یا بعد از کلمات افزوده می شوند. <<وندها>> باعث ایجاد هماهنگی کلمات، در جمله می شوند اما در تغییر ماهیت کلمات تاثیری ندارند. در برخی از سیستم های پردازش متن فارسی از جمله سیستم های طبقه بندی کننده متون، به الگوریتم نیاز است که از طریق آنها، وندهای فارسی را حذف می کنیم تا متون، ساده تر شوند. در این مقاله ابتدا به کلمات فاقد وند موجود در زبان فارسی، برچسب دستوری می زنیم. برچسب دستوری، نوع کلمه را مشخص می کند. نوع کلمه می تواند اسم ، بن فعل ، وندها و ... باشد. سپس با شناسایی طولانی ترین توالی از وندهایی که طبق دستور زبان فارسی به انواع مختلف کلمات متصل می شوند، اقدام به حذف زیر توالی وندهای متصل به کلمات می کنیم. جهت تولید زیر توالی وندهای کلمات فارسی، آنها را با استفاده از یک روال بازگشتی پردازش کرده و توالی نوع زیر کلماتشان را استخراج می کنیم. حذف توالی های وندی مجاز، با توجه نوع کلمه یا بعد از توالی وندها انجام می شود. این روش چون حذف وندها را با آگاهی از نوع کلمات انجام می دهد، دارای دقت 99% می باشد
Keywords:
Authors
رضا مصلح فسایی
دانشکده آموزش های الکترونیکی، دانشگاه شیراز
محمد هادی صدرالدینی
بخش مهندسی و علوم کامپیوتر و فناوری اطلاعات، دانشکده برق و کامپیوتر، دانشگاه شیراز
سید مصطفی فخراحمد
بخش مهندسی و علوم کامپیوتر و فناوری اطلاعات، دانشکده برق و کامپیوتر، دانشگاه شیراز
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :