شناسایی مقاوم متون چاپی با استفاده از مدل مخفی مارکف

Publish Year: 1385
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 1,380
  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

ACCSI12_333

تاریخ نمایه سازی: 23 دی 1386

Abstract:

این مقاله به توصیف سامانه بازشناسی مقاوم متون چاپی فارسی اختصاص داردکه بر اساس مدل مخفی مارکف بنا شده است. گذشته از مقاومت نسبی در برابر نویزهای متداول، نکته اصلی مورد توجه، مقاومت در برابر تغییر نوع متن و عدم حساسیت در برابر ظهور کلماتی است که به طور معمول در لغت نامه یافت نمی شوند. به علاوه سامانه می تواند در برابر تغییر نوع و اندازه قلم های متداول و نیز کجی متداول صفحات اسکن شده ، مقاومت کند. بدنه اصلی این سامانه با الهام از برخی پژوهش های پیشین (انگلیسی و عربی) پیاده سازی شده است. در عین حال برای بهبود عملکرد سامانه، سه پیشنهاد جدید ارائه شده است. اولین پیشنهادی استفاده از ویژگی های حروف فارسی برای تعریف یک گرامر مناسب است که خطا را بدون هیچ هزینه ای به شکل قابل توجه کاهش می دهد. ایده دوم، به شناسایی قلم با استفاده از مدل مخفی مارکف و پیشنهاد سوم به افزایش مقاومت در برابر کجی صفحات اسکن شده اختصاص دارد. بخصوص نتایج حاصل از کاربرد مدل مخفی مارکف در شناسایی قلم قابل توجه است. این در حالی است که ظاهرا پیشتر پژوهشی در زمینه شناسایی قلم های فارسی صورت نگرفته است. بر خلاف بسیار ی از پژوهش های حوزخ زبان فارسی که برای تست کارایی از بانک کلمات (که در عمل وجود خارجی ندارد و استخراج انها خود با خطا همراه است) استفاده کرده اند، ورودی این سامانه صفحات متن است و بنابراین نتایج واقعی تر هستند.نتایج تجربی کاهش چشمگیر خطا به میزان 48 درصد را تایید می کنند.

Keywords:

شناسایی متون چاپی فارسی , شناسایی مقاوم , مدل مخفی مارکف , سامانه مستقل از قلم , کلمات خارج از لغت نامه , شناسایی قلم , ویژگی های حروف فارسی , کجی صفحات اسکن شده

Authors

سیدعباس باقری یزدی

دانشجوی کارشناسی ارشد هوش ماشین و رباتیک، دانشگاه تهران، دانشکده مه

بابک نجاراعرابی

دانشیار دانشگاه تهران، دانشکده مهندسی برق و کامپیوتر، قطب علمی کنتر