تشخیص حروف متون با استفاده از ویژگیهای الفبای زبان فارسی

Publish Year: 1395
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 1,597

This Paper With 6 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

KBEI03_083

تاریخ نمایه سازی: 11 مرداد 1396

Abstract:

نویسه خوانی نوری OCR عبارت است از بازشناسی اتوماتیک حروف موجود در تصاویر اسناد و تبدیل آنها به متون قابل جستجو و ویرایش توسط رایانه. یکی از مراحل مهم در سیستمهای تشخیص حروف، قطعهبندی و جداسازی حروف میباشد زیرا جداسازی نادرست منجر به تشخیص اشتباه حروف خواهد شد. با وجود کاربرد زیاد الفبای فارسی درسایر زبانها مانند عربی ، اردو و ... ، تحقیقات کمتری بر روی این الفبا نسبت به سایر زبانهای لاتین انجام شده است. پس یافتن الگوریتم مناسب برایاین امر از اهمیت بالایی برخوردار است. روشهای قبل، قطعهبندی حروف را با تعیین مرزهای الفبای زبان فارسی انجام میدهند. در این مقاله یک الگوریتم جدید بهبود یافته معرفی میشود که قطعهبندی را در سه مرحله تعیین خط زمینه، جداسازی کلمات و جداسازی کاراکترهای متن انجام می- دهد. سپس با استفاده از ویژگیهای الفبای زبان فارسی، روشهای هوش مصنوعی و آماری می توان قطعههای بدست آمده را با الفبای زبان فارسی تطبیق داد.

Authors

سیده ملیحه خاتمی

دانشکده فنی و مهندسی، دانشگاه دامغاندامغان، ایران

منصوره معادی

دانشکده فنی و مهندسی، دانشگاه دامغاندامغان، ایران

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :