CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

تشخیص خط نستعلیق با استفاده از یک روش کارآمد طبقه بندی ترکیبی

عنوان مقاله: تشخیص خط نستعلیق با استفاده از یک روش کارآمد طبقه بندی ترکیبی
شناسه ملی مقاله: ICSEE02_027
منتشر شده در دومین کنفرانس نوآوری در علوم کامپیوتر و مهندسی برق در سال 1397
مشخصات نویسندگان مقاله:

مهسا شکوهی - دانشجوی دوره کارشناسی ارشد فناوری اطلاعات موسسه آموزش عالی ادیبان
حامد شیدائیان - دانشجوی دوره دکتری مهندسی کامپیوتر دانشگاه تهران

خلاصه مقاله:
بازشناسی نویسه از جمله عناوین پژوهشی است که در بسیاری از کاربردهای تجاری و اداری نقش مهمی ایفا میکند. امروزه نسبت به گذشته کتب، اسناد و مدارک، پیش از پیش به سمت تولید و نگهداری دیجیتال پیشرفته اند. این پیشرفت باعث ایجاد نیازهای جدیدی در کاربران شده است که عبارتند از؛ جستجو در متن- ویرایش محتوای فایلهای دیجیتالی و ذخیره سازی فایلها با فرمت دلخواه. از آنجایی که خط نستعلیق از عمومی ترین و کاربردیترین خطوط محبوب در شعر و ادب فارسی میباشد، شناسایی کاراکترهای خط نستعلیق به دلیل خاصیت همپوشانی و مورب بودن حروف، بسیار دشوارتر از سایر خطوط میباشند. در مقاله ی جاری به منظور شناسایی حروف تایپی تصاویر دیجیتالی با فونت نستعلیق، داده های ورودی را به وسیله ی کامپیوتر با نرم افزار فتوشاپ با فونت ایران نستعلیق ایجاد نمودیم. با توجه به سیستم پیشنهادی، در مرحله ی پیش پردازش داده های ورودی را برای تسهیل در روند اجرای مراحل بعدی آماده کرده و در مرحله ی تقطیع کلمه ی ورودی را به حروف سازنده اش تقسیم نمودیم، سپس در مرحله ی استخراج ویژگی با استفاده از آنالیز اجزای اصلی ویژگیهای تصاویر را استخراج نموده و در نهایت در مرحله ی شناسایی با کمک تکنیک ترکیب گروهی به شناسایی داده های ورودی میپردازیم. در پایان کار، با سنجش کارایی سیستم دریافتیم روش جنگل تصادفی با میزان صحت بالا، عملکرد مناسبی دارد. برای اثبات این ادعا روش جنگل تصادفی را با روش های SVM و DT مقایسه نمودیم، نتایج نشان می دهد استفاده از روش جنگل تصادفی عملکرد سیستم را نسبت به درخت تصمیم منفرد و ماشین بردار پشتیبان بطور قابل توجهی بهبود داده است.

کلمات کلیدی:
OCR نستعلیق فارسی، تقطیع، آنالیز اجزای اصلی، درخت تصمیم، جنگل تصادفی.

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/882885/