ارایه روشی جدید برای جداسازی خطوط در اسناد تایپی فارسی به کمک پردازش تصویر

Publish Year: 1395
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 412

This Paper With 11 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

CEITECH01_041

تاریخ نمایه سازی: 17 آبان 1396

Abstract:

هدف این مقاله ارایه روش جدید برای جداسازی خطوط با استفاده از الگوهای استخراج شده از ویژگی ها در اسناد تایپیفارسی می باشد. جداسازی خطوط به عنوان اولین و مهمترین مرحله پیش پردازش جهت آنالیز مکانیابی و بازشناسی کلمات دریک سند است. ابتدا با فرض بر اینکه اسناد موجود برای جداسازی خطوط، باینری میباشد با استفاده از پردازش سند موردنظر توسط تابع نوشته شده و بررسی تک تک پیکسل های آن و مقایسه با الگوهای آماری استخراج شده ابتدا و انتهای یک خطمشخص می گردد و در آرایه ای ذخیره می شود. در پایان از سند اولیه با توجه به مکان های بدست آمده برای ابتدا و انتهایخطوط، مرحله جدا سازی انجام می پذیرد. نتایج بدست آمده از بررسی روش بکاربرده شده برای 55 سند تایپی با فونت هایبیان شده و اندازه های مختلف نشان می دهد که جداسازی برای 100 % خطوط در این اسناد، با فونت های رایج Nazanin, BNazanin, Zar, BZar, Mitra, Lotus, Blotus و همچنین فونت های مشابه با موفقیت انجام می پذیرد.

Authors

احسان قمی

دانش آموخته کارشناسی ارشد مهندسی کامپیوتر گرایش نرم افزار دانشگاه آزاد اسلامی واحد چالوس

رضا طاولی

عضو هیات علمی دانشگاه آزاد اسلامی واحد چالوس گروه مهندسی کامپیوتر