ارایه روشی جهت جداسازی زیر کلمات در اسناد تایپی فارسی به کمک پردازش تصویر و ویژگی های آماری

Publish Year: 1395
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 384

This Paper With 12 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

CEITECH01_042

تاریخ نمایه سازی: 17 آبان 1396

Abstract:

هدف این مقاله ارایه روش جهت جداسازی زیرکلمات با استفاده از ویژگی های آماری استخراج شده از اسناد تایپیفارسی میباشد. جداسازی زیرکلمات در یک سند یکی از مهمترین مراحل پیشپردازش، جهت آنالیز مکانیابی و بازشناسیکلمات در یک سند است. کلمات فارسی برخلاف کلمات انگلیسی از زیرکلمات تشکیل شدهاند. با جستجوی زیرکلمات میتوانبا استفاده از ویژگیهای استخراج شده آنها کلمه مورد نظر را در صورت اینکه در سند موجود باشد مکانیابی نمود. اینبررسی پس از جداسازی خطوط و زیرکلمات در سند با استفاده از ویژگی های آماری و ساختاری آنها به ایجاد الگو برای تکتک زیرکلمات و ذخیرهسازی در یک آرایه به عنوان پایگاه داده میپردازد. با فرض بر اینکه اسناد موجود برای جداسازیخطوط، باینری میباشد و خطوط موجود در اسناد در آرایه ای از ماتریس ها به صورت جداگانه در اندیس های آرایه ای ذخیرهشده است. در ابتدا برای تک تک خطوط جدا شده در اسناد مورد نظر الگوریتم نوشته شده اجرا می گردد و با تشخیص وجداسازی زیرکلمات آنها را در ماتریس های جداگانه برای استفاده ذخیره می نماید. در این روش با استفاده از مقادیر بدستآمده از ویژگی های آماری ماتریس خطوط، با در نظر گرفتن پیوستگی ستونی زیرکلمات جدا سازی آنها انجام می شود. نتایجبدست آمده از بررسی روش بکاربرده شده برای 55 سند تایپی با فونت های متداول و اندازه های مختلف نشان می دهد کهجداسازی تقریبا برای 99 % زیرکلمات در این اسناد، با فونت های رایج Nazanin, BNazanin, Zar, BZar, Mitra, Lotus, Blotus و همچنین فونت های مشابه با موفقیت انجام می پذیرد.

Authors

احسان قمی

دانش آموخته کارشناسی ارشد مهندسی کامپیوتر گرایش نرم افزار دانشگاه آزاد اسلامی واحد چالوس

رضا طاولی

عضو هیات علمی دانشگاه آزاد اسلامی واحد چالوس گروه مهندسی کامپیوتر