ارایه روشی جهت جداسازی زیر کلمات در اسناد تایپی فارسی به کمک پردازش تصویر و ویژگی های آماری

احسان قمی; رضا طاولی

ارایه روشی جهت جداسازی زیر کلمات در اسناد تایپی فارسی به کمک پردازش تصویر و ویژگی های آماری

Publish place: اولین همایش ملی مهندسی کامپیوتر و فناوری اطلاعات

Publish Year: 1395

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 12 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > پردازش تصویر

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/668562

شناسه ملی سند علمی:

CEITECH01_042

تاریخ نمایه سازی: 17 آبان 1396

Abstract:

هدف این مقاله ارایه روش جهت جداسازی زیرکلمات با استفاده از ویژگی های آماری استخراج شده از اسناد تایپیفارسی میباشد. جداسازی زیرکلمات در یک سند یکی از مهمترین مراحل پیشپردازش، جهت آنالیز مکانیابی و بازشناسیکلمات در یک سند است. کلمات فارسی برخلاف کلمات انگلیسی از زیرکلمات تشکیل شدهاند. با جستجوی زیرکلمات میتوانبا استفاده از ویژگیهای استخراج شده آنها کلمه مورد نظر را در صورت اینکه در سند موجود باشد مکانیابی نمود. اینبررسی پس از جداسازی خطوط و زیرکلمات در سند با استفاده از ویژگی های آماری و ساختاری آنها به ایجاد الگو برای تکتک زیرکلمات و ذخیرهسازی در یک آرایه به عنوان پایگاه داده میپردازد. با فرض بر اینکه اسناد موجود برای جداسازیخطوط، باینری میباشد و خطوط موجود در اسناد در آرایه ای از ماتریس ها به صورت جداگانه در اندیس های آرایه ای ذخیرهشده است. در ابتدا برای تک تک خطوط جدا شده در اسناد مورد نظر الگوریتم نوشته شده اجرا می گردد و با تشخیص وجداسازی زیرکلمات آنها را در ماتریس های جداگانه برای استفاده ذخیره می نماید. در این روش با استفاده از مقادیر بدستآمده از ویژگی های آماری ماتریس خطوط، با در نظر گرفتن پیوستگی ستونی زیرکلمات جدا سازی آنها انجام می شود. نتایجبدست آمده از بررسی روش بکاربرده شده برای 55 سند تایپی با فونت های متداول و اندازه های مختلف نشان می دهد کهجداسازی تقریبا برای 99 % زیرکلمات در این اسناد، با فونت های رایج Nazanin, BNazanin, Zar, BZar, Mitra, Lotus, Blotus و همچنین فونت های مشابه با موفقیت انجام می پذیرد.

Keywords:

زیرکلمات , اسناد تایپی فارسی , ویژگی آماری , پردازش تصویر , پایگاه داده , مکانیابی کلمات

Authors

احسان قمی

دانش آموخته کارشناسی ارشد مهندسی کامپیوتر گرایش نرم افزار دانشگاه آزاد اسلامی واحد چالوس

رضا طاولی

عضو هیات علمی دانشگاه آزاد اسلامی واحد چالوس گروه مهندسی کامپیوتر