بهبود بازشناسی متن فارسی با استفاده از اطلاعات در سطح کلمات

بی تا نامور; رضا عزمی

بهبود بازشناسی متن فارسی با استفاده از اطلاعات در سطح کلمات

Publish place: 3rd International Conference on Pattern Analysis and Image Analysis

Publish Year: 1396

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 7 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > پردازش زبان طبیعی

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/638509

شناسه ملی سند علمی:

IPRIA03_058

تاریخ نمایه سازی: 13 شهریور 1396

Abstract:

در این مقاله روشی برای بهبود بازشناسی تصاویر متون چاپی فارسی با استفاده از اطلاعات آماری زبان در سطح کلمات ارایه شده است. در این روش ابتدا تصویر براساس روش مبتنی بر شکل کلی زیرکلمات بازشناسی می شود و برای هر زیرکلمه، زیرکلمات محتمل دیگر ازخروجی سیستم OCR دریافت می گردند، سپس تصحیح خطا با استفاده از اطلاعات مدل زبانی بایگرم در سطح کلمه انجام می گردد. در این روشبرای به دست آوردن کلمات محتمل از مدل مخفی مارکوف استفاده شده است. برای آزمایش روش های پیشنهادی، 19 سند با چهار فونتB Lotus, B Mitra, B Nazanin و B Yagut با اندازه های 14، 16، 18، 20 فراهم گردید. بازشناسی در سطح زیر کلمه با دقت حدود 88 درصد و اصلاح خطا در سطح کلمات دقت را به حدود 92 درصد افزایش داده است.

Keywords:

, OCR , پردازش زبان طبیعی , مدل مخفی مارکوف , مدل بایگرم , متن چاپی

Authors

بی تا نامور

دانشجو مقطع کارشناسی ارشد دانشگاه الزهرا (س)

رضا عزمی

دانشیارگروه مهندسی کامپیوتر دانشگاه الزهرا (س)