جداسازی خطوط متن و استخراج برون خط دنباله ای از مولفه های متصل در دست نوشته فارسی

Publish Year: 1394
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 714

This Paper With 6 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

ICMVIP09_040

تاریخ نمایه سازی: 6 اسفند 1395

Abstract:

در این مقاله روشی برای جداسازی خطوط متن در دست نوشته فارسی با استفاده از استخراج برون خط دنباله ای از مولفه های متصل ارائه شده است. در این روش ابتدا کل مولفه های متصل موجود در متن استخراج شده سپس مولفه ی متصل که شروع کننده هر خط است مشخص می شود. در ادامه با اعمال روش نزدیک ترین همسایه، تمام مولفه های متصل هر خط بصورت یک زنجیره و به همان ترتیبی که در متن قرار دارند بدست می ایند. در نتیجه بعد از این مرحله، هر یک از مولفه های متصل موجود در متن به یکی از خطوط اختصاص یافته اند. در واقع می توان هر خط را با مولفه های متصلش به طور مستقل از مابقی خطوط نمایش داد. نتیجه این مرحله جداسازی خطوط از یکدیگر می باشد. در مرحله ی بعدی با در نظر گرفتن این قانون که اکثر حروف اضافه و کلمات فارسی از ترکیب دو تا هفت مولفه متصل تشکیل شده اند استخراج کلمات متن انجام می شود. مولفه های متصلی که مربوط به یک کلمه مستقل در متن هستند به همان ترتیبی که در کلمه وجود دارند با این روش شناسایی شده اند. نرخ آشکارسازی در مرحله جداسازی خطوط برابر با ۹۹.۵ درصد می باشد. درصد دقت در مرحله استخراج دنباله ای از مولفه های متصل، ۹۴.۳۶ برای کلمات و ۹۷.۶ برای حروف اضافه است.

Keywords:

جداسازی خطوط متن , پردازش اسناد دست نویس فارسی , مولفه متصل

Authors

بهاره اسدی

دانشگاه شاهرود، بخش مهندسی برق

علیرضا احمدی فرد

دانشگاه شاهرود، بخش مهندسی برق

مجید ایران پور مبارکه

دانشگاه شاهرود، بخش مهندسی کامپیوتر و فناوری اطلاعات