استخراج خطوط در اسناد دست نویس فارسی مبتنی بر خوشه بندی سلسله مراتبی

Publish Year: 1395
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 571

This Paper With 8 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

ICIKT08_079

تاریخ نمایه سازی: 5 بهمن 1395

Abstract:

استخراج خط از اسناد دست نویس یکی از مهمترین مراحل پیش پردازش درآنالیز اسناد مانند درک اسناد تصویری، شناسایی متوندستنویس یا چاپی و جستجوی کلمه در اسناد تصویری (Word Spotting) است. تنوع در فاصله بین خطوط، فاصله بین کلمات یک خطو شیب خط و همچنین اتصال و همپوشانی بین خطوط باعث شده که این مسئله یک چالش بزرگ باقی بماند. این مشکل در زبانهایی بارسم الخط بهم چسبیده، مانند فارسی و عربی، بخاطر وجود فاصله بین زیرکلمات و همچنین تنوع در تعداد و محل نقاط و وجود سرکشبسیار پیچیده تر می باشد. در این مقاله یک رهیافت جدید برای استخراج و قطعه بندی خطوط در متن دستنویس فارسی ارائه شده است. یکروش خوشه بندی سلسله مراتبی (Hierarchical Clustering) براساس نزدیکترین فاصله (Single-Linkage) با یک معیار فاصله جدیدکه ساختار نگارش فارسی را در نظر می گیرد برای خوشه بندی اجزاء متصل ((Connected Component (CC) مورد استفاده قرار گرفتهاست. سپس یک سری قواعد براساس شیب خط و ساختار زبان فارسی جهت اتصال و جداسازی خوشه های بدست آمده اعمال شده است.پارامترهای مورد استفاده براساس سند بصورت وفقی تعیین می گردند. تست این روش روی دو مجموعه داده استاندارد نتایج قابل قبولی رانشان می دهد.

Keywords:

آنالیز اسناد تصویری , استخراج خط , اسناد دست نویس فارسی , خوشه بندی سلسله مراتبی

Authors

مجید ایرانپورمبارکه

دانشجوی دکتری دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی شاهرود

علیرضا احمدی فرد

دانشیاردانشکده مهندسی برق و رباتیک، دانشگاه صنعتی شاهرود