استخراج خطوط در اسناد دست نویس فارسی مبتنی بر خوشه بندی سلسله مراتبی

مجید, ایرانپورمبارکه; علیرضا, احمدی فرد

استخراج خطوط در اسناد دست نویس فارسی مبتنی بر خوشه بندی سلسله مراتبی

عنوان مقاله: استخراج خطوط در اسناد دست نویس فارسی مبتنی بر خوشه بندی سلسله مراتبی
شناسه ملی مقاله: ICIKT08_079
منتشر شده در هشتمین کنفرانس بین المللی فناوری اطلاعات ودانش در سال 1395

مشخصات نویسندگان مقاله:

مجید ایرانپورمبارکه - دانشجوی دکتری دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی شاهرود
علیرضا احمدی فرد - دانشیاردانشکده مهندسی برق و رباتیک، دانشگاه صنعتی شاهرود

خلاصه مقاله:

استخراج خط از اسناد دست نویس یکی از مهمترین مراحل پیش پردازش درآنالیز اسناد مانند درک اسناد تصویری، شناسایی متوندستنویس یا چاپی و جستجوی کلمه در اسناد تصویری (Word Spotting) است. تنوع در فاصله بین خطوط، فاصله بین کلمات یک خطو شیب خط و همچنین اتصال و همپوشانی بین خطوط باعث شده که این مسئله یک چالش بزرگ باقی بماند. این مشکل در زبانهایی بارسم الخط بهم چسبیده، مانند فارسی و عربی، بخاطر وجود فاصله بین زیرکلمات و همچنین تنوع در تعداد و محل نقاط و وجود سرکشبسیار پیچیده تر می باشد. در این مقاله یک رهیافت جدید برای استخراج و قطعه بندی خطوط در متن دستنویس فارسی ارائه شده است. یکروش خوشه بندی سلسله مراتبی (Hierarchical Clustering) براساس نزدیکترین فاصله (Single-Linkage) با یک معیار فاصله جدیدکه ساختار نگارش فارسی را در نظر می گیرد برای خوشه بندی اجزاء متصل ((Connected Component (CC) مورد استفاده قرار گرفتهاست. سپس یک سری قواعد براساس شیب خط و ساختار زبان فارسی جهت اتصال و جداسازی خوشه های بدست آمده اعمال شده است.پارامترهای مورد استفاده براساس سند بصورت وفقی تعیین می گردند. تست این روش روی دو مجموعه داده استاندارد نتایج قابل قبولی رانشان می دهد.

کلمات کلیدی:

آنالیز اسناد تصویری، استخراج خط، اسناد دست نویس فارسی، خوشه بندی سلسله مراتبی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/548738/