CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

بهیود بازشناسی زیرحروف فارسی با تشخیص زیرحروف شاخص و ادغام زیرحروف مشابه

عنوان مقاله: بهیود بازشناسی زیرحروف فارسی با تشخیص زیرحروف شاخص و ادغام زیرحروف مشابه
شناسه ملی مقاله: ICTBC04_007
منتشر شده در چهارمین همایش بین المللی مهندسی فناوری اطلاعات، کامپیوتر و مخابرات ایران در سال 1400
مشخصات نویسندگان مقاله:

زهرا بهمنی - عضو هیات علمی دانشگاه صنعتی خاتم الانبیاء بهبهان

خلاصه مقاله:
یکی از رویکردهای بازشناسی کلمات فارسی رویکرد مبتنی بر جداسازی است. در این رویکرد سعی می شود بدنهزیرکلمه به حروف تشکیل دهنده آن بخش بندی شود. مهمترین چالش این رویکرد تشخیص نقطه انفصال است. در اینپژوهش به جای تشخیص نقطه انفصال، بخش های اتصال دهنده زیرحروف از بدنه زیرکلمات حذف شده و زیرحروف استخراجشده اند. در مرحله تشخیص زیرحروف به وسیله شبکه عصبی، برای کاهش تعداد کلاس ها برخی از حروف شاخص که تشخیصآنها از روی ویژگی های شکلی با خطای نزدیک به صفر انجام می شود از مجموعه زیرحروف جدا شده است. همچنینزیرحروفی که از لحاظ شکل ظاهری شبیه هستند با هم ادغام شده و به عنوان یک کلاس تشخیص در نظر گرفته شده اند.در نهایت زیرحروفی که با هم ادغام شده اند به وسیله یک شبکه عصبی جدا آموزش داده شده و از یکدیگر تفکیک می شوند.نتایج نشان می دهد که این روش بهبود زیادی در تشخیص زیرحروف ایجاد می کند.

کلمات کلیدی:
شبکه عصبی، زیرحروف شاخص، بازشناسی اسناد چاپی فارسی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1259791/