تشخیص متن اسناد فارسی با استفاده از یادگیری خود نظارتی

Publish Year: 1402
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 391

This Paper With 7 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

AISOFT01_022

تاریخ نمایه سازی: 28 بهمن 1402

Abstract:

بدون شک، متن از درخشان ترین و تاثیرگذارترین ابداعات بشر است و به عنوان ابزاری حیاتی برای ارتباط و همکاری، نقش مهم تری از همیشه در جامعه ی مدرن بازی می کند. طیف وسیعی از اطلاعات متنی در تصاویر وجود دارند. از این رو می توان برای دسترسی به اطلاعات مورد نیاز، متن موجود در تصاویر را استخراج کرد. این فرآیند چالش های منحصر به فرد خود را دارد که این چالش ها، در خصوص زبان های با ساختار پیوسته و متصل به هم، از جمله زبان فارسی، پیچیده تر نیز هستند. چالش هایی از قبیل : نوع فونت، ساختار کلمات، کمبود داده‎های برچسب دار، کمبود داده های مصنوعی و نبود داده های واقعی. برای حل این چالش ها می توان از شبکه های عصبی عمیق کمک گرفت. در این مقاله با پیاده سازی روش های مبتنی بر شبکه های عصبی و یادگیری عمیق، سعی بر رفع چالش های موجود از جمله کمبود داده های برچسب دار و استفاده از داده های واقعی شده است. این روش که یادگیری خود نظارتی نام دارد، با استفاده از شبکه های عصبی پیچشی و شبکه های عصبی بازگشتی، به حل این مشکلات کمک می کند. نتایج به دست آمده روی داده های تهیه شده نشان می دهد که با دقت ۹۲.۹٪ به این مهم دست یافته ایم.

Keywords:

تشخیص متن , تشخیص متن فارسی , شبکه های عصبی پیچشی , شبکه های عصبی بازگشتی , یادگیری خود نظارتی , یادگیری عمیق.

Authors

عاطفه بابایی

کارشناس ارشد، دانشکده مهندسی برق و کامپیوتر، دانشگاه شیراز، شیراز، ایران

مهران یزدی

استاد، گروه مهندسی برق، دانشکده مهندسی برق و کامپیوتر، دانشگاه شیراز، شیراز، ایران

علی جمشیدی

استاد، گروه مهندسی برق، دانشکده مهندسی برق و کامپیوتر، دانشگاه شیراز، شیراز، ایران

علیرضا دهقانی

استاد، دانشکده علوم کامپیوتر، دانشگاه کالج دابلین، دابلین، ایرلند