CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارائه روشی متفاوت در بخش بندی بدنه زیرکلمات فارسی

عنوان مقاله: ارائه روشی متفاوت در بخش بندی بدنه زیرکلمات فارسی
شناسه ملی مقاله: ISCEE20_039
منتشر شده در بیستمین کنفرانس ملی دانشجویی مهندسی برق ایران در سال 1400
مشخصات نویسندگان مقاله:

زهرا بهمنی - عضو هیات علمی دانشگاه صنعتی خاتم الانبیاء بهبهان،ایران

خلاصه مقاله:
در سیستم های بازشناسی و بازیابی اسناد فارسی یکی از مهمترین چالش ها، بخش بندی بدنه کلمات است. در ساختارنوشتار فارسی با توجه به ساختار بهم پیوسته کلمات نیاز به یافتن محل دقیق اتصال حروف در روشهای مبتنی برجداسازی است. در این پژوهش نگاهی متفاوت به ساختار نوشتار زبان فارسی ارائه شده است. در این روش نیازی بهیافتن محل دقیق اتصال حروف نی ست. برای این کار به جای بخش بندی بدنه زیرکلمات به حروف، بدنه به زیرحرو فشکسته شده اند. برای این کار ابتدا بخش-ها یی که صرفا نقش اتصال دهنده زیرحروف را داشته و تاثیری در ماهیتحرف نداشته اند مشخص و از بدنه حذف شده اند. بر این اساس شیوه متفاوتی در بخش بندی بدنه کلمات فارسی معرفیشده است. در این روش با توجه به عدم نی از به تخمین نقطه انفصال، خطای ناش ی از تشخیص غلط آن حذف شدهاست. با توجه به تعداد محدود دیکشنری تعریف شده برای زیرحروف نهایی ، فرآیند تشخیص زیرحروف با خطای کمتراز ۱ % انجام شده است.

کلمات کلیدی:
بخش بندی، بازشناسی اسناد، بازیابی اسناد، شبکه عصبی RBF

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1277902/